Обработка сетевого трафика

Задача

Задача заключалась в подготовке данных сетевого трафика для использования в моделях машинного обучения с целью улучшения безопасности сети. Конкретно требовалось агрегировать данные, полученные с помощью инструмента Zeek, и преобразовать их в формат, пригодный для обучения машинных моделей. А далее разработать и обучить классификаторы машинного обучения для обнаружения и классификации аномального сетевого трафика, связанного с сетевыми сканированиями.

Сбор данных

  • Данные собирались с использованием виртуальных машин (zeek1 и zeek2) и инструмента Mininet для создания виртуальной сетевой топологии и генерации сетевого трафика.
  • Использовались два типа трафика: безвредный (benign) и вредоносный (malicious).

Агрегация данных

  • Объединение безвредного и вредоносного трафика для создания обучающего и тестового наборов данных.
  • Преобразование данных в числовой и номинальный формат, необходимый для алгоритмов машинного обучения.

Методы решения

Для решения задачи были использованы два метода:

  1. Таблица решений
  2. Дерево решений

Процесс решения

  1. Импортирование и предобработка данных: Набор данных был импортирован в Weka, где атрибуты IP-адресов были преобразованы из строковых в числовые значения с использованием фильтра NumericToNominal.
  2. Обучение классификаторов: Были обучены два типа классификаторов:
    • Таблица решений: Классификатор был обучен на тренировочном наборе данных и показал точность 96%.
    • Дерево решений: Классификатор также был обучен, но показал меньшую точность, ошибочно классифицировав один из вредоносных пакетов как безопасный.
  3. Модификация классификаторов: Для улучшения точности дерева решений был удален атрибут времени, однако новая модель показала еще меньшую точность.
  4. Тестирование и сохранение моделей: Таблица решений была выбрана как более точный классификатор и сохранена для последующего использования. Была проведена проверка на тестовом наборе данных.

Результаты

В результате выполнения данных шагов был получен структурированный и предварительно обработанный набор данных в формате ARFF, который можно использовать для обучения моделей машинного обучения с целью прогнозирования и обнаружения аномалий в сетевом трафике.

Метод таблицы решений показал высокую точность и был выбран в качестве предпочтительного метода для классификации аномального сетевого трафика. Дерево решений потребовало дополнительных настроек и тестов для улучшения его точности.