Обработка сетевого трафика

Задача

Задача заключалась в подготовке данных сетевого трафика для использования в моделях машинного обучения с целью улучшения безопасности сети. Конкретно требовалось агрегировать данные, полученные с помощью инструмента Zeek, и преобразовать их в формат, пригодный для обучения машинных моделей. А далее разработать и обучить классификаторы машинного обучения для обнаружения и классификации аномального сетевого трафика, связанного с сетевыми сканированиями.

Сбор данных

Данные собирались с использованием виртуальных машин (zeek1 и zeek2) и инструмента Mininet для создания виртуальной сетевой топологии и генерации сетевого трафика.
Использовались два типа трафика: безвредный (benign) и вредоносный (malicious).

Агрегация данных

Объединение безвредного и вредоносного трафика для создания обучающего и тестового наборов данных.
Преобразование данных в числовой и номинальный формат, необходимый для алгоритмов машинного обучения.

Методы решения

Для решения задачи были использованы два метода:

Таблица решений
Дерево решений

Процесс решения

Импортирование и предобработка данных: Набор данных был импортирован в Weka, где атрибуты IP-адресов были преобразованы из строковых в числовые значения с использованием фильтра NumericToNominal.
Обучение классификаторов: Были обучены два типа классификаторов:
- Таблица решений: Классификатор был обучен на тренировочном наборе данных и показал точность 96%.
- Дерево решений: Классификатор также был обучен, но показал меньшую точность, ошибочно классифицировав один из вредоносных пакетов как безопасный.
Модификация классификаторов: Для улучшения точности дерева решений был удален атрибут времени, однако новая модель показала еще меньшую точность.
Тестирование и сохранение моделей: Таблица решений была выбрана как более точный классификатор и сохранена для последующего использования. Была проведена проверка на тестовом наборе данных.

Результаты

В результате выполнения данных шагов был получен структурированный и предварительно обработанный набор данных в формате ARFF, который можно использовать для обучения моделей машинного обучения с целью прогнозирования и обнаружения аномалий в сетевом трафике.

Метод таблицы решений показал высокую точность и был выбран в качестве предпочтительного метода для классификации аномального сетевого трафика. Дерево решений потребовало дополнительных настроек и тестов для улучшения его точности.