Задача заключалась в подготовке данных сетевого трафика для использования в моделях машинного обучения с целью улучшения безопасности сети. Конкретно требовалось агрегировать данные, полученные с помощью инструмента Zeek, и преобразовать их в формат, пригодный для обучения машинных моделей. А далее разработать и обучить классификаторы машинного обучения для обнаружения и классификации аномального сетевого трафика, связанного с сетевыми сканированиями.
Для решения задачи были использованы два метода:
В результате выполнения данных шагов был получен структурированный и предварительно обработанный набор данных в формате ARFF, который можно использовать для обучения моделей машинного обучения с целью прогнозирования и обнаружения аномалий в сетевом трафике.
Метод таблицы решений показал высокую точность и был выбран в качестве предпочтительного метода для классификации аномального сетевого трафика. Дерево решений потребовало дополнительных настроек и тестов для улучшения его точности.