
4257b7e4f939577224dd277f79dcc640.ppt
- Количество слайдов: 21
Проблемы построения систем защиты от спама в Интернете Карбачинский И. О.
Виды спама - Почтовые рассылки - SMS спам - Спам в мессенджерах - Выдача поисковой системы
Антиспам система — бинарный классификатор С = { 0 – не спам, 1 – спам }
Построение классификатора Шаг 1: Составляем размеченную выборку Class Url Spam http: //www. hocu. 9 f. com Spam http: //bancdyx. narod. ru/znakomstva-transseksulka. html Not Spam http: //dating-01. narod. ru/znakomstva-moskva-siando. html Spam http: //defushka-vapen. narod. ru/prostitutki-g-vologda. html Not Spam http: //www. travelspo. ru/france Spam http: //www. ekimovsky. ru/ . . .
Построение классификатора Шаг 2: Обучающее и проверочное множества Class Url Spam http: //www. hocu. 9 f. com Spam http: //bancdyx. narod. ru/znakomstva-transseksulka. html Not Spam http: //dating-01. narod. ru/znakomstva-moskva-siando. html Spam http: //defushka-vapen. narod. ru/prostitutki-g-vologda. html Not Spam http: //www. travelspo. ru/france Spam http: //www. ekimovsky. ru/ . . .
Построение классификатора Шаг 3: Выделяем признаки. Нормализация Class Feature 1 Feature 2 . . . Feature. N Spam 0. 001 0. 322 . . . 0. 254 Spam 1. 552 2. 56 . . . 0. 986 Not Spam 1. 21 5. 6 . . . 1. 322 Spam 9. 92 10. 11 . . . 8. 65 Not Spam 0. 1 . . . 0. 098 Spam 4. 3 3. 1 . . . 5. . . . F: (f 1, …, fn) → (0, 1)
Построение классификатора Пусть X — множество объектов Y — множество классов {0, 1} X* — обучающая выборка из X. Также известно h*: X* → Y Задача: Для , найти h: X →Y.
Как найти h(x)?
Как найти h(x)?
Как найти h(x)?
Построение классификатора Шаг 4: Выбираем алгоритм обучения и строим модель ● KNN ● Байесовские методы ● Нейронные сети ● Деревья решений ● SVM ● . . .
Построение классификатора Шаг 4: Оценка качества
Классификатор спама ● Большое обучающее множество ( > 200 000 страниц) ● Долго обучается ( > 10 часов ) ● Сотни признаков ● Обучить несколько моделей нельзя ● ● Необходимо постоянно пополнять обучающее множество и заново обучать классификатор Скорость / Надежность / 24 x 7
Плохое качество! Что делать? ● Плохое обучающее множество ● Плохой алгоритм обучения ● Плохо подобраны признаки
Feature Selection ● Много алгоритмов ● Большинство неприменимы к большим объемам данных ● Некоторые алгоритмы содержат в себе отбор признаков ● Большинство методов требует построения модели на каждой итерации Wrapper, Filter, Embeded методы
Minimum-redundancy-maximum-relevance (m. RMR) X – множество признаков, С – класс. U – произвольное подмножество признаков из X - вектор значений k-ого признака из U - взаимная информация признаков Избыточность подмножества признаков: Релевантность подмножества признаков: Критерий MRMR:
Minimum-redundancy-maximum-relevance (m. RMR) ● Не требует построения модели ● Быстрая скорость работы ● Упорядоченный рейтинг признаков ● Показывает избыточные признаки ● Прирост качества
Как еще уменьшить размерность простарнства признаков? Сжать без потери информации! 1. Principal component analysis 2. Random Projection
Principal component analysis X – множество признаков Представим X в виде произведения двух матриц T ( )и. P( ), z < n. T – матрица счетов, P – матрица нагрузок. После разложения матрицы в композицию матриц T, P и E, вводятся формальные переменные: - линейная комбинация исходных переменных. новые,
Проблема переобучения Явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но достаточно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки). Способы борьбы: 1. Cross-validation 2. Регуляризация
Спасибо! igorkarbachinsky@mail. ru Вопросы?
4257b7e4f939577224dd277f79dcc640.ppt