4cd511bfb8cdb7cf8938ea84ee3f29df.ppt
- Количество слайдов: 13
На страже уникальности (о дубликатах и методах борьбы с ними) Иван Молчанов
Что такое «дубликат» ?
Источники дубликатов • Различные URL одного документа (http: //www. site. ru/ и http: //www. site. ru/index. php) • Преобразования документа (смена формата документа) • Редактирование документа (перестановка обзацев, предложений, форматирование текста) • Сознательная «уникализация» документа (спам-технологии, замена слов синонимами)
Кластеризация веб-дубликатов • Оффлайн кластеризация – Вычисления хэш-функций » Синтаксические » Лексические Сравниваются не сами документы, а их «отпечатки» - наборы идентифицирующих их контрольных сумм. • Онлайн кластеризация – Анализ ссылок – Анализ текста
Предварительная обработка • удаление HTML разметки • удаление лишних пробелов и пунктуации • удаление стоп-слов ( например, союзы) • стемминг слов ( нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова) и тд.
Метод шинглов Andrei Broder (Андрей Бродер) в 1997 придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки» ) Минусы синтаксического подхода • невозможность разбивать текст на важные и ненужные части • для больших объемов данных необходимы очень значительные вычислительные возможности
Антиплагиат Если же говорить серьезно, то алгоритмы системы построены таким образом, что обмануть «Антиплагиат» непросто. * замена русских букв (кириллицы) схожими по виду латинскими; * перестановка абзацев; * перегруппировка предложений в абзацах; * перестановка слов в предложениях; * разбиение и слияние предложений; * замена точек запятыми; * замена пробелов точками; * замена слов синонимами. Вы можете самостоятельно проверить это, проделав соответствующие манипуляции с любым документом. Таким образом, чтобы «обхитрить» систему «Антиплагиат» , студенту придётся провести серьёзную вдумчивую работу над текстом, в чём и заключается его задача при написании рефератов и курсовых работ.
Антиплагиат
Антиплагиат 1 – источник - 1% уник. 2 - замена каждого 7 слова (исключая стоп-слова) - 16% уник. 3 - замена каждого 6 слова (исключая стоп-слова) - 16% уник. 4 - замена каждого 5 слова (исключая стоп-слова) - 25% уник. 5 - замена каждого 4 слова (исключая стоп-слова) текст 512 к - 100% уник. 6 - замена каждого 4 слова (исключая стоп-слова) ув. 1, 89 кб - 100% уник.
Лексические методы • Локальные (TF) (Локальные сигнатуры рассматривают документ изолированно от коллекции и пытаются извлечь несколько слов описывающих документ, основываясь исключительно на их вхождениях в самом документе) • Глобальные(IDF) (Глобальные сигнатуры используют статистику слов во всей коллекции документов или инвертированный индекс - (inverted file, инверсный файл, инвертированный список) — индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось)
Как защитить свой контент Один из методов: • «Объявить первоисточником» (Чтобы защитить свой контент иногда достаточно разместить дубликат своей статьи на других сайтах с ссылкой на оригинал. Вариантов – море, один из них – покупка размещения статей со ссылками на собственный сайт на авторитетных сайтах. И если подобных ссылок на Вас достаточно много – то несколько копий Вашей статьи без ссылки на оригинал контента уже не принесут сайту никакого вреда. )
Контр-борьба • Генерация невидимого (или очень слабо видимого) текста средствами HTML (Эвристики, надежно распознающий эту технику. Например, массу специфичных тегов HTML или CSS (например visibility: hidden). Не советую в данные элементы прятать, к примеру, ссылки – это чревато. ) • Генерация видимого «мусора» , то есть случайных буквенных цепочек (Исключение из шинглов «несловарных» слов. Обратите внимание что «словарь» в данном случае - частотный словарь, полученный из индекса. Кстати, доля несловарных слов с таким «антидетектором» будет необычно высокой) • Вставка пробелов в текст в случайных местах внутри слов и удаление их между словами. (Можно все слова текста склеить в одну цепочку из букв, фиксированным окошком вычислить шинглы). Кроме того, доля «несловарных» слов тоже будет аномально высока. • Использование синонимайзера (Главная проблема русскоязычного синонимайзера – получается очень плохо читаемый текст, поэтому область применения в авторежиме очень ограничена) и тд.
Спасибо за внимание! Иван Молчанов, Люкс-Ар
4cd511bfb8cdb7cf8938ea84ee3f29df.ppt