Скачать презентацию На страже уникальности о дубликатах и методах борьбы Скачать презентацию На страже уникальности о дубликатах и методах борьбы

4cd511bfb8cdb7cf8938ea84ee3f29df.ppt

  • Количество слайдов: 13

На страже уникальности (о дубликатах и методах борьбы с ними) Иван Молчанов На страже уникальности (о дубликатах и методах борьбы с ними) Иван Молчанов

Что такое «дубликат» ? Что такое «дубликат» ?

Источники дубликатов • Различные URL одного документа (http: //www. site. ru/ и http: //www. Источники дубликатов • Различные URL одного документа (http: //www. site. ru/ и http: //www. site. ru/index. php) • Преобразования документа (смена формата документа) • Редактирование документа (перестановка обзацев, предложений, форматирование текста) • Сознательная «уникализация» документа (спам-технологии, замена слов синонимами)

Кластеризация веб-дубликатов • Оффлайн кластеризация – Вычисления хэш-функций » Синтаксические » Лексические Сравниваются не Кластеризация веб-дубликатов • Оффлайн кластеризация – Вычисления хэш-функций » Синтаксические » Лексические Сравниваются не сами документы, а их «отпечатки» - наборы идентифицирующих их контрольных сумм. • Онлайн кластеризация – Анализ ссылок – Анализ текста

Предварительная обработка • удаление HTML разметки • удаление лишних пробелов и пунктуации • удаление Предварительная обработка • удаление HTML разметки • удаление лишних пробелов и пунктуации • удаление стоп-слов ( например, союзы) • стемминг слов ( нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова) и тд.

Метод шинглов Andrei Broder (Андрей Бродер) в 1997 придумал название и довел до ума Метод шинглов Andrei Broder (Андрей Бродер) в 1997 придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки» ) Минусы синтаксического подхода • невозможность разбивать текст на важные и ненужные части • для больших объемов данных необходимы очень значительные вычислительные возможности

Антиплагиат Если же говорить серьезно, то алгоритмы системы построены таким образом, что обмануть «Антиплагиат» Антиплагиат Если же говорить серьезно, то алгоритмы системы построены таким образом, что обмануть «Антиплагиат» непросто. * замена русских букв (кириллицы) схожими по виду латинскими; * перестановка абзацев; * перегруппировка предложений в абзацах; * перестановка слов в предложениях; * разбиение и слияние предложений; * замена точек запятыми; * замена пробелов точками; * замена слов синонимами. Вы можете самостоятельно проверить это, проделав соответствующие манипуляции с любым документом. Таким образом, чтобы «обхитрить» систему «Антиплагиат» , студенту придётся провести серьёзную вдумчивую работу над текстом, в чём и заключается его задача при написании рефератов и курсовых работ.

Антиплагиат Антиплагиат

Антиплагиат 1 – источник - 1% уник. 2 - замена каждого 7 слова (исключая Антиплагиат 1 – источник - 1% уник. 2 - замена каждого 7 слова (исключая стоп-слова) - 16% уник. 3 - замена каждого 6 слова (исключая стоп-слова) - 16% уник. 4 - замена каждого 5 слова (исключая стоп-слова) - 25% уник. 5 - замена каждого 4 слова (исключая стоп-слова) текст 512 к - 100% уник. 6 - замена каждого 4 слова (исключая стоп-слова) ув. 1, 89 кб - 100% уник.

Лексические методы • Локальные (TF) (Локальные сигнатуры рассматривают документ изолированно от коллекции и пытаются Лексические методы • Локальные (TF) (Локальные сигнатуры рассматривают документ изолированно от коллекции и пытаются извлечь несколько слов описывающих документ, основываясь исключительно на их вхождениях в самом документе) • Глобальные(IDF) (Глобальные сигнатуры используют статистику слов во всей коллекции документов или инвертированный индекс - (inverted file, инверсный файл, инвертированный список) — индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось)

Как защитить свой контент Один из методов: • «Объявить первоисточником» (Чтобы защитить свой контент Как защитить свой контент Один из методов: • «Объявить первоисточником» (Чтобы защитить свой контент иногда достаточно разместить дубликат своей статьи на других сайтах с ссылкой на оригинал. Вариантов – море, один из них – покупка размещения статей со ссылками на собственный сайт на авторитетных сайтах. И если подобных ссылок на Вас достаточно много – то несколько копий Вашей статьи без ссылки на оригинал контента уже не принесут сайту никакого вреда. )

Контр-борьба • Генерация невидимого (или очень слабо видимого) текста средствами HTML (Эвристики, надежно распознающий Контр-борьба • Генерация невидимого (или очень слабо видимого) текста средствами HTML (Эвристики, надежно распознающий эту технику. Например, массу специфичных тегов HTML или CSS (например visibility: hidden). Не советую в данные элементы прятать, к примеру, ссылки – это чревато. ) • Генерация видимого «мусора» , то есть случайных буквенных цепочек (Исключение из шинглов «несловарных» слов. Обратите внимание что «словарь» в данном случае - частотный словарь, полученный из индекса. Кстати, доля несловарных слов с таким «антидетектором» будет необычно высокой) • Вставка пробелов в текст в случайных местах внутри слов и удаление их между словами. (Можно все слова текста склеить в одну цепочку из букв, фиксированным окошком вычислить шинглы). Кроме того, доля «несловарных» слов тоже будет аномально высока. • Использование синонимайзера (Главная проблема русскоязычного синонимайзера – получается очень плохо читаемый текст, поэтому область применения в авторежиме очень ограничена) и тд.

Спасибо за внимание! Иван Молчанов, Люкс-Ар Спасибо за внимание! Иван Молчанов, Люкс-Ар