Скачать презентацию ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ Коротков А В Скачать презентацию ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ Коротков А В

6300f20ef6d37451dfa8031fe660a9a3.ppt

  • Количество слайдов: 43

ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ Коротков А. В. , д. э. н. , зав. Кафедрой ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТЕ Коротков А. В. , д. э. н. , зав. Кафедрой Глобальных информационных процессов и ресурсов МГИМО (У) Онишко Е. В. Преподаватель Кафедры Глобальных информационных процессов и ресурсов МГИМО (У)

Поиск в Сети можно осуществлять не только с помощью поисковиков 3/15/2018 (c) А. В. Поиск в Сети можно осуществлять не только с помощью поисковиков 3/15/2018 (c) А. В. Коротков 2

Принципы организации поиска • Поиск информации в интернете производится двумя основными способами: • С Принципы организации поиска • Поиск информации в интернете производится двумя основными способами: • С помощью каталогов (директорий) • С помощью поисковых машин 3/15/2018 (c) А. В. Коротков 3

Полезная литература: • Денис Фурсов http: //community. livejournal. com/kubok/45 952. html • Ющук Е. Полезная литература: • Денис Фурсов http: //community. livejournal. com/kubok/45 952. html • Ющук Е. Интернет-разведка: руководство к действию. М. : Вершина, 2007 3/15/2018 (c) А. В. Коротков 4

Директории: • Обеспечивают контекстный поиск для структурированного просмотра • Директории можно уподобить оглавлению книги Директории: • Обеспечивают контекстный поиск для структурированного просмотра • Директории можно уподобить оглавлению книги 3/15/2018 (c) А. В. Коротков 5

Поисковые машины: • Контекста не обеспечивают, но позволяют находить конкретные слова и фразы • Поисковые машины: • Контекста не обеспечивают, но позволяют находить конкретные слова и фразы • Поисковые машины подобны предметному указателю • Поисковые системы объединяют в себе поисковые машины и директории 3/15/2018 (c) А. В. Коротков 6

На чем основан поиск? • Все поисковые машины базируются на трех операторах, лежащих в На чем основан поиск? • Все поисковые машины базируются на трех операторах, лежащих в основе Булевой алгебры (Булева логика или Boolean) • Это логические операторы • «и» (and) • «или» (or) • «не» (not) 3/15/2018 (c) А. В. Коротков 7

Сходство и различие: • В разных поисковых машинах могут использоваться одни и те же Сходство и различие: • В разных поисковых машинах могут использоваться одни и те же знаковые обозначения логических операторов • Не все поисковые машины поддерживают запросы в полном объеме и с использованием тех же знаков 3/15/2018 (c) А. В. Коротков 8

Логическое «И» (and) • Если между двумя словами в запросе стоит оператор «и» , Логическое «И» (and) • Если между двумя словами в запросе стоит оператор «и» , то в результате поиска будут найдены лишь те документы, которые содержатся оба слова кошка и собака мы найдем предложения типа «собака гналась за кошкой» , и не найдем документов типа «кошка спала» или «корм для собак» • По запросу 3/15/2018 (c) А. В. Коротков 9

Логическое «ИЛИ» (or) • Если между словами стоит логической оператор «или» , то результатом Логическое «ИЛИ» (or) • Если между словами стоит логической оператор «или» , то результатом поиска станут: • Документы, содержащие хотя бы одно из этих слов • Документы, содержащие оба эти слова • По запросу собака или кошка мы получим документы, исключенные в прошлом примере «кошка спала» , «корм для собак» , и ссылки на предложения типа «собака гналась за кошкой» 3/15/2018 (c) А. В. Коротков 10

Логическое «НЕ» (not) • Исключает из поиска слова, перед которым стоит. • Вопрос: ведь Логическое «НЕ» (not) • Исключает из поиска слова, перед которым стоит. • Вопрос: ведь можно вообще не включить какое-то слово в поиск? Ответ: можно)) Но сыплется мусор • Оператор «НЕ» отсекает информационный шум (мусор) • По запросу «собака не кошка» будет найден документ, содержащий текст «корм для собак» , но документы типа «кошка спала» , «собака гналась за кошкой» и даже «корма для собак и кошек» из выдачи будут исключены 3/15/2018 (c) А. В. Коротков 11

Круглые скобки • Скобки позволяют отделять однотипные слова от остальных • Запрос: пушистые и Круглые скобки • Скобки позволяют отделять однотипные слова от остальных • Запрос: пушистые и (собаки или кошки) позволит получить выдачу документов, относящихся как пушистым собакам, так и к пушистым кошкам – по отдельности или вместе • Скобки при этом раскрываются по простым арифметическим правилам вынесения за скобку общего множителя 3/15/2018 (c) А. В. Коротков 12

Чуть сложнее… решаем вместе! • Запрос: пушистые и (собаки или кошки) не (собаки и Чуть сложнее… решаем вместе! • Запрос: пушистые и (собаки или кошки) не (собаки и кошки) • Выдаст документы, в которых написано про пушистых собак и пушистых котов, не будет документов, где одновременно говорится про пушистых собак и кошек 3/15/2018 (c) А. В. Коротков 13

Как реализован поиск? • Поисковые машины имеют «штат» роботов (ботов, «пауков» или «краулеров» , Как реализован поиск? • Поисковые машины имеют «штат» роботов (ботов, «пауков» или «краулеров» , /crawlers, spiders/ • Они сканируют страницы сети, не вникая в их содержание • Результаты сканирования сбрасываются на сервер поисковика 3/15/2018 (c) А. В. Коротков 14

Как «бот» определяет свой маршрут? • Он находит гиперссылку (ту самую, при наведении на Как «бот» определяет свой маршрут? • Он находит гиперссылку (ту самую, при наведении на которую курсор приобретает вид раскрытой ладони и при клике на который происходит переход на другую страницу) и идет по ней • Если на страницу не ведет ни одна ссылка, «бот» ее не найдет, если только хозяин ссылки вручную не сообщит о ней, заполнив специальную форму на сайте поисковика 3/15/2018 (c) А. В. Коротков 15

Как обрабатывается информация на поисковике? • На сервере поисковика специальное программное обеспечение разбивает текст Как обрабатывается информация на поисковике? • На сервере поисковика специальное программное обеспечение разбивает текст на отдельные слова, каждому из которых присваиваются координаты, после чего они заносятся в таблицу сервера вместе со ссылкой на тот адрес Интернета, по которому текст размещался в момент его посещения «ботом» 3/15/2018 (c) А. В. Коротков 16

Что такое поисковик с технической точки зрения? • Поисковик – большая локальная сеть состоящая Что такое поисковик с технической точки зрения? • Поисковик – большая локальная сеть состоящая из мощных компьютеров с огромным объемом дисковой памяти. • Эти машины (в том числе, виртуальные) разделены на подгруппы (кластеры), между которыми распределяется информация, собранная «ботами» 3/15/2018 (c) А. В. Коротков 17

О чем думает «бот» ? • У «бота» запрограммирован алгоритм посещения страниц • Посетив О чем думает «бот» ? • У «бота» запрограммирован алгоритм посещения страниц • Посетив страницу, «бот» зайдет на нее повторно, скажем, через две недели • Если изменений нет, наведается через месяцполтора • Вот почему иногда по запросу мы не получаем документа – страница «переехала» по другому адресу, или вовсе была уничтожена, а «бот» ее давно не посещал и поисковая система у ее удалении не узнает 3/15/2018 (c) А. В. Коротков 18

3/15/2018 (c) А. В. Коротков 19 3/15/2018 (c) А. В. Коротков 19

Язык запросов поисковой машины Яндекс • С помощью фильтров, основанных на Булевой алгебре, учимся Язык запросов поисковой машины Яндекс • С помощью фильтров, основанных на Булевой алгебре, учимся задавать машине правильные вопросы*-) • Важно: компьютер очень исполнителен, но лишен способности думать. Следует составлять запрос, помня о том. Компьютер – идеальный солдат, он исполняет только то, и именно то, что приказал командир 3/15/2018 (c) А. В. Коротков 20

Переход в режим расширенного поиска 3/15/2018 (c) А. В. Коротков 21 Переход в режим расширенного поиска 3/15/2018 (c) А. В. Коротков 21

Варианты настройки поиска через шаблоны 3/15/2018 (c) А. В. Коротков 22 Варианты настройки поиска через шаблоны 3/15/2018 (c) А. В. Коротков 22

Настройка сложных запросов • Так работают профессионалы • такие, как мы с вами 3/15/2018 Настройка сложных запросов • Так работают профессионалы • такие, как мы с вами 3/15/2018 (c) А. В. Коротков 23

Логическое И • Яндекс поддерживает три разных значения операторов, относящихся к логическому И. • Логическое И • Яндекс поддерживает три разных значения операторов, относящихся к логическому И. • Это делает его самым гибким из всех поисковиков, работающих с русским языком • С помощью этой уникальной системы операторов поисковик дает возможность точно настроить вопрос и сформировать фильтр 3/15/2018 (c) А. В. Коротков 24

Почему иногда возникает недоумение? • Несмотря на то, что логическое И в общем виде Почему иногда возникает недоумение? • Несмотря на то, что логическое И в общем виде Булевой алгебры подразумевает присутствие всех упомянутых в запросе слов, поисковик вначале выдаст: • Документы, в которых представлены все запрашиваемые слова; • Затем документы, в которых присутствует на слово меньше и т. д 3/15/2018 (c) А. В. Коротков 25

Три «И» • 1. 1. Пробел • 1. 2. Амперсанд (&) • 1. 3. Три «И» • 1. 1. Пробел • 1. 2. Амперсанд (&) • 1. 3. Двойной амперсанд (&&) 3/15/2018 (c) А. В. Коротков 26

1. 1. Пробел • Поисковик понимает пробел как «близко» • Термин «близко» - не 1. 1. Пробел • Поисковик понимает пробел как «близко» • Термин «близко» - не фиксированная величина • Если мы имеем дело с часто употребляемыми словами, то «близко» - это «на расстоянии нескольких слов друг от друга» • Редкие слова даже в крайних точках документа будут восприниматься как логическое «близко» 3/15/2018 (c) А. В. Коротков 27

Амперсанд (&) в Яндексе • Если нам нужно найти слова в одном предложении, используем Амперсанд (&) в Яндексе • Если нам нужно найти слова в одном предложении, используем знак & • Важно: при составлении запроса амперсанд должен быть отделен от запрашиваемых слов пробелами с двух сторон 3/15/2018 (c) А. В. Коротков 28

Двойной амперсанд (&&) • Слова, разделенные знаком && , поисковик будет искать в одном Двойной амперсанд (&&) • Слова, разделенные знаком && , поисковик будет искать в одном документе • Важно: между амперсандами не должно быть пробелов, но от запрашиваемых слов двойной амперсанд должен быть отделен пробелом 3/15/2018 (c) А. В. Коротков 29

Логическое «НЕ» • В Яндексе логическое «НЕ» представлено тремя операторами • 2. 1. Тильда Логическое «НЕ» • В Яндексе логическое «НЕ» представлено тремя операторами • 2. 1. Тильда ~ • 2. 2. Двойная тильда ~~ • 2. 3. Минус – • Минус, с точки зрения многих профессионалов поиска (таких, как мы с вами), в Яндексе и ряде других поисков – некорректно работающая двойная тильда, пользоваться им друзьям не рекомендуем 3/15/2018 (c) А. В. Коротков 30

Тильда ~ • Знак тильды означает, что стоящего после нее слова не должно быть Тильда ~ • Знак тильды означает, что стоящего после нее слова не должно быть в предложении • Важно: знак тильды с двух сторон должен быть отделен пробелами 3/15/2018 (c) А. В. Коротков 31

Двойная тильда ~~ • Знак двойной тильды означает, что стоящего после него слова не Двойная тильда ~~ • Знак двойной тильды означает, что стоящего после него слова не должно быть во всем документе • Важно: между тильдами не должно быть пробела, с двух сторон знак двойной тильды отделяется пробелами 3/15/2018 (c) А. В. Коротков 32

Логическое «ИЛИ» • Логическое ИЛИ представлено единственным оператором, имеющем вид вертикальной черты | • Логическое «ИЛИ» • Логическое ИЛИ представлено единственным оператором, имеющем вид вертикальной черты | • В подавляющем большинстве случаев оператор | и слова, с которыми он используется, заключается в скобки, так как этот оператор относится сразу к двум и более словам 3/15/2018 (c) А. В. Коротков 33

Задача: • Сформируйте запрос на документ, содержащий в одном предложении слова «маркетинг» и «менеджмент» Задача: • Сформируйте запрос на документ, содержащий в одном предложении слова «маркетинг» и «менеджмент» , но при этом в документе не должно быть слов «курс» , «работа» , «конференция» , «теория» , «книга» , «семинар» , «бизнес» , «прибыль» , «клиент 3/15/2018 (c) А. В. Коротков 34

Ответ: • [(маркетинг & менеджмент) ~~ (курс | работа | конференция | теория | Ответ: • [(маркетинг & менеджмент) ~~ (курс | работа | конференция | теория | книга семинар | бизнес | прибыль | клиент)] • Квадратные скобки здесь не несут операционной нагрузки, но бывают полезны для общего понимания логики при составлении запросов более высокого порядка • Обратите внимание, что скобки, как в арифметике при вынесении за скобку общего множителя, позволяют распространить действие оператора двойная тильда на все слова, расположенные внутри них 3/15/2018 (c) А. В. Коротков 35

Яндекс по умолчанию учитывает морфологию слов • Пример: на слово «учет» поисковик выдаст результат, Яндекс по умолчанию учитывает морфологию слов • Пример: на слово «учет» поисковик выдаст результат, содержащий искомое слово во всех падежных формах, которые он выделяет как релевантные • Важно: эту функцию можно отключить, «прилепив» к искомому слову оператор в виде восклицательного знака ! 3/15/2018 (c) А. В. Коротков 36

Маска * • Поисковик может искать часть слова во всех морфоформах • Пример: воз* Маска * • Поисковик может искать часть слова во всех морфоформах • Пример: воз* • Поисковик выдаст все тексты, в которых содержатся слова, начинающиеся с ВОЗ 3/15/2018 (c) А. В. Коротков 37

Заглавные и строчные буквы • Главное правило в этом вопросе заключается в следующем: слова Заглавные и строчные буквы • Главное правило в этом вопросе заключается в следующем: слова в запросе, написанные с маленькой буквы, будут выдаваться и с маленькой, и с заглавной буквы, а слова, написанные с заглавной, будут выдаваться только с заглавной • Важно: Яндекс периодически меняет нюансы в этом вопросе*-) 3/15/2018 (c) А. В. Коротков 38

Вопрос: что будет, если написать в запросе все слова с заглавной буквы? • Если Вопрос: что будет, если написать в запросе все слова с заглавной буквы? • Если всё слово написано заглавными буквами, умный поисковик Яндекса посчитает, вы замучаны лекцией, вы заснули, либо сваляли дурака и забыли переключить регистр 3/15/2018 (c) А. В. Коротков 39

Обязательное включение слова в выдачу • Если необходимо, чтобы искомые слова непременно присутствовали в Обязательное включение слова в выдачу • Если необходимо, чтобы искомые слова непременно присутствовали в выдаче, используется знак оператора + • Знак ставится перед искомым словом и пишется с ним слитно • Искомые слова при этом разделяются пробелом • +фантом +зеркало +замок • +не покупай (sony | bravo) 3/15/2018 (c) А. В. Коротков 40

Поиск точной фразы • Используется знак оператора двойные кавычки, аналогичные тем, которые применяются в Поиск точной фразы • Используется знак оператора двойные кавычки, аналогичные тем, которые применяются в прямой речи • «ты всегда думаешь о нас» • Интересно: • Попробуйте «ты всегда думаешь о нас» ~ (tefal | тефаль) 3/15/2018 (c) А. В. Коротков 41

Слова находятся на определенном расстоянии • Часто используемый оператор, в общем виде имеет вид Слова находятся на определенном расстоянии • Часто используемый оператор, в общем виде имеет вид /n, где n показывает, каким по счету второе искомое слово будет после первого • [годовой /1 отчет] – в выдаче будет присутствовать фраза «годовой отчет» • [годовой /2 отчет] – в выдаче будут присутствовать фразы типа «годовой финансовый отчет» , а также и результаты первого запроса, то есть в большем присутствуют меньшие значения 3/15/2018 (c) А. В. Коротков 42

Конец первой серии • Продолжение следует • Korotkov. andrei@gmail. com • eonishko@gmail. com 3/15/2018 Конец первой серии • Продолжение следует • Korotkov. andrei@gmail. com • eonishko@gmail. com 3/15/2018 (c) А. В. Коротков 43