Скачать презентацию Из цикла лекций Современные Internet-технологии для студентов 5 Скачать презентацию Из цикла лекций Современные Internet-технологии для студентов 5

c69a394e5de1e276bad85ff62de2b3fd.ppt

  • Количество слайдов: 12

Из цикла лекций «Современные Internet-технологии» для студентов 5 -го курса кафедры Компьютерных технологий физического Из цикла лекций «Современные Internet-технологии» для студентов 5 -го курса кафедры Компьютерных технологий физического факультета Донецкого национального университета Поиск в Internet Дон. НУ, кафедра КТ, проф. В. К. Толстых

Содержание Как работают «Каталоги» Как работают информационно-поисковые системы (ИПС) Характеристики поисковых систем Правила поиска Содержание Как работают «Каталоги» Как работают информационно-поисковые системы (ИПС) Характеристики поисковых систем Правила поиска Page. Rank и SEO Для реализации поисковых алгоритмов, технологий и средств взаимодействия поисковых систем с человеком сегодня интенсивно разрабатываются и внедряются интеллектуальные агенты. 2

Как работают каталоги Поисковые узлы каталоги обслуживает большое количество людей (~100): • Классификаторы – Как работают каталоги Поисковые узлы каталоги обслуживает большое количество людей (~100): • Классификаторы – разрабатывают и совершенствуют рубрики своей информационной базы для Internet-документов, • Систематизаторы – читают Internet-документы и, зная рубрики классификаторов, приписывают им классификационные индексы. При классификации и систематизации информации здесь постоянно присутствует «человеческий» фактор. Достоинства каталогов – простой доступ пользователей к популярной и качественной информации. Недостатки – любая оценка документа классификатором и систематизатором является социальным действием, она связана с их культурой, мировоззрением, глубиной и широтой знаний. 3

Как работают ИПС Интеллектуальные агенты ИПС – это комплекс программ: • Spider ( «паук» Как работают ИПС Интеллектуальные агенты ИПС – это комплекс программ: • Spider ( «паук» ) — программа, которая загружает в поисковую машину Webстраницы. Работает аналогично браузеру, но ничего не отображает ни на каком экране. • Crawler ( «червяк» , или «путешествующий паук» ) — программа, способная найти на Web-странице все ссылки на другие страницы. Ее задача — определить, куда дальше должен ползти «паук» , руководствуясь ссылками или заранее заданным списком адресов. • Indexer (индексатор) — программа, которая «разбирает» страницу на составные части и анализирует их. Вычленяются и анализируются заголовки Web-страниц, заголовки документов, ссылки, текст документов, отдельно — текст, его выделения. • Database (база данных) — хранилище данных в виде инвертированного индекса, где для каждого слова из страниц доставленных пауком перечислены все места (URL документов, позиция слова, цвет и размер шрифта. . . ), в которых слово встретилось. • Search Engine Results Engine (система выдачи результатов поиска) решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой 4 частью поисковой системы «общается» пользователь.

Полнота Два аспекта: полнота охвата , полнота отклика Полнота охвата – это общее количество Полнота Два аспекта: полнота охвата , полнота отклика Полнота охвата – это общее количество проиндексированных из Internet документов. Полнота отклика определяется по формуле: где N 1 – количество полученных документов, N – количество имеющихся в базе документов формально соответствующих запросу. В идеале должно быть 100%. Полнота тесно связана с оперативностью обновления информации. 5

Релевантность – соответствие полученной информации отправленному запросу: где N 2 – количество документов, соответствующих Релевантность – соответствие полученной информации отправленному запросу: где N 2 – количество документов, соответствующих запросу, N – общий объём полученной информации. В идеале должно быть 100%. Механизмы расчёта релевантности. Средства повышения пертинентности: 1. уточнение формулировки запроса 2. ранжирование документов по весовым коэффициентам 3. Внедрение интеллектуальных технологий поиска 6

Лидеры ИПС Международные: • http: //www. google. com • http: //www. bing. com • Лидеры ИПС Международные: • http: //www. google. com • http: //www. bing. com • http: //search. yahoo. com • http: //www. ask. com • http: //www. alltheweb. com • http: //www. lycos. com • www. go. com Российские: • http: //www. yandex. ru • http: //www. rambler. ru • http: //www. aport. ru Украинские: • http: //meta. ua • http: //uaport. net 7

Основные логические операторы Оператор Логическое И Яndex Google & пробел (в пределах предложения) && Основные логические операторы Оператор Логическое И Яndex Google & пробел (в пределах предложения) && (в пределах документа) Логическое ИЛИ | OR ~ Логическое НЕ (в пределах предложения) ~~ или - – (в пределах документа) Группировка Приоритет операций: NOT, AND, OR () ()

Примеры профессиональных запросов к ИПС Запрос к системе Примеры профессиональных запросов к ИПС Запрос к системе "Интегрум" по теме"Услуги связи: "услуги связи" или "междугородные переговоры" или "телефонные переговоры" или "мобильная связь" или "фиксированная связь" или "сотовый оператор" или "средства связи" или "телефонная связь" или "спутниковая связь" или "космическая связь" или GPRS или ростелеком или связьинвест или госкомсвязь или госкомтелеком или госсвязьнадзор или телекоммуникации или электросвязь или АТС или ГТС или минсвязи или "министерство связи" или "волоконно-оптическая линия связи" или ВОЛС Запрос к системе Info. Stream по теме "Мобильная связь": (((мобильн~связ) | (мобiльн~зв'яз) | (сотов~связ) | (стiльник~зв'яз) | (беспроводн~связ) | (бездрот~зв'яз) | (бесперебойн~связ) | (безперебiйн~зв'яз) | j 2 me]| ems]| 3 g]| gprs]| ggsn]| sms]| mms]| ems]| bluetooth]| mms]| tdma]| multipoint]| pcs]| cdma]| ofdm]| vpn]| wap]| umts]| gsm)&((моб~телефон)| (стiльник~телефон)| (сотов~телефон))) ! this. is 9

Page. Rank SEO: Search Engine Optimization Поисковая оптимизация направлена на увеличение количества посетителей Web Page. Rank SEO: Search Engine Optimization Поисковая оптимизация направлена на увеличение количества посетителей Web -сайта за счёт повышения ранга сайта (без оплаты поисковым компаниям). 10

Факторы, влияющие на поисковый ранг • <title>, <h 1 -6> - должны быть достоверными Факторы, влияющие на поисковый ранг • , <h 1 -6> - должны быть достоверными с нужными ключевыми словами • имена каталогов, файлов должны быть «ключевыми словами» . Отдельные слова в имени файла страницы должны отделяться «-» , а не «_» , т. к. «-» ИПС трактуют как пробел и индексируют все слова, а «_» - как объединение слов. • ссылки (отсутствие) на страницы спама или «дурного общества» • чем старее домен, страница (при этом активно изменяется), тем выше рейтинг • ссылки со «старых» сторонних сайтов повышают рейтинг страницы • длительные (более года) оплаты за домен повышают рейтинг сайта (спамеры покупают домены не более чем на год) • количество, качество и релевантность входящих ссылок. • GET-параметры исходящих ссылок индексируются вместе со ссылками, поэтому они должны иметь осмысленные, постоянные ключевые слова • текст, окружающий ссылки, должен быть семантически родственным. Это повышает ранг ссылки и страницы на которую она ссылается • ссылка на страницу с множеством исходящих ссылок понижает ранг ссылки • ссылки между страницами из IP одного класса С понижаются в рейтинге, т. к. похожи на механизм искусственного рейтинга • ссылки из доменов. edu, . gov имеют повышенный ранг 11 • важные ссылки на страницах не должны располагаться в конце страницы </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Штрафование поискового ранга • ссылки с разными GET-запросами, приводящими к одной и той же" src="https://present5.com/presentation/c69a394e5de1e276bad85ff62de2b3fd/image-12.jpg" alt="Штрафование поискового ранга • ссылки с разными GET-запросами, приводящими к одной и той же" /> Штрафование поискового ранга • ссылки с разными GET-запросами, приводящими к одной и той же странице. Нельзя в GET вставлять параметры сеансов, т. к. они изменяются • перенаправление на др. страницы на клиенте считается спамом • перемещение или изменение имени страницы снижает её рейтинг • страницы с дублированным контентом: • вследствие архитектуры сайта (в т. ч. страницы для печати, одинаковые <meta>, <title>…) • вследствие кражи контента • нельзя в ссылках указывать имена файлов, загружаемых по умолчанию, т. к. такие файлы будет индексироваться дважды Преодолеть штрафные баллы за дублирование контента можно через закрытие соответствующего контента от индексирования поисковиками. Для этого надо поместить в корень сайта файл robots. txt : User-agent: * - для всех типов поисковиков Disallow: /admin/ - для всех URL, начинающихся с /admin/ Disallow: /*Intra/ - для всех URL, содержащих где-либо /Intra/ Disallow: /file. txt - для всех URL, начинающихся с /file. txt/ 12 </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="" src="" alt="" /> </p> </div> </div> <div id="inputform"> <script>$("#inputform").load("https://present5.com/wp-content/plugins/report-content/inc/report-form-aj.php"); </script> </div> </p> <!--end entry-content--> </div> </article><!-- .post --> </section><!-- #content --> <div class="three columns"> <div class="widget-entry"> </div> </div> </div> </div> <!-- #content-wrapper --> <footer id="footer" style="padding: 5px 0 5px;"> <div class="container"> <div class="columns twelve"> <!--noindex--> <!--LiveInternet counter--><script type="text/javascript"><!-- document.write("<img src='//counter.yadro.ru/hit?t26.10;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+ ";"+Math.random()+ "' alt='' title='"+" ' "+ "border='0' width='1' height='1'><\/a>") //--></script><!--/LiveInternet--> <a href="https://slidetodoc.com/" alt="Наш международный проект SlideToDoc.com!" target="_blank"><img src="https://present5.com/SlideToDoc.png"></a> <script> $(window).load(function() { var owl = document.getElementsByClassName('owl-carousel owl-theme owl-loaded owl-drag')[0]; document.getElementById("owlheader").insertBefore(owl, null); $('#owlheader').css('display', 'inline-block'); }); </script> <script type="text/javascript"> var yaParams = {'typepage': '1000_top_300k', 'author': '1000_top_300k' }; </script> <!-- Yandex.Metrika counter --> <script type="text/javascript" > (function(m,e,t,r,i,k,a){m[i]=m[i]||function(){(m[i].a=m[i].a||[]).push(arguments)}; m[i].l=1*new Date(); for (var j = 0; j < document.scripts.length; j++) {if (document.scripts[j].src === r) { return; }} k=e.createElement(t),a=e.getElementsByTagName(t)[0],k.async=1,k.src=r,a.parentNode.insertBefore(k,a)}) (window, document, "script", "https://mc.yandex.ru/metrika/tag.js", "ym"); ym(32395810, "init", { clickmap:true, trackLinks:true, accurateTrackBounce:true, webvisor:true }); </script> <noscript><div><img src="https://mc.yandex.ru/watch/32395810" style="position:absolute; left:-9999px;" alt="" /></div></noscript> <!-- /Yandex.Metrika counter --> <!--/noindex--> <nav id="top-nav"> <ul id="menu-top" class="top-menu clearfix"> </ul> </nav> </div> </div><!--.container--> </footer> <script type='text/javascript'> /* <![CDATA[ */ var wpcf7 = {"apiSettings":{"root":"https:\/\/present5.com\/wp-json\/contact-form-7\/v1","namespace":"contact-form-7\/v1"}}; /* ]]> */ </script> <script type='text/javascript' src='https://present5.com/wp-content/plugins/contact-form-7/includes/js/scripts.js?ver=5.1.4'></script> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/jquery.shuffle.js?ver=4.9.26'></script> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/scripts.js?ver=1.13'></script> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/shuffle.js?ver=4.9.26'></script> <!--[if lt IE 9]> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/selectivizr.js?ver=1.0.2'></script> <![endif]--> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/notify.js?ver=1772701601'></script> <script type='text/javascript'> /* <![CDATA[ */ var my_ajax_object = {"ajax_url":"https:\/\/present5.com\/wp-admin\/admin-ajax.php","nonce":"ff17971b62"}; /* ]]> */ </script> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/filer.js?ver=1772701601'></script> </body> </html>