6f286f68feba0b007f501d593953f61f.ppt
- Количество слайдов: 9
О вебометрическом индикаторе «размер сайта» О проекте «Вебометрический рейтинг научных учреждений России» Андрей Анатольевич Печников Институт прикладных математических исследований Карельского научного центра РАН 1
http: //webometrics-net. ru/ 2 из 9
http: //www. webometrics. info The Cybermetrics Lab, part of the CCHS – CSIC (Consejo Superior de Investigaciones Científicas - Centro de Ciencias Humanas y Sociales) На странице http: //www. webometrics. info/en/Objetives Стандартное обозначение: V, S, R и Sc - это т. н. «индикаторы» . Один из способов измерения – с помощью нескольких поисковых систем: Google, Yahoo, Bing, Exalead … Например в Google : S - site: www. novsu. ru V - link: www. novsu. ru В Яндексе (Вебмастер http: //webmaster. yandex. ru) S: webmaster. yandex. ru/check. xml? hostname=www. novsu. ru&sk=y 438 f 47059 cde 344 b 434 afed 912249 b 23 Russian Federation 3 из 9
4 из 9
5 из 9
Объяснения в расхождении надо искать самим: неизвестны правила отбора страниц на сайте, принятые в поисковых системах, и, повидимому, в Google и Яндексе они различные. Кроме того, при последовательном просмотре результатов вывода Google вскоре выдаст информацию «Мы скрыли некоторые результаты, которые очень похожи на уже представленные выше» , Яндекс также выдает не все, а только 1000 ответов по запросу “site: . . ”. 6 из 9
В Bee. Crawler реализован порядок обхода страниц «вначале вширь» : сканируется начальная страница нулевого уровня, находятся страницы первого уровня, сканируются страницы первого уровня. . В процессе сканирования создается вспомогательная таблица количества страниц на каждом уровне, т. е. – количество страниц на j-м уровне i-го сайта, а М – номер наибольшего сканируемого уровня 7 из 9
Предположения о Яндексе: 1. на каждом уровне сайта индексируется часть страниц, и чем ниже уровень, тем меньше эта часть; 2. чем больше внешних ссылок сделано на сайт, тем большее количество его страниц индексируется. 0<d<1 – коэффициент затухания, чем ниже уровень сайта, тем меньше страниц индексируется. Максимум достигается при d=0, 075. Данный подход применяется в проекте «Вебометрический рейтинг научных учреждений России» и в большинстве случаев позволяет использовать точные процедуры исправления очевидных ошибок вместо слабо формализуемых мнений экспертов, в качестве которых пока выступают сами разработчики проекта. 8 из 9
Благодарю за внимание 9
6f286f68feba0b007f501d593953f61f.ppt