ИТ лекция 2 - поиск в интернет.ppt
- Количество слайдов: 56
Лекция № 2: Поиск информации в Интернет
Информационные ресурсы Интернет Сеть Интернет имеет совместимость с различными электронными сетями и базами данных и позволяет получить удобный доступ практически к любому виду информации. Информационные ресурсы, доступные через Интернет, огромны. Это десятки миллионов документов, представленных различными способами, число которых постоянно увеличивается. В зависимости от способа представления, вида и характера информации разнятся и методы доступа к ней, поэтому, прежде чем рассматривать методы поиска, рассмотрим классификацию информационных ресурсов.
По способу представления информации источники можно разделить на следующие основные категории: Web-страницы являются сегодня основным и наиболее распространенным типом информационных ресурсов в Сети. Взаимосвязанная логически и посредством ссылок совокупность web-страниц, расположенная в одном месте, представляет собой сайт (site). Следует отметить, что, помимо собственно текста и ссылок, Web-страница может содержать информацию, представленную в произвольной форме: графической, звуковой, видео и т. д.
Базы данных также могут иметь интерфейс в Интернете, иными словами, могут быть доступны через Сеть. Базы данных могут содержать произвольную информацию: публикации, табулированные данные и т. д.
Файловые серверы являются традиционным способом хранения данных в Интернете и представляют собой компьютеры, часть дискового пространства которых доступна по Сети. Доступ к данным на таком сервере осуществляется с помощью специальных программ, поддерживающих протокол передачи файлов (FTP - File Transfer Protocol).
Довольно очевидным представляется также разделение информационных ресурсов по языковому признаку. В силу историко-географических причин основным языком в сети Интернет является английский, но практически все основные языки мира представлены в Сети. Некоторые из сайтов поддерживают несколько языков - на выбор пользователя. За языковой следует (и с ней связана) классификация источников по географическому признаку. Произвольный информационный ресурс в подавляющем большинстве случаев принадлежит какой-либо организации, осуществляющей свою деятельность на определенной территории, и может быть предназначен для аудитории, находящейся преимущественно в пределах другого региона.
Характер содержания Наиболее важным, с практической точки зрения, является разделение по виду и характеру представляемой информации, ибо именно информационное наполнение (content) в конечном итоге оказывается решающим при отборе источников. Содержащаяся на ресурсе информация может быть схематично разделена по виду и характеру на следующие категории:
Тематическая информация Наиболее ценный тип информации, непосредственно относящейся к конкретной предметной области: техническая, технологическая, маркетинговая и тому подобное. К сожалению, информация этого вида редко присутствует в Сети "в чистом виде". Она, как правило, оказывается включенной в состав блоков информации одного из перечисленных ниже типов.
Научные публикации Этот вид информации представляет собой статьи, рефераты, обзоры и прочие публикации научного характера, хранящиеся в Интернете. В случае подходящей темы исследования содержащаяся в нем информация может оказаться очень полезной. Особый вид подобных документов представляют маркетинговые исследования, которые, однако, обычно недоступны по Сети для бесплатного доступа в связи с большой коммерческой ценностью представленной в них информации.
Рекламная информация Большинство Web-сайтов коммерческих компаний, представленных в Интернете, носят в той или иной степени рекламный характер. Они содержат информацию о самой фирме (так называемый профиль компании - company profile), о предлагаемых ею товарах или услугах, о занимающих ключевые посты людях; через сайт может осуществляться часть работы по поддержке клиентов, там обычно размещаются ответы на наиболее часто задаваемые вопросы и т. п.
Справочная информация Множество ресурсов в Сети содержит информацию справочного характера: разнообразные справочные материалы, ссылки на Web-сайты компаний, представленные аналогично традиционным "желтым страницам" или иным способом, нормативную базу и т. д.
Новости Эта информация легко доступна по Сети, однако представляет собой вид "сырой", необработанной информации, которая ценна не столько сама по себе, сколько в контексте прочих событий или в динамике развития, и часто нуждается в последующей обработке.
Вторичная информация Вторичные источники предлагают систематизированную и предварительно обработанную информацию и, следовательно, обладают значительной ценностью. В качестве источников вторичной информации в нашем случае могут выступать ресурсы, содержащие обзоры, подборки рефератов, каталоги и другую подобную информацию, а также специализированные тематические сайты.
Средства поиска информации По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины. Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т. д. ), где каждая тема разветвляется на несколько подуровней. Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется "вручную", коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.
yaca. yandex. ua
Поисковые системы
Поисковые машины (системы) Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все страницы Интернет. При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.
Технология поиска с использованием поисковых машин 1 - Определение географических регионов поиска Поскольку проведение информационного поиска преследует практические цели - практическая ценность информационного ресурса может зависеть и от географического расположения соответствующего источника.
Составление списка ключевых слов Постарайтесь составить список всех возможных ключевых слов, синонимов, скомпонуйте их в фразы… Отбор поисковых машин Всего известно около 180 поисковых серверов, различающихся по регионам охвата, принципам проведения поиска (а следовательно, по входному языку и характеру воспринимаемых запросов), объему индексной базы, скорости обновления информации, способности искать "нестандартную" информацию и тому подобное.
Составление и выполнение запросов к поисковым машинам Формируются запросы к выбранным поисковым серверам, после чего возможно уточнение запроса с целью отсечения очевидно нерелевантной информации. Затем производится отбор ресурсов, начиная с наиболее интересных, с точки зрения целей поиска. Данные с ресурсов, признанных релевантными, собираются для последующего анализа. Формирование запросов Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена. Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным.
Анализ ресурсов и сбор информации Первичный анализ ресурсов основывается на аннотациях - в случае их наличия, и в необходимых случаях - на ознакомлении с информационным наполнением ресурса.
Формирование запроса Рассмотрим примеры формирования различных вариантов запроса к поисковым машинам на примере языка запросов системы Яndex, являющейся в настоящее время самой мощной, быстродействующей и оперативной машиной поиска в русскоязычном Интернет.
Простой запрос из одного слова Яndex учитывает морфологические особенности русского языка - независимо от формы ключевого слова он найдет все его возможные варианты (числа, падежи существительных, спряжения глаголов и т. д. ). Если в запросе задано слово с большой буквы, будут найдены только слова в таком написании, а если с маленькой - оба варианта. К примеру, запрос в форме слова "Козлов" позволит ограничиться ссылками на фамилию, отсекая упоминания о соответствующих животных, за исключением их использования с большой буквы - например, в начале предложения.
Что такое правильный запрос? Правильный запрос состоит из нескольких слов, потому что по одному слову обычно трудно понять, что вы хотите найти. Например, запрос дизайн может означать желание найти информацию о дизайне интерьера, или о веб-дизайне, а может — о ландшафтном дизайне. По такому запросу Яндекс найдет страницы обо всех известных ему видах дизайна.
Простой запрос из множества слов Яndex позволяет использовать в качестве запроса строку до 250 символов. Для введения простого запроса нужно набрать в строке запроса ключевые слова, разделенные пробелом. Простой запрос подразумевает, что слова связаны логическим оператором ИЛИ, т. е. машина ищет документы, в которых упоминается хотя бы одно из этих слов, и на выходе их ранжирует по количеству найденных слов, их весу, частотным характеристикам, близости в тексте и другим параметрам. Учитывается морфология всех терминов простого запроса.
Поиск без учета морфологии Чтобы зафиксировать словоформу без рассмотрения машиной ее морфологических вариаций в строке запроса перед термином ставится знак "!". В какой бы форме ни стояло слово в тексте страницы, Яндекс найдет его. Например, если задан запрос «идти» , то в результате поиска будут найдены документы, содержащие слова «идти» , «идет» , «шел» , «шла» и т. д. Для поиска точной формы возьмите нужное слово в кавычки или поставьте перед ним восклицательный знак.
Поиск с расстоянием Яndex позволяет задавать порядок следования и расстояние между словами. Расстояние между словами А и В равно: 1 ( В следует сразу за А ), 2 ( В следует за А через одно слово ) и т. д. Знак "/" между словами, за которым стоит число, означает, что расстояние между ними не должно превышать этого числа слов. Например, "развитие/3 предпринимательства" означает, что должны быть найдены документы, в которых содержатся оба слова, и расстояние между ними не должно превышать 3 слов.
Как исключить слово? Чтобы исключить документы, в которых встречается определенное слово, поставьте перед этим словом минус (без пробела). Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, задайте запрос: путеводитель по Парижу -агентство -тур Обратите внимание что исключаемые слова должны стоять в конце запроса
Поиск по словосочетанию или фразе (цитате) Искомое словосочетание в запросе заключается в кавычки. Пример: "малое предприятие".
Поиск в найденном Позволяет осуществить поиск по документам, найденным по предыдущему запросу. Для этого в конце запроса нужно поставить "$$" или просто сделать отметку в окошке "поиск в найденном", расположенном на странице запроса. Эта функция очень удобна для последовательного сужения поиска.
Выбор региона Поиск можно ограничить сайтами в нужном вам регионе или относящимися к интересной вам теме. Для поиска по всем сайтам снимите флажок в регионе.
Расширенный поиск Яндекс позволяет решать сложные поисковые задачи, не пользуясь языком запросов. Для этого воспользуйтесь формой расширенного поиска, где сложные поисковые условия задаются в простой и наглядной форме.
Настройка поиска Каждый пользователь Яндекса может настроить поиск максимально удобным для себя способом. Достаточно перейти по ссылке , расположенной в верхнем правом углу страницы результатов поиска, выбрать нужные параметры и нажать на кнопку Сохранить и вернуться к поиску (внизу страницы). При желании восстановить стандартные настройки можно воспользоваться кнопкой Установить значения по умолчанию.
Владение пользовательскими инструментами и техникой Не забывайте о команде Find броузера Если ваш браузер имеет в меню Файл, Правка или Вид команду Find (Найти), используйте ее для обнаружения трудноуловимых ключевых слов страницы. Чтобы отыскать слово, которое вам нужно, воспользуйтесь комбинацией клавиш CTRL+F в вашем броузере и введите искомое ключевое слово.
Фиксируйте результаты ссылками и закладками 1. Сохраняйте ссылки на важные и часто посещаемые страницы, используя команду Добавить в "Избранное". Используйте подобные механизмы для регистрации предварительных результатов поиска в процессе беглого отбора с целью дальнейшего подробного изучения. 2. Поддерживайте свою персональную коллекцию ссылок в рабочем состоянии: актуализируйте и систематизируйте ее, удаляйте устаревшие и ненужные.
Сохраняйте копии важных документов Активно используйте команды контекстного меню Сохранить объект как… и Сохранить рисунок как… и команду меню Файл – Сохранить как… для создания копий необходимой вам информации из сети Интернет на локальном ресурсе вашего ПК. Этим вы решите некоторые проблемы: 1) изменчивости и недолговечности WWW (когда со своих адресов со временем исчезают страницы и целые сайты), 2) концентрации внимания исключительно на целях определенного этапа поиска (например отбор адресов или предварительный просмотр найденной информации), 3) экономии времени on-line подключения и перевод изучения отобранных материалов в режим off-line.
Не теряйте самоконтроль Интерактивная среда WWW увлекает, и зачастую после нескольких десятков минут Web-серфинга мы забываем: как попали на данный сайт, что хотели найти и по какому адресу расположена только что просмотренная уникальная информация… И в этом случае не пренебрегайте аккуратным использованием функциями (кнопками) вашего броузера Назад и Вперед, помогающими упорядочить навигацию. Чтобы не терять информацию и время, приучите себя всегда явно определять цель предстоящего on-line сеанса и при работе стараться не отступать от нее, оставляя прочие возникающие идеи и желания на потом. Планирование поисковой работы по этапам также даст результат: поиск станет более осознанным и систематичным, а результат – более полным и точным.
Энциклопедии, справочники, словари…
Энциклопедии и словари – http: //ru. wikipedia. org или http: //mega. km. ru/ (Большая советская энциклопедия, Брокгауз и Ефрон, Словарь Даля, Толковый словарь русского языка Ушакова, Словарь русских синонимов, Регистр лекарственных средств…)
Электронная библиотека ОНАПТ
www. library. onaft. edu. ua
Обзор сайта библиотеки ОНАПТ: • Поступления новых книг (в том числе по дисциплинам) • Стандарты, правила оформления научных работ • Руководство по пользованию электронным каталогом • Электронный каталог с поисковой системой • Новости библиотеки • Доступ к системе Лига-закон и другим тематическим ресурсам • Каталог полезных ссылок (электронные библиотеки, образовательные ресурсы для студентов и аспирантов, зарубежные каталоги, сайты министерств, госорганов и т. д. )
Зарубежные ресурсы Большинство научных зарубежных журналов имеют свои сайты, где публикуют краткое описание и тезисы статей. Самый крупный всемирный каталог научных статей – Ingenta. com
Для зарегистрированных пользователей все данные с этого сайта предоставляются бесплатно. Для незарегистрированных пользователей – статьи стоят 20 -30 у. е. Большинство западных Университетов проплачивают доступ к этому ресурсу своим сотрудникам.
Поиск видео и аудио-книг www. youtube. com video. yandex. ru www. ex. ua Кроме обычных фильмов тут можно найти мастер-классы на любую тему, обучающие видео-уроки и т. д.
Поиск на тематических сайтах (специализированных)
www. gastronom. ru
www. horeca. ru Портал Индустрии гостеприимства и питания
www. hotelmarket. com. ua Всё для гостиниц и ресторанов
www. turbooks. ru
www. city-of-hotels. ru
www. prohotelia. com. ua Портал для професіоналів готельної індустрії України
tourlib. net
www. prohotel. ru