
Лекция_6.ppt
- Количество слайдов: 30
Лекция 6. Полнотекстовые базы СМИ Integrum Medialogia
• Lexis-Nexis lexisnexis. com • Factiva dowjonesfactiva. com • Интегрум/ Артефакт integrum. ru • Медиалогия (IBS) medialogia. ru • Public. Ru public. ru • СКАН-Интерфакс scan-interfax. ru • Park. Ru park. ru • … 2
Интегрум • Наиболее полный архив русскоязычных СМИ. Глубина архива — более 15 лет (c 1996) • Система «Артефакт» . ~ 5 тыс. источников, 750+ млн документов, ~40+ тыс. пополнений ежедневно • Несколько пакетов услуг: «Интегрум Профи» , «Интегрум Поиск» , «Интегрум Каталог» … • Совместные проекты с Яндексом ( «Пресс-портреты» ) • В 2007 году Google пытался купить Интегрум Источники • полнотекстовые версии СМИ, ленты ведущих информагентств • центральныe (300+) и региональныe (1700+) • транскипты ТВ и радио • аналитические исследования и обзоры, • адресно-справочные и правовые базы данных • информация Роспатента, Росстата… 3
Преимущества и недостатки • Информативный язык запросов. Многовариантность совместимость • Самый большой набор источников • Хорошо представлены телеканалы и радио • Интернет-издания ~ Медиалогии, лучше Паблика НО • Региональные СМИ представлены хуже чем у Паблика и Медиалогии • Закрывает доступ к медиастатистике (динамика) • Интегрум дороже Паблика и конкурентов: статья из Ведомостей - Интегрум – 30 р. , Паблик – 10 -20 р. • Ценообразование постатейное (Паблик – редкость статьи, Интегрум – объем) • Часты повторы, одни и те же источники в разных группах (особенно печать и интернет-СМИ) • Сбои в индексации (> количество возвращенных) 4
Особенности поиска в Интегруме 1. Учитывает морфологию, но не части речи! 1. [стекло] = «стекло» и «стечь» 2. [орлов] = орлов, Орел, орлы но не орлиный • Совершенная и несовершенная формы глаголов – читаются как разные слова! • Умеет разлагать на составные части, различает дефисы и тире – [авиаперевозки]= "авиационный", "перевозка" • Объектный поиск: фио, дата, название, цифра/ единица измерения. Напр. : умеет индексировать даты, записанные в тексте в разных форматах (словами, цифрами, и цифрами и словами), числа с интервалами [2 -2, 5 тыс участников] = [2000 -2500] 5
Поисковые интерфейсы – возможности • по ФИО (по статьям и (ремонт и компьютер /п) и продажа /п 3 адресным базам) • По полям (заголовкам, по заголовкам и по тексту, с ограничением по источникам). • НО: поля Номер и Автор есть не во всех печатных СМИ! • НО: дата документа и время загрузки могут отличаться! 6
Поиск конкретного человека Оператор…_/фио (конкретный человек) или _@фио (переменная) • [(Анатолий Борисович Чубайс /фио) или (Анатолий Чубайс /фио) или (А Чубайс /фио)] • ["министр обороны РФ" : 3 @фио] • [глава Юкоса @фио /с6] 7
8
Логические операторы (от нормализованных форм!) • И: пробел и И and AND • ИЛИ: или ИЛИ or OR • НЕ: не НЕ not NOT [(компьютер или видеотехника) и не (продажа или ремонт)] • Точная форма фразы «» • Точная форма слова по фрагменту !т или !e (латиница) [налоги!т] = налоги, Налоги но не налог, Налогов… [льгота!т] = льгота, Льгота но не льготы, льгот… • Усечение* [банк*] = банки, банковский, банок (? ) банка • Ограниченное усечение !*N [дипломат!*2] = ? • Прописная = только прописная, строчная= прописная и строчная [Иванов] = Иванов [иванов] = иванов, Иванов 9
Скобки для сложных запросов 1. ремонт или продажа и компьютер или видеотехника - ? 2. (ремонт или продажа) и (компьютер или видеотехника) - ? 3. ((ремонт или продажа) и компьютер) или видеотехника - ? 4. ремонт или ((продажа и компьютер) или видеотехника) -? 5. ремонт или (продажа и компьютер) или видеотехника - ? 10
Контекстные операторы • В одном предложении _/п • В пределах нескольких предложений_/п. N – [(ремонт и компьютер /п) и (продажа и комплектующие /п) /п 3] • В пределах нескольких слов в одном предложении (в пределах N слов, в любом порядке) _/с. N – [(ремонт и компьютер /с3) и (продажа и комплектующие /с3) /п 3] • Оператор прямого следования в расстояниях (сколько слов разделяют)_: N_ – [(ремонт или продажа) : 2 компьютеров] • Операторы_: 0_ и _: _ – ремонт : 0 компьютеров ~ "ремонт компьютеров" 11
Переменные Даты _@дата или !д • [(переговоры Путин Буш Санкт-Петербург) @дата /п 2] • 1990!д - любая дата в 1990 году • 02. 1994!д - любая дата в феврале 1994 года • 13. 02. 1994!д - точно 13 февраля 1994 года Числа _@число или !ч • ["объем прямых инвестиций" (Россия или российский) @число /п] • [1000 -2000!ч : 3 рублей] - предложение, в котором есть обозначение числа от 1000 до 2000, за которым не дальше чем через три слова стоит какая-нибудь форма слова рубль • [внешний долг России @число /п] 12
Составление запросов Подбор групп слов/ лексики формирование групп расстановка операторов подсчет скобок ПЕРВАЯ ГРУППА: кредитовать (= кредит или кредитование или прокредитовать), инвестировать (=инвестиции или проинвестировать), финансировать (= финансирование), вкладывать (= вложить), выделить (= выделять), направить (= направлять), получить (= получать) ВТОРАЯ ГРУППА: деньги или средства или кредит или $ или рублей!т или долларов!т или руб или долл или евро!т • (кредитовать или кредитование… или ((вкладывать или вложить…) /с6 (деньги или средства или кредит или $ или рублей!т или долларов!т или руб или долл или евро!т))) /п 2 (магнитогорский металлургический комбинат /п) • (((кредитовать или кредит или инвестировать или инвестиции или…) /с10 (@число : 1 (рубль или доллар или $ или руб или долл или евро!т))) /п 2 (Магнитогорский металлургический комбинат /п) 13
((Евгений Ясин /фио) /с8 (отметил или отмечал или заметил или замечал или сказал или говорил или высказал или высказывал или рассказывал или подчеркнул или подчеркивал или сообщил или сообщал или заявил или заявлял или заверил или заверял или уверил или уверял или подтвердил или подтверждал или опровергал или комментировал или прокомментировал или обратился или выступил или выступал или пояснил или пояснял или поведал или разъяснил или разъяснял или объяснил или объяснял или поведал или утверждает или излагать или изложить или ответил или отвечал или разъяснил или разъяснял или успокоил или признавал или поделился или уведомил или упомянул или уверен или убежден или сомневаться или обеспокоен или согласен или соглашаться или согласиться или выразил или выражал или констатировал или считать или полагать или думать или прогнозировать или предполагать или предположить или рассчитывать или назвал или называть или оценивать или цитировал или процитировал или писать или написать или узнать или выяснить или "стало известно" или напечатать или опубликовать) или (по или согласно!т или (принимая : 0 во : 0 внимание) или (если : 0 верить)) : 3 (словам или мнению или замечанию или заявлению или прогнозу или утверждению или высказыванию или заверению или уверению или оценке или расчет или объяснение или разъяснение или опасение или ответ или довод или информация или сообщение или сведение или источник или ссылка или материал) : 6 (Евгений Ясин /фио) 14
Типовые запросы • (((рынок или отрасль или весь или бизнес или индустрия или объем) /с10 (розничная торговля)) (доля или сегмент или треть или четверть или половина или часть или место или позиция или положение или @число : 1 (процент или %)) /п) (Рамстор) /п 3 • (конкурент или конкурировать или ((делить или отбирать или отнимать или отнять или отобрать) /с10 (рынок или потребитель или клиент или абонент или аудитория)) или соперничать или соперничество или бороться или борьба или побороться) (Мегафон) /п 15
• (Воронеж или воронежский) (уровень : 2 жизни или зарплата или заработная : 1 плата или (доход /с4 (население или житель или гражданин или семья или душевой))) (@число : 1 (рубль или доллар или руб или долл или евро!т или $)) /п 2 • (завод или фабрика или ((предприятие или фирма или организация) /с8 (производить или произвести или производство или добывать или добыть или добыча или обрабатывать или обработать или обработка или выпускать или выпустить или выпуск или собирать или собрать или сборка или промышленность или промышленный))) (Брянск или брянский) /п 16
• ((крупный или (заметный не заметно!т /с1) или (известный не известно!т /с1) или влиятельный или авторитетный или пользоваться : 4 (доверием или влиянием или уважением или поддержка или популярность)) /с5 (человек или лицо или личность или фигура или мужчина или женщина или дама или персона или чиновник или президент или председатель или политик или деятель или бизнесмен или предприниматель или коммерсант или промышленник или руководитель или управляющий)) (Воронеж или воронежский) /п 2 • (объединенная : 0 металлургический : 0 компания или ОМК) (((запустить или открыть или внедрять или реконструкция или модернизация или реализовать) /с10 (проект или производство или выпускать или линия или завод или цех или технология)) или ((начать или приступить или приступать) /с10 (производство или выпускать))) /п 17
• ((президент или премьер или министерство или правительство или коллегия или (государственный : 3 (комиссия или коллегия или (орган : 0 власти) или ведомство или служба или агентство))) (постановление или законопроект или указание или приказ или распоряжение или акт) (подписать или принять или утвердить или выпустить или издать или отклонить или отвергнуть или (отправить : доработка)) /п) • (((проект или услуга или сервис или возможность или опция или версия или продукт или продукция) (запустить или запускать или выпустить или выпускать или запуск или выпуск или начать или начало или стартовать или старт или открыть или открывать или открытие или появиться или появляться или появление или предложить или предлагать или разработать или разрабатывать или разработка) /с10) или ((новый или очередной или "еще один") : 3 (проект или услуга или сервис или возможность или продукт или версия или продукция))) (Аэрофлот) /п 218
Медиалогия (c 2003) • Самая репрезентативная база СМИ на сегодня • Свыше 7. 000 русскоязычных источников в РФ и СНГ (около 400) ~ 50 тыс. материалов ежедневно • С 2009 - блогосфера (около 1000 топовых блогов Livejournal) • Собственные транскрипы ТВ и радио эфиров • Широкий набор опций и кастомизация под клиента • Поиск по полям и контекстный • Графичность информации 19
Особенности, преимущества и недостатки • Объектный поиск ~ 40 тыс. объектов (лицо, компания, бренд, география и пр. + слова-маркеры) • Самый большой набор интернет-источников • Региональные СМИ • Отраслевые и «глянцевые» СМИ НО • дороговизна доступа к базам • отсутствуют/ не всегда попадают некоторые ленты (Интерфакс, РИА и пр. ) • алгоритм качественного анализа публикаций • собственная линейка продуктов: «Оперативный мониторинг СМИ» , «Пресс-клиппинг и ТВ-клиппинг» , «Анализ PR-активности» ; «Анализ репутации» ; «Изучение отраслевых рынков» 20
Индекс информационного благоприятствования (ИИБ) • от -1000 до +1000 автоматический расчет индекса! • цитируемость СМИ, позитив/негатив, размер статьи, номер полосы, аудитория (PR value), наличие фотографии, главная/второстепенная роль, упоминание объекта в заголовке, наличие прямой речи НО • Велика погрешность (~картофелеуборочный комбайн) • Относительность «позитив-негатив» • Ревностное отношение бизнеса к позитив-негативу • Не тот «позитив» , что нужно (Pepsi. Co – И. Нуи) • +рейтинги (СМИ, ЛПР, тем, блогеров и пр. ) 21
Операторы языка запросов Медиалогии Наиболее близок к международным стандартам – Lexis-Nexis, Factiva, Google • И – пробел или & • ИЛИ - | или OR (максимальное количество вхождений) • НЕ - AND NOT (в пределах всего документа) • Группировка слов – () • Усечение слов - * (любое количество символов, но перед самой * д. б. не менее трех) • Точная форма слова - ! (нормальной форме – со словоформами, в одной из – без), фразы со вловоформами - «» , без словоформ ! «» • Расстояние между словами - /(n) или within • Порядок следования - BEFORE, AFTER • Насыщенность текста – GEn (не менее n раз) и LTn (не более) 22
Поисковый интерфейс 23
Интерфейс выдачи - сообщения 24
Интерфейс выдачи - динамика 25
Интерфейс выдачи - география
Интерфейс выдачи - СМИ
Общее по работе с базами • Базы, как правило, подписаны «друг на друга» - большие пересечения • Сочетание двух из трех дает оптимальное соотношение «цена-качство» . Напр. : unlim в Паблике + добор по Интегруму + Яндекс. новости +ручной поиск в интернете • Выбор базы в соответствии с задачами (направленность, объемы и пр). • Не «перемудрить» с языком запросов. Верифицировать выдачу несколькими запросами • Фокус, отсечение мусора/ шума, но «не выплеснуть с водой и ребенка» • Доверяй, но проверяй (инструменты автоматизированного качественного анализа) 28
Анализ сообщений СМИ. Тренинг • РАР: доля контрафактной водки России в 2011 г. составила 24%. Это самый низкий показатель за последние 10 лет… Росстат: розничные продажи (2011) - 135, 9 млн дал; производство, включая импорт, - 86, 3 млн дал • Введение продовольственных карточек для льготников в Москве… • Зачем Great Wall намеревается построить автозавод в Болгарии? • Зачем ДАМ заявил о том, что выборы 1996 года выиграл не Б. Ельцин • Законопроект комитета Госдумы по охране здоровья о запрете рекламы всех лекарственных препаратов • Венесуэльская нефть на Мозырском НПЗ 29
Спасибо за внимание … Вопросы? 30
Лекция_6.ppt