6af8a5578d2ad859baaebe1e50a6e82f.ppt
- Количество слайдов: 18
Как мы побеждаем вьетнамскую лингвистику WADA. vn: ПЕРВЫЕ ШАГИ НАЦИОНАЛЬНОГО ПОИСКОВИКА 16. 02. 12
b WADA. vn 16. 02. 12 § Бета-версия запущена в октябре 2011. Боевая версия — в год золотого дракона : ) § Весь «Вьетнет» : зона. vn, + вьетнамоязычные сайты в других зонах, + про Вьетнам § 200 тысяч сайтов, 350 млн документов, 36 Тб § Один конкурент (но очень большой) + Itim. vn (Нигма) – пока не опубликован + кладбище вьетнамских поисковиков 2 § Весной Google искал очень плохо. Мы лучше, чем он тогда, но пока хуже, чем он сейчас
Вьетнамский язык: графика 16. 02. 12 § Латинский алфавит: создан в XVII веке о. Александром де Род (Alexandre de Rhodes, вьет. A-Lịch-Sơn Đắc-Lộ); до того были иероглифы § Жесткая структура слога: truyền (tr-u-yề-n) используется системой ввода Telex § 6 тонов: a à ả ã á ạ 3 § «Двуслойная» диакритика: ặ ễ ử
Кодировка и нормализация 16. 02. 12 § К счастью, почти только UTF-8 § Может собираться по частям: ẩ = â + ’ = a + ^ + ’ § Место тона – жесткие правила, + кое-где «старый» и «новый» стиль hủy / huỷ § Орфографическая вариативность: bác sĩ / bác sỹ 4
Восстановление диакритики 16. 02. 12 § Бывают запросы без тонов (текстов без тонов мало) § Веб-мастера даже добавляют ключевые слова без тонов (иногда прямо в <title>): Recruitment - tuyen dung - tuyển dụng- viec lam, việc làm lao dong, lao động việt nam § Запросы без тонов предварительно восстанавливаются; искать «пониженные» варианты мало смысла § Восстановление тонов – статистика с небольшой примесью словарей 5 § Проблемы в основном на стыке с английским: ấn độ
Ошибки восстановления диакритики 16. 02. 12 6
Вьетнамский язык: слоговой 16. 02. 12 § ~ 8000 слогов, из них ~ 3000 только в составных словах § Огромная омонимия § Большинство слов составные § Вместо проблемы отождествления слов – проблема деления на слова § «Развалившиеся» слова – провал поиска 7 § Пока выделяем слова в запросах
Немного примеров 16. 02. 12 Что это значит? nhà – дом máy – механизм, машина xe – повозка, транспорт nước – вода, страна đất – земля trà – чай lá – лист(ья) thuốc – яд, лекарство 8 Словарик lá trà – ? trà lá – ? nước trà – ? nhà trà – ? máy bay – ? nhà máy – ? nhà thuốc – ? nhà nước – ? đất nước – ? mua bán – ? bán nước – ? xe máy – ? xe ôm – ? hút thuốc – ? mua – покупать bán – продавать bay – летать hút – вдыхать ôm – обнимать
Еще примеры. . . 16. 02. 12 Словарик máy – механизм, машина xe – повозка, транспорт thuốc – яд, лекарство ôm – обнимать hút – вдыхать Что это значит? 9 xe máy – мотоцикл, устар. велосипед xe ôm – см. фото hút thuốc – ?
И еще. . . 16. 02. 12 Словарик thuốc – яд, лекарство hút – вдыхать Что это значит? hút thuốc – см. фото 10
Конфликты 16. 02. 12 § nước trà – чай bán nước – предатель (Родины) bán nước trà – ? § Слова могут вкладываться и пересекаться § Если в словаре есть АВ и ВС, а в тексте АВС, то, скорее всего, в этом тексте нет хотя бы одного из слов АВ и ВС 11
Разрешение конфликтов 16. 02. 12 § Вложения công tác / đổ bê tông § Максимальное покрытие 1000 / năm / thăng long / hà nội § «Связанные» слоги long § «Слабые» слова bán nước 12 § «Префиксы» и «суффиксы» 121 / năm / (ngày (sinh nhật)) / hồ chí minh
Синонимия 16. 02. 12 § Сокращения § thành phố Hồ Chí Minh = TP. HCM § сông ty cổ phần = сông ty cp = cty cổ phần § Орфографические варианты § «Переводы» § Sài Gòn = Saigon § TP. HCM = HCMC § Заимствования 13
Заимствования: большая вариативность 16. 02. 12 14 § § § Mát-xcơ-va Mat-xcơ-va Mátxcơva Matxcova Mat-xờ-cơ-va Mát-xờ-cơ-va Mat-x-cơ-va Mát-x-cơ-va Matxcva Mát-scơ-va Mátcơva § § § Moskva Moscova Mạc Tư Khoa Moscow Moscou
Словари 16. 02. 12 § Составные слова § Коллокации ( «выражения» ) máy tính điện tử - электронно-вычислительная машина § «Префиксные» и «постфиксные выражения» chim gà lôi – фазан, cây tre – бамбук, con cá – рыба (con cá sấu – крокодил) § Стоп-слова § «Префиксы» и «постфиксы» (в основном грамматика): cái, các (ô tô) § Связанные слоги § Словарь разрешения конфликтов bãi đậu xe buýt = [bãi đậu {xe}] [xe buýt] 15 § Словари синонимов (заимствования, сокращения, . . . ) § Словари преобразования запросов §. . . и др.
Источники словарей 16. 02. 12 § Толковый словарь Viet. Lex (44000 слов) § Вьетнамско-английские словари (70 тыс. слов, 126 тыс. слов) § Специальные словари, словарь новых слов § География, имена (из разных источников) § Википедия § Статистика устойчивости словосочетаний 16 § Разбор конфликтов, . . .
Что еще 16. 02. 12 § Исправление опечаток § «Префиксы» и «суффиксы» запросов: cách sử dụng. . . – способы использования. . . nghĩa là gì – что означает § Деление доменных имен на слова (с повышением тонов): http: //thutuchanhchinh. vn = Thủ tục hành chính. vn § Отбор навигационных запросов § Варианты навигационных запросов 17 §. . . и др.
СПАСИБО! Михаил Волович Руководитель лингвистического отдела mv@ashmanov. com Вьетнамский поиск (beta) www. wada. vn Информация о компании, услугах и технологиях www. ashmanov. com 16. 02. 12 Анализаторы качества поиска www. analyzethis. ru
6af8a5578d2ad859baaebe1e50a6e82f.ppt