Зипф,_шкалирование,_кластеры,_графы.ppt
- Количество слайдов: 68
Аналитика текста Методы анализа текста
Сценарные модели строятся для того, чтобы: • создать основу для построения формальной модели; • зафиксировать на материальном носителе совокупность знаний о системе или процессе; • привести описания системы или процесса к виду, допускающему его описание с помощью формальных средств; • проанализировать существующие расхождения в субъективном восприятии проблемной ситуации различными специалистами; • выявить максимально полный комплекс вариантов решения проблемы.
Методы структурирования информации
Классификация целей структурирования информации • получение качественно нового знания о системе/процессе; • установление факта и локализация неполноты и/или противоречивости совокупности знаний; • систематизация, упорядочение некоторой совокупности знаний; • акцентирование или выделение одного или нескольких аспектов • информации (например, временного, пространственного, функционального и т. д. ); • сокращение избыточности представления информации; • согласование представления информации с некоторой системой обработки и интерпретации; • повышение наглядности отображения информации; • смена уровня общности/абстракции описаний.
Классификация видов информации по ее сущности/содержанию и способу ее использования: • информация о ценностях и целях (информация целеполагания), • используемая при планировании/ прогнозировании; • информация о функциях системы/процесса; • информация о структуре системы/процесса; • информация о динамике системы/процесса; • информация о состоянии системы/процесса; • информация о задачах системы/процесса.
Другие классификационные признаки • отношение информации к объекту: - информация, относящаяся к объекту; - информация, относящаяся к классу объектов; - информация, относящаяся к среде; • отношение информации к некоторому моменту времени: - информация, относящаяся к прошлому; - информация, относящаяся к настоящему; - информация, относящаяся к будущему; • отношение информации к классу структурной организации: - информация неструктурированная; - информация упорядоченная; - информация формализованная.
Классификация - это иерархически организованная система информационных элементов, обозначающих объекты/процессы реального мира и упорядоченных по признаку сходства/различия классификационных признаков, отражающих избранные свойства объектов.
Виды классификации • Искусственная – по внешним признакам; • Естественная – по существенным признакам.
Принципы классифицирования • при выполнении каждой операции разделения на классы (акт деления) допускается применение только одного классификационного основания; • совокупный объем полученных в результате разделения на классы понятий должен равняться объему делимого понятия; • понятия, полученные в результате деления должны взаимно исключать друга; • деление должно быть последовательным.
Виды классификации • простые (одноуровневые); • сложные (многомерные); • иерархическая (древовидная).
Процедура классификации не имеет собственной ценности.
Задачи по уровню структурной организации информации • Задачи преобразования неструктурированного ЕЯ-текста в ЕЯтекст с разбиением на рубрики; • Задачи преобразования ЕЯ-текста с разбиением на рубрики в структурированный ЕЯ текст с элементами логического формализма; • Задачи преобразования структурированного ЕЯ текста с элементами логического формализма в символьную модель, использующую теорию графов с ЕЯ-маркировкой вершин (узлов) и связей (дуг); • Задачи преобразования символьной модели, использующей теорию графов с ЕЯ-маркировкой вершин (узлов) и связей (дуг), в символьную модель, использующую формализм теории графов с ИЯ-маркировкой вершин (узлов) и связей (дуг); • Задачи преобразования символьной модели, использующей теорию графов с ИЯ-маркировкой вершин (узлов) и связей (дуг), в строгую символьную ИЯ-модель.
Все созданные человеком тексты строятся по единым правилам
Законы Зипфа Джордж Кингсли Зипф George Kingsley Zipf (1902 -1950) – Гарвардский профессор-лингвист и филолог.
Слова с большим количеством букв встречаются в тексте реже коротких слов
Первый закон Зипфа "ранг частота" Произведение вероятности обнаружения слова в тексте на его ранг частоты - константа.
Вероятность = Частота вхождения слова / Число слов
Wikipedia
Второй закон Зипфа "количество - частота" Форма кривой зависимости частоты и количества слов, входящих в текст с этой частотой, одинакова для всех текстов
Частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой
Наиболее значимые слова лежат в средней части диаграммы
Метод поэтапной структуризации задач vs морфологические методы метод поэтапной структуризации задач морфологические методы Адаптированы к применению в условиях высокой неопределенности Ориентирован на управление процессом постепенного снижения неопределенности Решение задачи синтеза модели за одну итерацию Произвольный уровень формализации первичной модели Необходима детальная декомпозиция предметной области Поэтапное приближение к формальной модели или этапу логически обоснованного выбора решения Синтез альтернатив, подлежащих анализ и оценке Процедуры логического вывода решения Комбинаторный анализ
Метод поэтапной структуризации задач Цель: Проведение процедуры постепенного повышения уровня абстракции и структурной организации описаний (моделей)
Толкование термина «задача» Задача Синтез модели Цель управленческой деятельности
Требования к модели • полнота и достаточность для описания основных критериев принятия решения; • компактность (минимальный уровень декомпозиции при заданной полноте); • конкретная цель, функция, задача или объект, расположенные в узлах модели, должна появляться в дереве только один раз; • лицо, принимающее решение, должно быть в состоянии представлять и анализировать отдельные ветви дерева независимо.
Подходы к построению дерева целей Прогнозный граф Краткосрочная перспектива Задачи стратегического планирования
Автор метода прогнозного графа Глушков Виктор Михайлович (1923 -1982)
Морфологические методы Цель: Решение сложных проблем в условиях высокой неопределенности Сущность: в использовании комбинаторного анализа для синтеза сложных систем с заданными свойствами в условиях существования ограничений (объективных и/или субъективных) на сочетаемость элементов, входящих в некоторое базовое множество.
Автор метода Фриц Цвикки (18981974) – швейцарский астроном, один из основоположников морфологического анализа.
Этапы: • Описание желаемых функциональных свойств системы; • Составление исчерпывающего перечня основных функций системы; • Составление перечня альтернативных способов реализации каждой функции; • Генерирование множества возможных вариантов реализации системы, каждый из которых представляет собой цепочку, включающую по одному способу реализации каждой из перечисленных функций; • Оценивание рисков и эффективности вариантов; • Выбор предпочтительного варианта.
Морфологическая таблица В наглядной форме отображает все возможные варианты решения проблемы В строках – вариант решения проблемы В столбцах – полное множество вариантов реализации каждой функции
Пример морфологической таблицы
Пример морфологической таблицы
Развитие морфологического метода • • • Метод систематического покрытия поля Метод отрицания и конструирования Метод морфологического ящика Метод экстремальных ситуаций Метод сопоставления совершенного с дефектным • Метод обощения
Шкалирование Шкала – инструмент для измерения непрерывных свойств объекта; представляет собой числовую систему, где отношения между различными свойствами объектов выражены свойствами числового ряда. Шкалирование – одна из разновидностей измерительных методов.
Смысл термина В общем случае - метод вынесения субъективных оценок: испытуемому {информанту, эксперту} предлагается оценить какой-то объект по какому-то признаку с использованием шкал, образованных с помощью числовых, словесных градаций или заданных в графической форме
Смысл термина Научный подход: основанная на определенной модели процедура построения системы количественных оценок свойств, параметров процессов или образов
Многомерное шкалирование Позволяет учитывать одновременно не один параметр объекта или события, а множество параметров
Типы шкал 1. Ординальные шкалы (шкалы порядка). Порядковые переменные позволяют ранжировать (упорядочить) объекты, указав какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной
Типы шкал 2. Шкалы интервалов. Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выразить и сравнить различия между ними.
Типы шкал 3. Шкалы отношений. Характерная черта – наличие определенной точки абсолютного нуля
Типы шкал 4. Шкала оценок Позволяет распределить совокупность изучаемых объектов по степени выраженности общего для них свойства.
Типы шкал 5. Шкала наименований (номинативная шкала) Используется только для КАЧЕСТВЕННОЙ классификации, т. е. не имеет количественной меры
Свойства номинативной шкалы (1) Шкала наименований имеет только качественные (категориальные, неколичественные) значения. (2) Шкала наименований не имеет ни абсолютной, ни относительной начальной точки отсчета. (3) Шкала не имеет базовой единицы измерения. (4) Шкала не имеет интервалов. (5) Единственными типами отношений между неколичественными значениями шкалы может быть равенство одинаковых значений переменных величин, соответствующих объектам одной категории или неравенство разных значений переменных величин, соответствующих объектам одной категории.
Следствия (а) Категориальные, неколичественные значения шкалы не имеют порядков (рангов) и не могут быть упорядочены. (б) Любые арифметические операции со значениями переменных именованных числами, полученных с помощью номинативной шкалы, не имеют смысла. (в) По выборочным данным могут быть подсчитаны количество отдельных значений номинативной переменной и их относительные частоты.
Граф
Определение Граф – это совокупность непустого множества вершин и множества пар вершин (связей между вершинами).
Типы графов 1. Неориентированный граф G — это упорядоченная пара G: = (V, E), для которой выполнены следующие условия: V это множество вершин или узлов, E это множество (неупорядоченных) пар различных вершин, называемых рёбрами.
Типы графов 2. Ориентированный граф (сокращенно орграф) G — это упорядоченная пара G: = (V, A), для которой выполнены следующие условия: V это множество вершин или узлов, A это множество (упорядоченных) пар различных вершин, называемых дугами или ориентированными рёбрами.
Типы графов 3. Смешанный граф G — это граф, в котором некоторые рёбра могут быть ориентированными, а некоторые — неориентированными. Записывается упорядоченной тройкой G: = (V, E, A), где V, E и A определены так же, как выше.
Теория графов не обладает устоявшейся терминологией • Вершины и рёбра графа называются также элементами графа, число вершин в графе ( | V | ) — порядком, число рёбер ( | E | ) — размером графа. • Вершины u и v называются концевыми вершинами (или просто концами) ребра e = {u, v}. • Две концевые вершины одного и того же ребра называются соседними. • Два ребра называются смежными, если они имеют общую концевую вершину. • Два ребра называются кратными, если множества их концевых вершин совпадают. • Ребро называется петлёй, если его концы совпадают, то есть e = {v, v}. • Вершина называется висячей (или листом), если она является концом ровно одного ребра.
Дополнительные характеристики графов • Граф называется: • связным, если для любых вершин u, v есть путь из u в v. • сильно связным или ориентированно связным, если он ориентированный, и из любой вершины в любую другую имеется ориентированный путь. • полным, если любые его две вершины соединены ребром. • двудольным, если его вершины можно разбить на два непересекающихся подмножества V 1 и V 2 так, что всякое ребро соединяет вершину из V 1 с вершиной из V 2. • планарным, если граф можно изобразить диаграммой на плоскости без пересечений рёбер. • взвешенным, если каждому ребру графа поставлено в соответствие некоторое число, называемое весом ребра.
Сильно связный граф
Полный граф
Двудольный граф
Планарный граф
Взвешенный граф
Кластеры Прием - кластеры (гроздья) заключается в выделении смысловых единиц текста и их графическое оформление в определенном порядке в виде грозди.
Принципы построения кластера • • • Выделить главную смысловую единицу в виде ключевого слова или словосочетания (тема). Выделить связанные с ключевым словом смысловые единицы (категорий информации). Конкретизировать категории мнениями и фактами, которые содержатся в осваиваемой информации.
Кластерный анализ Термин кластерный анализ впервые ввел математик Роберт Трион в 1939 г. Включает в себя набор различных алгоритмов классификации.
Методы кластерного анализа 1. Иерархические (древовидная кластеризация, метод ближнего соседа, метод полной связи, метод средней связи и метод Варда) 2. Неиерархические (метод Ксредних)
Горизонтальная древовидная диаграмма
Цель Объединение объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами.
Меры расстояния Евклидово расстояние. Это наиболее общий тип расстояния. Оно является геометрическим расстоянием в многомерном пространстве.


