Лекция 8_ИС.pptx
- Количество слайдов: 14
Системы классификации информации Лекция № 8
Для того чтобы обеспечить эффективный поиск, обработку на ЭВМ и передачу по каналам связи технико экономической информации, ее необходимо представить в цифровом виде. С этой целью ее нужно сначала упорядочить (классифицировать), а затем формализовать (закодировать) с использованием классификатора.
Классификатор — это систематизированный свод наи менований и кодов классификационных группировок. Классификаторы по сфере действия разделяются на международные, общегосударственные (общесистемные), отраслевые, локальные. Международные классификаторы входят в состав Системы международных экономических стандартов (СМЭС) и обязательны для передачи информации между организациями разных стран мирового сообщества.
Общегосударственные (общесистемные) классификаторы обязательны для организации процессов передачи и обработки информации между экономическими системами государственно го уровня внутри страны. Отраслевые классификаторы используют для выполнения процедур обработки информации и передачи ее между организа циями внутри отрасли. Локальные классификаторы используют в пределах отдельных предприятий.
Классификация объектов — это процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами. Свойства информационного объекта определяются информационными параметрами — реквизитами, логически неделимым информационным элементом, описывающим определенное свойство объекта, явления и т. п. Реквизиты выражаются либо числовыми данными (масса, стоимость, год), либо признаками (цвет, марка машины, фамилия).
Классификация предусматривает следующие задачи — выявление общих свойств информационного объекта; разработку правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов. При классификации объектов необходимо соблюдать определенные требования, а именно: полноту охвата объектов, однозначность реквизитов, возможность включения новых реквизитов. При классификации применяются понятия классификационный признак и его значение, которые позволяют установить сходство или различие объектов. Признак классификации — свойство или характеристика объекта классификации, которое позволяет установить его сходство или различие с другими объектами классификации.
Классификационная группировка — это множество или подмножество, объединяющее часть объектов классификации по одному или нескольким признакам. В настоящее время чаще всего применяются два типа систем классификации: иерархическая и многоаспектная. Эти системы различаются разной стратегией применения классификационных признаков. Иерархическая система классификации информации построена следующим образом: 1. Исходное множество элементов составляет нулевой уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют первый уровень. 2. Каждый класс первого уровня в соответствии с характерным для него классификационным признаком делится на подклассы, которые образуют второй уровень.
3. Каждый класс второго уровня аналогично делится на группы, которые образуют третий уровень и т. д. Достоинства иерархической системы классификации — простота построения; использование независимых классификационных признаков в различных ветвях иерархической структуры. Недостатки иерархической системы классификации — жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки; невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.
Многоаспектная система (фасетная и дескрипторная) — это система классификации, которая использует параллельно несколь ко независимых признаков (аспектов) в качестве основания классификации. Фасетная система классификации информации представляет собой параллельное разделение множества объектов на независимые классификационные группировки по определенному аспекту классификации — фасету. Например, классифицировать фильмы можно в соответствии со следующими группами — тип (документальный, игровой, анимационный); жанр (боевик, комедия, романтика, фантастика); продолжительность; год; страна; режиссер; другие параметры (немой, звуковой, цветной, черно белый и т. п. ). Таким образом, каждый фильм обладает множеством признаков. При поиске нужного фильма используется пересечение требуемых атрибутов.
Эта система классификации позволяет (в отличие от иерархической) выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Достоинства фасетной системы классификации — возможность создания классификации большой емкости без изменения структуры существующих группировок; возможность простой модификации всей системы классификации без изменения структуры существующих группировок.
Недостаток фасетной системы классификации — сложность ее построения, (необходимо учитывать все разнообразие классифи кационных признаков). Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная система классификации, язык которой приближается к естественному языку описания информационных объектов. Суть дескрипторного метода заключается в следующем: 1. Отбирают совокупность ключевых слов (дескрипторов) или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов, причем среди ключевых слов могут находиться синонимы.
Выбранные ключевые слова и словосочетания подвергают нормализации, т. е. из совокупности синонимов выбирают один или несколько наиболее употребляемых. Создают словарь дескрипторов, т. е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации. Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов: 1) синонимические, указывающие на некоторую совокупность ключевых слов как синонимов ( «студент учащийся обучаемый» );
родовидовые, отображающие включение некоторого класса объектов в более представительный класс ( «университет факультет кафедра» ); ассоциативные, соединяющие дескрипторы, обладающие общими свойствами ( «студент экзамен профессор аудитория» ). Наиболее сложными вопросами, которые приходится решать при разработке классификатора, являются выбор методов классификации и кодирования и выбор системы признаков классификации. Основой классификатора должны быть наиболее существенные признаки классификации, соответствующие характеру решаемых с помощью классификатора задач.
При этом данные признаки могут быть или соподчиненными, или несоподчиненными. При соподчиненных признаках классификации и стабильном комплексе задач, для решения которых предназначен классификатор, целесообразно использовать иерархический метод классификации, который представляет собой последовательное разделение множества объектов на подчиненные классификационные группировки. При несоподчиненных признаках классификации и при большой динамичности решаемых задач целесообразно использовать фасетный метод классификации.