6 - Проектирование классификаторов.ppt
- Количество слайдов: 52
Раздел 2. Каноническое проектирование информационных систем Тема 6. Проектирование классификаторов техникоэкономической информации
Особенности экономической информации • Большие объемы ежегодно создаваемой, обрабатываемой и хранимой информации • Большая часть информации имеет символьное представление, слабо приспособленное для логической и арифметической обработки • Высокий уровень стоимостных и трудовых затрат на поиск и ее обработку
Классификатор • Документ, с помощью которого осуществляется формализованное описание экономической информации в ИС, содержащий наименования объектов, классификационных группировок и их кодовые обозначения.
Формы экономической информации Экономическая информация существует в двух формах: • в форме экономических показателей; • в форме документов.
Структура экономического показателя
Реквизиты-признаки • Справочные реквизиты-признаки – наименования, предназначены для понимания показателя пользователемэкономистом. • Группировочные реквизиты-признаки – закодированные аналоги справочных признаков, предназначенные для логической обработки информации на ЭВМ.
Основные определения • • Классификация – результат упорядоченного распределения объектов множества на подмножества. Система классификации – совокупность правил распределения объектов множества на подмножества. Признак классификации – свойство или характеристика объекта классификации, которое позволяет установить его сходство или различие с другими объектами классификации. Классификационная группировка – множество или подмножество, объединяющее часть объектов классификации по одному или нескольким признакам. Основание классификации – признак, по которому ведется разбиение множества на подмножества на определенной ступени классификации. Ступень классификации – результат очередного распределения объектов одной классификационной группировки. Уровень классификации – совокупность классификационных группировок, расположенных на одних и тех же ступенях классификации. Глубина системы классификации – количество уровней классификации, допустимое в данной системе.
Свойства системы классификации • Гибкость системы – способность допускать включение новых признаков, объектов без нарушения структуры классификатора. Определяется временем жизни (T) системы. • Емкость системы – наибольшее количество классификационных группировок, допускаемое в данной системе классификации (P). • Степень заполненности системы (Кзап) определяется как частное от деления фактического количества группировок (Qф) на величину емкости (Р): Кзап=Qф/P
Типы систем классификации • Иерархическая система классификации • Многоаспектная система классификации
Особенности иерархической системы • Наличие в системе неограниченного количества признаков классификации. • Соподчиненность признаков классификации, что выражается разбиением каждой классификационной группировки, образованной по одному признаку на множество классификационных группировок по нижестоящему (подчиненному) признаку.
Иерархическая система классификации
Ограничения иерархической системы классификации • Получающиеся на каждом уровне классификационные группировки должны составлять исходное множество объектов. • Классификационные группировки на каждой ступени не должны пересекаться. • На каждой ступени классификация проводится только по одному признаку.
Достоинства и недостатки иерархической системы классификации Достоинства: • логичность; • простота; • удобство логической и арифметической обработки. Недостаток: • Жесткая структура классификации, не позволяющая вносить новые признаки или изменять их последовательность.
Многоаспектная система классификации Использует параллельно несколько независимых признаков (аспектов) в качестве основания классификации. Типы многоаспектных систем: • Фасетная • Дескрипторная Фасет – аспект классификации, который используется для образования независимых классификационных группировок. Дескриптор – ключевое слово, определяющее некоторое понятие, которое формирует описание объекта и дает принадлежность этого объекта классу, группе и т. д.
Особенности фасетной системы • Имеется множество классифицируемых объектов, которое может рассматриваться в нескольких аспектах, каждый из которых может характеризоваться одним или несколькими признаками, образующими фасет (Ф). • Устанавливается некий порядок следования фасетов с помощью фасетной формулы. F=(Ф 1, Ф 2, …, Фn)
Фасетная система классификации
Достоинства и недостатки фасетной системы классификации Достоинства: • Большая емкость системы • Высокая степень гибкости Недостатки: • Сложность структуры • Низкая степень заполненности системы
Информационный язык дескрипторного типа • Характеризуется совокупностью терминов, дескрипторов или лексикой и набором отношений между терминами. • Используется для поиска показателей и документов по набору содержательных признаков.
Типы отношений между терминами • Парадигматические – постоянные логические отношения между терминами (например, родовидовые отношения). • Синтагматические – переменные отношения между понятиями, возникающие в процессе построения конкретного высказывания.
Парадигматические отношения • • • Родовидовые Синонимия Омонимия Полисемия Ассоциативные отношения: – Отношения части к целому – Причинно-следственные отношения – Связь предмета и процесса
Виды дескрипторных языков • Предкоординированный язык – все высказывания в терминах языка формируются на стадии разработки. • Посткоординированный язык – фиксируются только постоянные отношения между терминами, высказывания формируются в процессе использования языка.
Предкоординированный язык • Пример: классификационный язык, основанный на иерархической или фасетной системе классификации. • Недостатки: Ш слабая приспособленность к новым условиям функционирования системы; Ш возможность создания запросов только регламентированного содержания.
Посткоординированный язык • Пример: языки, основанные на применении координатного или ассоциативного индексирования. • Содержание документов или показателей описывается с помощью списка ключевых слов – дескрипторов. Название показателя на естественном языке Количество продукции, выработанное фактически цехом за смену Название показателя на дескрипторном языке Количество, продукция, выработка, факт, цех, смена
Тезаурус • Систематический словарь понятий, в котором описываются все термины и отношения между ними. • Разрабатывается с целью проведения индексирования документов, показателей, информационных запросов.
Система кодирования • Система кодирования – совокупность правил обозначения объектов и группировок с использованием кодов. • Кодирование – процесс присвоения условных обозначений объектам и классификационным группам по соответствующей системе кодирования. • Код – условное обозначение объектов или группировок в виде знака или группы знаков в соответствии с принятой системой. • Основание кода – число знаков алфавита, на котором базируется код.
Характеристики кода • Длина (L). • Основание кодирования (A). • Структура кода – распределение знаков по признакам и объектам классификации. • Степень информативности (I) – частное от деления общего количества признаков (R) на длину кода (L). I=R/L • Коэффициент избыточности (Кизб) – отношение максимального количества объектов (Qmax) к фактическому количеству объектов (Qфакт): Кизб=Qmax/Qфакт
Классификация систем кодирования
Регистрационные системы кодирования • Используются для идентификации объектов и передачи информации об объектах на расстояние. • Регистрационные коды состоят из двух частей: информационной и контрольной, предназначенной для защиты информации от ошибок.
Порядковая система кодирования • Порядковая система – каждому объекту кодируемого множества присваивается порядковый номер.
Серийная (серийно-порядковая) система кодирования • Серийная (серийно-порядковая) система – номенклатура кодируемых объектов разбивается на группировки, каждой группировке отводится серия кодовых значений, в пределах которой каждому элементу присваивается код по порядку.
Классификационные системы кодирования • Используются для отражения классификационных взаимосвязей объектов и группировок. • Последовательные системы базируются на иерархической классификации, коды нижестоящих группировок образуются путем добавления кодов к кодам вышестоящих группировок. • Параллельные системы базируются на фасетной классификации, коды группировок по фасетам формируются независимо друг от друга.
Разрядная (позиционная) система кодирования • Кодируемые объекты систематизируются по классификационным признакам на каждой ступени классификации, каждому признаку отводится определенное число разрядов, в пределах которых кодирование группировок начинается с единицы.
Код повторения (мнемокод) • Код повторения (мнемокод) – буквенные или буквенно-цифровые коды, в структуру которых перенесена часть символьных обозначений объектов.
Комбинированная система кодирования • Сочетает принципы разрядной, серийной, порядковой систем и кода повторения.
Формы классификаторов • Эталонная форма классификатора – официальное издание классификатора на бумажном носителе. • Рабочая форма классификатора – классификатор, занесенный на машинный носитель и удобный для его обработки.
Этапы процесса разработки классификатора
Разработка ТЗ на проектирование • Определение состава, назначения и сферы действия классификатора • Определение состава исходных данных и требований к классификатору
Виды классификаторов по сфере действия • Международные • Общегосударственные (общесистемные) • Отраслевые • Локальные
Исходные данные для проектирования классификатора • Состав задач, для которых используется классификатор • Количество и состав объектов классификации • Состав признаков классификации и число значений каждого признака • Наименования отдельных группировок и объектов • Частота изменения состава задач, объектов и признаков
Требования к классификатору • Полнота охвата объектов и признаков классификации • Согласованность признаков деления множеств объектов с алгоритмами обработки экономической информации • Взаимная однозначность наименований объектов и их кодовых обозначений • Простота кодирования и возможность автоматизации классификации и кодирования • Возможность увязки с другими классификаторами • Эффективность использования классификатора при обработке информации
Разработка методических материалов проектирования • Разработка основных принципов построения классификатора • Разработка системы взаимодействия классификаторов • Разработка методики построения классификатора
Организация сбора и обработки исходных данных • Разработка инструктивных материалов по сбору и обработке данных – Определение перечня решаемых задач, использующих классификаторы – Выделение классифицируемых объектов – Определение состава признаков классификации и значений признаков – Лингвистическая обработка исходных данных – Согласование используемой терминологии с ГОСТами • Сбор и обработка данных
Составление классификатора и системы его ведения • Построение эталонной и рабочей формы классификатора и системы ведения • Экспериментальная проверка и внесение коррективов • Утверждение и издание классификатора
Задачи системы ведения классификатора • Актуализация классификатора • Оповещение пользователей об изменениях классификатора • Реструктуризация или пересмотр структуры классификатора
Единая система классификации и кодирования (ЕСКК)
Структура Общесистемного классификатора промышленной и сельскохозяйственной продукции (ОКП)
Структура общесистемного классификатора предприятий и организаций (ОКПО)
Технология штрихового кодирования • Предназначена для осуществления автоматизированной записи, считывания и идентификации информации об объектах или деловых процессах. • Штриховой код – последовательность чередования широких и узких, темных и светлых полос, которым присвоены логические значения 1 и 0.
Системы штрихового кодирования • UPC – универсальный товарный код, разработанный в США. • EAN – товарный код, созданный Европейской ассоциацией товарной нумерации (EAN International) на базе UPC. • UCC/EAN – единый стандартизированный штриховой код, созданный организациями США, Канады и EAN International. • Виды кодов: UPC-12, EAN-8, EAN-13, EAN-14, UCC/EAN-128 (Code 39).
UPC-12
EAN-8
EAN-13


