базовые понятия_ 5 курс_РП.ppt
- Количество слайдов: 24
«Референт-переводчик» 5 курс Современные методы аналитической обработки информации
Лекция 1 Базовые понятия в системе информационной аналитики
Информация - это отражение предметного мира с помощью знаков и сигналов. Предметный мир + отражение = Информация
Данные – это информация, представленная в формализованном виде, что обеспечивает возможность её хранения, обработки и передачи, в частности, с помощью технических средств. Информация + формализация = Данные
Знания – это информация, необходимая для принятия решений, т. е. истинная, достоверная, проверенная практикой информация. Информация + проверка истинности = Знания
Виды знаний n Факты указывают на хорошо известные обстоятельства. n Эвристики основываются на индивидуальном опыте n n специалиста. Глубинные знания отражают понимание сути явления, назначение и взаимосвязь его составляющих (это законы и теоретические основания). Поверхностные знания представляют знания, полученные из опыта, внешние эмпирические ассоциации с каким-либо явлением. Жесткие знания позволяют получать однозначные четкие результаты при заданных начальных условиях. Мягкие знания допускают множественные, нечеткие решения, допускающие различные варианты.
Трудно формализуемые знания Задачи с преобладанием глубинных и мягких знаний называют трудно формализуемыми. Для них характерны следующие особенности: 1. задача не может быть определена в числовой форме (требуется символьное представление); 2. алгоритмическое решение задачи не известно (хотя, возможно, и существует); 3. цели задачи не могут быть выражены в терминах точно определенной целевой функции или не существует точной математической модели задачи.
Аналитические технологии - это методики, позволяющие оценить 1. по известным данным 2. значения неизвестных характеристик и параметров 3. на основе существующих моделей, алгоритмов, теорем.
Для кого предназначены Аналитические технологии нужны, в первую очередь, лицам, принимающим важные решения (ЛПР) - руководителям, аналитикам, экспертам, консультантам. Доход компании в большой степени определяется качеством этих решений - точностью прогнозов, оптимальностью выбранных стратегий.
Для решения каких задач предназначены Аналитические технологии нужны для решения реальных задач бизнеса и производства, для которых не существует четких алгоритмов решения. Руководители и эксперты решают такие задачи обычно на основе личного опыта. К числу аналитических задач относятся в первую очередь задачи прогнозирования и оптимизации. Прогнозирование – это предсказание будущих событий с учетом возможной ошибки прогнозирования. Оптимизация – это выбор наилучшего варианта из числа возможных.
Традиционные технологии К традиционным технологиям решения бизнес-задач относятся детерминированные и вероятностные методы Детерминированные технологии модель данные статистики известный алгоритм известные параметры Вероятностные технологии вероятностная модель вероятностные параметры ответ прогноз
Недостатки традиционных технологий 1. Невозможно достаточно полно описать реальность с помощью небольшого числа параметров модели. 2. Расчет модели требует слишком много времени и вычислительных ресурсов. 3. Статистические методы хорошо развиты только для одномерных случайных величин. 4. В многомерной статистике за неимением лучшего применяют эвристические методы, результаты применения которых далеко не всегда удовлетворяют пользователей.
Новые технологии Из-за недостатков традиционных методик последние 10 лет идет активное развитие аналитических систем нового типа: OLAP-технологий и KDD-технологий. OLAP-технологии OLAP - это технология, обеспечивающая возможность многомерного анализа данных. На основе OLAP строятся системы поддержки принятия решений и системы подготовки отчетов. В подобных системах разрозненная информация представляется в виде многомерного куба, которым можно легко манипулировать, извлекая срезами нужную информацию.
Новые технологии KDD-технологии Knowledge Discovery in Databases (KDD) – это процесс поиска полезных знаний в 'сырых данных'. 1. 2. 3. 4. 5. KDD включает в себя этапы: подготовка данных; выбор информативных признаков; очистка данных; применение методов Data Mining (DM); интерпретация полученных результатов.
Новые технологии Data Mining – это процесс обнаружения в 'сырых' данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Этими знаниями могут быть: 1. правила, описывающие связи между свойствами данных (деревья решений); 2. часто встречающиеся шаблоны (ассоциативные правила); 3. результаты классификации (нейронные сети); 4. результаты кластеризации данных (карты Кохонена) и т. д. Методика анализа с использованием механизмов Data Mining базируется на различных алгоритмах извлечения закономерностей из исходных данных, результатом работы которых являются модели.
Этапы KDD-технологии 1. Подготовка данных. Никакой самый изощренный метод Data Mining сам по себе не даст хороший результат, т. к. критически важным является вопрос качества исходных данных. Чаще всего именно качество данных становится причиной неудачи. 2. Выбор информативных признаков. Начинается с выдвижения гипотез о влиянии определенных факторов на исследуемую задачу. На первом шаге нужно собрать и систематизировать все идеи. Результатом данного шага должен быть список с описанием всех факторов. 3. Очистка данных. Собранные данные нужно преобразовать к единому формату ( Excel, текстовой файл в разделителями, любая СУБД). Данные обязательно должны быть унифицированы, т. е. одна и та же информация везде должна описываться одинаково. Чаще всего, качество данных оставляет желать лучшего, поэтому необходимо их предобработать (удалить шумы, заполнить пропущенные данные и т. д. ). n
Этапы KDD-технологии 4. Применение методов Data Mining (DM). Необходимо комбинировать методики анализа. Это позволяет шире смотреть на проблему. Более того, использование различных методов для решения одной и той же задачи может навести на ценные идеи. 5. Интерпретация полученных результатов. При невозможности получения приемлемых результатов необходимо вернуться на предыдущие шаги схемы и рассмот-реть альтернативные варианты решения. Ошибки могут быть допущены на любом шаге: может быть некорректно сформулирована первоначальная гипотеза, могут возникнуть проблемы со сбором необходимых данных и др. . К этому нужно быть готовым.
Заключение 1. При получении приемлемых результатов нужно начать использование полученных моделей. 2. Начало применения не является завершением Data Mining проекта. 3. Работать над совершенствованием моделей нужно всегда, т. к. после получения первых удовлетворительных результатов, обычно встает вопрос о повышении точности. 4. Необходимо периодически оценивать адекватность модели текущей ситуации. …даже самая удачная модель со временем перестает соответствовать действительности …
Григорий Пятецкий-Шапиро Основатель направлений Data Mining и Knowledge Discovery in Databases, президент компании KDnuggets, исследователь в области анализа данных и машинного обучения с мировым именем. Консультирует компании по вопросам разработки и применения методов автоматического извлечения закономерностей. Автор известной на весь мир статьи «From Data Mining to Knowledge Discovery in Databases» . Схема процесса получения знаний из данных, представленная в этой статье, сегодня приводится в любом учебнике по Data Mining. Соавтор двух книг, ставших бестселлерами: Knowledge Discovery in Databases (1991) и Advances in Knowledge Discovery in Databases (1996).
Усама Файад Один из идеологов технологий KDD и Data Mining, стоявший у их истоков. В настоящее время работает в научноисследовательском центре Yahoo Research Labs в качестве исполнительного вице-президента. Автор более 100 публикаций в области интеллектуальных систем и Data Mining. Многие его идеи и разработки получили развитие в Data Mining технологиях Microsoft. В 2000 году Файад основывает собственную компанию Digi. Mine (сейчас – Revenue Sience), занимающуюся анализом веб-данных.
Визуализация
Применение интеллект-карт для анализа информации и принятия решения по результатам анализа Интеллект-карта представляет собой следующий путь мышления: а а а ассоциации Базовый образ а а Слово а а Интеллект-карта — это графическое выражение процесса радиантного (многомерного) мышления.
Выявление наиболее эффективных путей молодежного образования Интеллект-карта иллюстрирует один из результатов проекта, реализованного компанией «Ай-би-эм» совместно с подразделением, созданным в рамках осуществления правительственной программы молодежного образования Великобритании.
Методическое руководство для инженерно-технического персонала корпорации «Боинг эйркрафт» (7, 5 м)
базовые понятия_ 5 курс_РП.ppt