Скачать презентацию Элементы Data Mining Информационные технологии в экономике лекция Скачать презентацию Элементы Data Mining Информационные технологии в экономике лекция

лекция 10. Data Mining.pptx

  • Количество слайдов: 34

Элементы Data Mining Информационные технологии в экономике, лекция 10 Элементы Data Mining Информационные технологии в экономике, лекция 10

Понятие Data Mining • {Григорий Пятецкий-Шапиро, 1989} Data Mining, Knowledge Discovery in Data (добыча Понятие Data Mining • {Григорий Пятецкий-Шапиро, 1989} Data Mining, Knowledge Discovery in Data (добыча данных, интеллектуальный анализ данных, глубинный анализ данных): собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Понятие Data Mining • {SAS Institute} Data Mining - это процесс выделения, исследования и Понятие Data Mining • {SAS Institute} Data Mining - это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе

Понятие Data Mining • {Gartner Group} Data Mining - это процесс, цель которого - Понятие Data Mining • {Gartner Group} Data Mining - это процесс, цель которого - обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов

Понятие Data Mining • В основу современной технологии Data Mining (discovery-driven data mining) положена Понятие Data Mining • В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.

Понятие Data Mining • Основу методов Data Mining составляют всевозможные методы классификации, моделирования и Понятие Data Mining • Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики.

Методы Data Mining • К методам Data Mining нередко относят статистические методы (дескриптивный анализ, Методы Data Mining • К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Разыскиваемые закономерности • ассоциация (имеет место в том случае, если несколько событий связаны друг Разыскиваемые закономерности • ассоциация (имеет место в том случае, если несколько событий связаны друг с другом), • последовательность (существует цепочка связанных во времени событий), • классификация (выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект), • кластеризация (самостоятельно выделяют различные однородные группы данных), • прогнозирование (анализ исторической информации, хранящейся в БД в виде временных рядов).

Стадии DM • Стадия 1. Выявление закономерностей (свободный поиск) и валидация – проверка достоверности Стадии DM • Стадия 1. Выявление закономерностей (свободный поиск) и валидация – проверка достоверности найденных закономерностей. • Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование). • Стадия 3. Анализ исключений - стадия предназначена для выявления и объяснения аномалий, найденных в закономерностях.

Сферы применения DM • Применение Data Mining для решения бизнесзадач. Основные направления: банковское дело, Сферы применения DM • Применение Data Mining для решения бизнесзадач. Основные направления: банковское дело, финансы, страхование, CRM, производство, телекоммуникации, электронная коммерция, маркетинг, фондовый рынок и другие. • Применение Data Mining для решения задач государственного уровня. Основные направления: поиск лиц, уклоняющихся от налогов; средства в борьбе с терроризмом.

Сферы применения DM • Применение Data Mining для научных исследований. Основные направления: медицина, биология, Сферы применения DM • Применение Data Mining для научных исследований. Основные направления: медицина, биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия, прикладная химия, исследования, касающиеся наркотической зависимости, и другие. • Применение Data Mining для решения Webзадач. Основные направления: поисковые машины (search engines), счетчики и другие.

DM в экономике: торговля • анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, DM в экономике: торговля • анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. • исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. • создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением.

DM в экономике: банки • выявление мошенничества с кредитными карточками; выяснение стереотипного поведения мошенников. DM в экономике: банки • выявление мошенничества с кредитными карточками; выяснение стереотипного поведения мошенников. • сегментация клиентов; разбиение клиентов на категории, адресный подход в работе. • прогнозирование изменений клиентуры; построение прогнозных изменений моделей ценности клиентов.

DM в экономике: телекоммуникации • анализ записей о подробных характеристиках вызовов. Назначение такого анализа DM в экономике: телекоммуникации • анализ записей о подробных характеристиках вызовов. Назначение такого анализа суть выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг; • выявление лояльности клиентов. Data Mining можно использовать для определения характеристик клиентов, которые, один раз воспользовавшись услугами данной компании, с большой долей вероятности останутся ей верными.

DM в экономике: страховое дело • выявление мошенничества. Страховые компании могут снизить уровень мошенничества, DM в экономике: страховое дело • выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями. • анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам.

Классы систем DM • Предметно-ориентированные аналитические системы (программы технического анализа). • Статистические пакеты. • Классы систем DM • Предметно-ориентированные аналитические системы (программы технического анализа). • Статистические пакеты. • Кластеризация и классификация • Нейронные сети. • Системы рассуждений на основе аналогичных случаев. • Деревья решений. • Эволюционные алгоритмы. • Генетические алгоритмы. • Системы визуализации многомерных данных.

Предметно-ориентированные ИС • Направлены на конкретную предметную область, не универсальны. • Особый их подкласс Предметно-ориентированные ИС • Направлены на конкретную предметную область, не универсальны. • Особый их подкласс – системы «технического анализа» , прогнозирующие поведение рынка: • XTick http: //www. xtick. ru/ • Net. Trade. X http: //www. ifcmarkets. com/ru/platforms/ntx#cut • Meta. Trader http: //www. ifcmarkets. com/ru/platforms/mt 4#cut

Статистические пакеты • Применяют методики регрессионного, корреляционного, факторного, кластерного анализа. • Statistica http: //www. Статистические пакеты • Применяют методики регрессионного, корреляционного, факторного, кластерного анализа. • Statistica http: //www. statsoft. com • SPSS http: //www-01. ibm. com/software/ru/analytics/spss/ • Stadia http: //protein. bio. msu. ru/~akula/Podr 2~1. htm • SAS Enterprise Miner http: //www. sas. com/technologies/analytics/datamining/miner/ • R http: //www. r-project. org/

Нейронные сети • Имитируют работу нервной сети. Каждый нейрон имеет отростки нервных волокон двух Нейронные сети • Имитируют работу нервной сети. Каждый нейрон имеет отростки нервных волокон двух типов дендриты, по которым принимаются импульсы, и единственный аксон, по которому нейрон может передавать импульс. Аксон контактирует с дендритами других нейронов через специальные образования - синапсы, которые влияют на силу импульса.

Нейронные сети • Можно считать, что при прохождении синапса сила импульса меняется в определенное Нейронные сети • Можно считать, что при прохождении синапса сила импульса меняется в определенное число раз, которое мы будем называть весом синапса. Импульсы, поступившие к нейрону одновременно по нескольким дендритам, суммируются. Если суммарный импульс превышает некоторый порог, нейрон возбуждается, формирует собственный импульс и передает его далее по аксону. Важно отметить, что веса синапсов могут изменяться со временем, а значит, меняется и поведение соответствующего нейрона.

Нейронные сети • Пусть к синапсам поступают импульсы силы x 1, x 2, x Нейронные сети • Пусть к синапсам поступают импульсы силы x 1, x 2, x 3 соответственно, тогда после прохождения синапсов и дендритов к нейрону поступают импульсы w 1 x 1, w 2 x 2, w 3 x 3. Нейрон преобразует полученный суммарный импульс x = w 1 x 1 + w 2 x 2 + w 3 x 3 в соответствии с некоторой передаточной функцией f(x). Сила выходного импульса равна y=f(x)=f(w 1 x 1 + w 2 x 2 + w 3 x 3).

Нейронные сети • Обучение нейронной сети Нейронные сети • Обучение нейронной сети

Нейронные сети • Использование нейронной сети Нейронные сети • Использование нейронной сети

Нейронные сети • Продукты: • Neuro. Shell 2 Gene. Hunter http: //www. wardsystems. com Нейронные сети • Продукты: • Neuro. Shell 2 Gene. Hunter http: //www. wardsystems. com • Brain. Maker http: //www. calsci. com/Brain. Index. html • Hyper. Logic OWL http: //www. hyperlogic. com •

Системы рассуждений по аналогии • Эти системы находят в прошлом близкие аналоги наличной ситуации Системы рассуждений по аналогии • Эти системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным. Поэтому этот метод еще называют методом "ближайшего соседа" (nearest neighbour). В последнее время распространение получил также термин memory based reasoning, который акцентирует внимание, что решение принимается на основании всей информации, накопленной в памяти. • KATE Tools http: //www. ai-cbr. org/tools/acknosoft. html

Деревья решений (decision trees) • Cоздают иерархическую структуру классифицирующих правил типа Деревья решений (decision trees) • Cоздают иерархическую структуру классифицирующих правил типа "ЕСЛИ. . . ТО. . . " (ifthen), имеющую вид дерева. • Продукты: • See 5 and C 5. 0 http: //rulequest. com/ • SIPINA http: //eric. univ-lyon 2. fr/~ricco/sipina. html • Knowledge. Seeker http: //www. angoss. com/predictive-analyticssoftware/products/data-analysis-software

Эволюционное программирование • Гипотезы о виде зависимости целевой переменной от других переменных формулируются в Эволюционное программирование • Гипотезы о виде зависимости целевой переменной от других переменных формулируются в виде программ на некотором внутреннем языке программирования. Процесс построения программ строится как эволюция в мире программ. Когда система находит программу, более или менее удовлетворительно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных дочерних программ те, которые повышают точность. Таким образом система "выращивает" несколько генетических линий программ, которые конкурируют между собой в точности выражения искомой зависимости.

Эволюционное программирование • Продукты: • Poly. Analyst http: //megaputer. ru/polyanalyst. php • EASY http: Эволюционное программирование • Продукты: • Poly. Analyst http: //megaputer. ru/polyanalyst. php • EASY http: //147. 102. 55. 162/EASY/ • Gene. Hunter http: //www. wardsystems. com • Generator http: //www. nli-ltd. com/

Генетические алгоритмы • Первый шаг при построении генетических алгоритмов — это кодировка исходных логических Генетические алгоритмы • Первый шаг при построении генетических алгоритмов — это кодировка исходных логических закономерностей в базе данных, которые именуют хромосомами, а весь набор таких закономерностей называют популяцией хромосом. • Далее для реализации концепции отбора вводится способ сопоставления различных хромосом. Популяция обрабатывается с помощью процедур репродукции, изменчивости (мутаций), генетической композиции. Эти процедуры имитируют биологические процессы. • Итог: в ходе работы процедур на каждой стадии эволюции получаются популяции со все более совершенными индивидуумами.

Генетические алгоритмы • Gene. Hunter http: //www. wardsystems. com • Список бесплатных продуктов • Генетические алгоритмы • Gene. Hunter http: //www. wardsystems. com • Список бесплатных продуктов • http: //sourceforge. net/directory/development/algorithms/geneti c-algorithms/os: windows/freshness: recently-updated/

Алгоритмы ограниченного перебора • Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах Алгоритмы ограниченного перебора • Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Примеры простых логических событий: X = a; X < a; X > a; a < X < b и др. , где X — какой либо параметр, “a” и “b” — константы. Ограничением служит длина комбинации простых логических событий. На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования.

Алгоритмы ограниченного перебора • Wiz. Why http: //www. wizsoft. com • В иных продуктах Алгоритмы ограниченного перебора • Wiz. Why http: //www. wizsoft. com • В иных продуктах – список смотреть на http: //www. kdnuggets. com

Визуализация данных • В подобных системах основное внимание сконцентрировано на дружелюбности пользовательского интерфейса, позволяющего Визуализация данных • В подобных системах основное внимание сконцентрировано на дружелюбности пользовательского интерфейса, позволяющего ассоциировать с анализируемыми показателями различные параметры диаграммы рассеивания объектов (записей) базы данных. К таким параметрам относятся цвет, форма, ориентация относительно собственной оси, размеры и другие свойства графических элементов изображения. Кроме того, системы визуализации данных снабжены удобными средствами для масштабирования и вращения изображений.

Визуализация данных • Graph. Insight http: //www. graphinsight. com/ • Sentinel Visualizer http: //www. Визуализация данных • Graph. Insight http: //www. graphinsight. com/ • Sentinel Visualizer http: //www. fmsasg. com/ • Graphviz • http: //www. graphviz. org/