Скачать презентацию Основы анализа данных Задачи Data Mining Задачи Скачать презентацию Основы анализа данных Задачи Data Mining Задачи

Тема 2 Основы анализа данных.ppt

  • Количество слайдов: 26

Основы анализа данных Задачи Data Mining Основы анализа данных Задачи Data Mining

Задачи Data Mining • • • классификация, кластеризация, прогнозирование, ассоциация, визуализация. Задачи Data Mining • • • классификация, кластеризация, прогнозирование, ассоциация, визуализация.

Классификация обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных – классы; по этим Классификация обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных – классы; по этим признакам новый объект можно отнести к тому или иному классу. Методы: • ближайшего соседа (Nearest Neighbor); • k-ближайшего соседа (k-Nearest Neighbor); • байесовские сети (Bayesian Networks); • деревья решений; • нейронные сети (neural networks).

Кластеризация является продолжением идеи классификации. Результатом кластеризации является разбиение объектов на группы. Особенность кластеризации: Кластеризация является продолжением идеи классификации. Результатом кластеризации является разбиение объектов на группы. Особенность кластеризации: классы объектов изначально не предопределены.

Прогнозирование на основе особенностей исторических данных оцениваются пропущенные или будущие значения целевых численных показателей. Прогнозирование на основе особенностей исторических данных оцениваются пропущенные или будущие значения целевых численных показателей. Методы: регрессионный анализ, нейронные сети

Ассоциация отыскиваются закономерности между связанными событиями в наборе данных. Отличие: поиск закономерностей осуществляется не Ассоциация отыскиваются закономерности между связанными событиями в наборе данных. Отличие: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно.

Визуализация создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие Визуализация создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных.

Классификация задач Data Mining по стратегиям • обучение с учителем классификация, оценка, прогнозирование • Классификация задач Data Mining по стратегиям • обучение с учителем классификация, оценка, прогнозирование • обучение без учителя кластеризация

Классификация задач Data Mining по типам моделей • дескриптивные описывают общую концепцию анализируемых данных, Классификация задач Data Mining по типам моделей • дескриптивные описывают общую концепцию анализируемых данных, определяют информативные, итоговые, отличительные особенности данных • прогнозирующие анализ данных, создание модели, предсказание тенденций или свойств новых или неизвестных данных

Основы анализа данных Основы анализа данных

Описательная статистика - технологии сбора и суммирования количественных данных, используемая для превращения цифровых данных Описательная статистика - технологии сбора и суммирования количественных данных, используемая для превращения цифровых данных в форму, удобную для восприятия. Цель: обобщить первичные результаты, полученные в результате наблюдений и экспериментов.

Описательная статистика • • среднее; стандартная ошибка; медиана; мода; стандартное отклонение; дисперсия выборки; эксцесс; Описательная статистика • • среднее; стандартная ошибка; медиана; мода; стандартное отклонение; дисперсия выборки; эксцесс; асимметричность; интервал; минимум; максимум; сумма; счет.

Корреляционный анализ • применяется для количественной оценки взаимосвязи двух наборов данных • дает возможность Корреляционный анализ • применяется для количественной оценки взаимосвязи двух наборов данных • дает возможность установить, ассоциированы ли наборы данных по величине. где x - значение факторного признака; y - значение результативного признака; n - число пар данных.

Корреляционный анализ • Коэффициент корреляции r [0, 1], используется для определения наличия взаимосвязи между Корреляционный анализ • Коэффициент корреляции r [0, 1], используется для определения наличия взаимосвязи между двумя свойствами. шкала Чеддока Величина коэффициента 0, 1 -0, 3 -0, 5 -0, 7 -0, 9 -1 корреляции, r Характеристика силы связи слабая умеренная заметная высокая весьма высокая

Диаграмма рассеивания Диаграмма рассеивания

Регрессионный анализ • определяет форму и характер зависимости между исследуемыми переменными • решение задачи Регрессионный анализ • определяет форму и характер зависимости между исследуемыми переменными • решение задачи прогнозирования и классификации

Регрессионный анализ • Прогнозирование: значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих Регрессионный анализ • Прогнозирование: значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. • Классификация: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та часть, где оно меньше нуля, – к другому классу.

Основные задачи регрессионного анализа • установление формы зависимости, • определение функции регрессии, • оценка Основные задачи регрессионного анализа • установление формы зависимости, • определение функции регрессии, • оценка неизвестных значений зависимой переменной.

Установление формы зависимости • положительная линейная регрессия (выражается в равномерном росте функции); • положительная Установление формы зависимости • положительная линейная регрессия (выражается в равномерном росте функции); • положительная равноускоренно возрастающая регрессия; • положительная равнозамедленно возрастающая регрессия; • отрицательная линейная регрессия (выражается в равномерном падении функции); • отрицательная равноускоренно убывающая регрессия; • отрицательная равнозамедленно убывающая регрессия.

Определение функции регрессии выяснение действия на зависимую переменную главных факторов или причин при неизменных Определение функции регрессии выяснение действия на зависимую переменную главных факторов или причин при неизменных прочих равных условиях и при условии исключения воздействия на зависимую переменную случайных элементов. Функция регрессии определяется в виде математического уравнения заданного типа.

Оценка неизвестных значений зависимой переменной • оценка значений зависимой переменной внутри рассматриваемого интервала исходных Оценка неизвестных значений зависимой переменной • оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т. е. пропущенных значений; при этом решается задача интерполяции; • оценка будущих значений зависимой переменной, т. е. нахождение значений вне заданного интервала исходных данных; при этом решается задача экстраполяции.

Уравнение регрессии • Y=a+b*X • При помощи этого уравнения переменная Y выражается через константу Уравнение регрессии • Y=a+b*X • При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значение переменной X. Константу a также называют свободным членом, а угловой коэффициент - коэффициентом регрессии или Bкоэффициентом.

Регрессионный анализ Регрессионный анализ

Регрессионный анализ Регрессионный анализ

Виды регрессионных моделей • Парная o Линейная Y = b 0 + b 1 Виды регрессионных моделей • Парная o Линейная Y = b 0 + b 1 X o Полиномиальная Y = b 0 + b 1 X 1 + b 2 X 2 +. . . + bn. Xn • Множественная Y = b 0 + b 1 X 1 + b 2 X 2 +. . . + bn. Xn

 • Мерой эффективности регрессионной модели является коэффициент детерминации R 2. • Величина R • Мерой эффективности регрессионной модели является коэффициент детерминации R 2. • Величина R 2, называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). • Мера определенности всегда находится в пределах интервала [0; 1].