Тема 2 Основы анализа данных.ppt
- Количество слайдов: 26
Основы анализа данных Задачи Data Mining
Задачи Data Mining • • • классификация, кластеризация, прогнозирование, ассоциация, визуализация.
Классификация обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных – классы; по этим признакам новый объект можно отнести к тому или иному классу. Методы: • ближайшего соседа (Nearest Neighbor); • k-ближайшего соседа (k-Nearest Neighbor); • байесовские сети (Bayesian Networks); • деревья решений; • нейронные сети (neural networks).
Кластеризация является продолжением идеи классификации. Результатом кластеризации является разбиение объектов на группы. Особенность кластеризации: классы объектов изначально не предопределены.
Прогнозирование на основе особенностей исторических данных оцениваются пропущенные или будущие значения целевых численных показателей. Методы: регрессионный анализ, нейронные сети
Ассоциация отыскиваются закономерности между связанными событиями в наборе данных. Отличие: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно.
Визуализация создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных.
Классификация задач Data Mining по стратегиям • обучение с учителем классификация, оценка, прогнозирование • обучение без учителя кластеризация
Классификация задач Data Mining по типам моделей • дескриптивные описывают общую концепцию анализируемых данных, определяют информативные, итоговые, отличительные особенности данных • прогнозирующие анализ данных, создание модели, предсказание тенденций или свойств новых или неизвестных данных
Основы анализа данных
Описательная статистика - технологии сбора и суммирования количественных данных, используемая для превращения цифровых данных в форму, удобную для восприятия. Цель: обобщить первичные результаты, полученные в результате наблюдений и экспериментов.
Описательная статистика • • среднее; стандартная ошибка; медиана; мода; стандартное отклонение; дисперсия выборки; эксцесс; асимметричность; интервал; минимум; максимум; сумма; счет.
Корреляционный анализ • применяется для количественной оценки взаимосвязи двух наборов данных • дает возможность установить, ассоциированы ли наборы данных по величине. где x - значение факторного признака; y - значение результативного признака; n - число пар данных.
Корреляционный анализ • Коэффициент корреляции r [0, 1], используется для определения наличия взаимосвязи между двумя свойствами. шкала Чеддока Величина коэффициента 0, 1 -0, 3 -0, 5 -0, 7 -0, 9 -1 корреляции, r Характеристика силы связи слабая умеренная заметная высокая весьма высокая
Диаграмма рассеивания
Регрессионный анализ • определяет форму и характер зависимости между исследуемыми переменными • решение задачи прогнозирования и классификации
Регрессионный анализ • Прогнозирование: значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. • Классификация: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та часть, где оно меньше нуля, – к другому классу.
Основные задачи регрессионного анализа • установление формы зависимости, • определение функции регрессии, • оценка неизвестных значений зависимой переменной.
Установление формы зависимости • положительная линейная регрессия (выражается в равномерном росте функции); • положительная равноускоренно возрастающая регрессия; • положительная равнозамедленно возрастающая регрессия; • отрицательная линейная регрессия (выражается в равномерном падении функции); • отрицательная равноускоренно убывающая регрессия; • отрицательная равнозамедленно убывающая регрессия.
Определение функции регрессии выяснение действия на зависимую переменную главных факторов или причин при неизменных прочих равных условиях и при условии исключения воздействия на зависимую переменную случайных элементов. Функция регрессии определяется в виде математического уравнения заданного типа.
Оценка неизвестных значений зависимой переменной • оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т. е. пропущенных значений; при этом решается задача интерполяции; • оценка будущих значений зависимой переменной, т. е. нахождение значений вне заданного интервала исходных данных; при этом решается задача экстраполяции.
Уравнение регрессии • Y=a+b*X • При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значение переменной X. Константу a также называют свободным членом, а угловой коэффициент - коэффициентом регрессии или Bкоэффициентом.
Регрессионный анализ
Регрессионный анализ
Виды регрессионных моделей • Парная o Линейная Y = b 0 + b 1 X o Полиномиальная Y = b 0 + b 1 X 1 + b 2 X 2 +. . . + bn. Xn • Множественная Y = b 0 + b 1 X 1 + b 2 X 2 +. . . + bn. Xn
• Мерой эффективности регрессионной модели является коэффициент детерминации R 2. • Величина R 2, называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). • Мера определенности всегда находится в пределах интервала [0; 1].


