Скачать презентацию АНАЛИЗ ДАННЫХ Лекция 1 к т н Кирпичёва Скачать презентацию АНАЛИЗ ДАННЫХ Лекция 1 к т н Кирпичёва

АД_Лекция 1.ppt

  • Количество слайдов: 34

АНАЛИЗ ДАННЫХ Лекция 1 к. т. н. Кирпичёва Елена Юрьевна kirphel@mail. ru АНАЛИЗ ДАННЫХ Лекция 1 к. т. н. Кирпичёва Елена Юрьевна kirphel@mail. ru

ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ» Данные – это воспринимаемые человеком факты, события, сообщения, измеряемые характеристики, ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ» Данные – это воспринимаемые человеком факты, события, сообщения, измеряемые характеристики, регистрируемые сигналы.

Шкалы измерений Измерение - присвоение символов образцам в соответствии с некоторым правилом. Эти символы Шкалы измерений Измерение - присвоение символов образцам в соответствии с некоторым правилом. Эти символы могут быть буквенными или числовыми. Числовые символы также могут представлять категории или быть числовыми. 6 типов шкал измерений: Шкала наименований - используется только для классификации. Каждому классу данных присваивается свое обозначение так, чтобы обозначения различных классов не совпадали (номера телефонов, автомашин, паспортов, студенческих билетов, ИНН -индивидуальный номер налогоплательщика, пол людей, раса, национальность, цвет глаз, волос. Порядковая шкала - позволяет не только разбивать данные на классы, но и упорядочить сами классы. Каждому классу присваивается различные обозначения так, чтобы порядок обозначений соответствовал порядку классов (номера домов, экспертные оценки, оценки успеваемости в средней школе - 2, 3, 4, 5; оценки успеваемости в высшей школе - неудовлетворительно, хорошо, отлично). В порядковой шкале допустимыми являются все строго возрастающие преобразования. Все шкалы измерения делят на две группы - шкалы качественных признаков и шкалы количественных признаков.

Шкалы измерений Интервальная шкала- позволяет не только классифицировать и упорядочивать данные, но и количественно Шкалы измерений Интервальная шкала- позволяет не только классифицировать и упорядочивать данные, но и количественно оценивать различие между классами. Для проведения таких сравнений необходимо ввести единицу измерения и произвольное начало отсчета (нуль- пункт). (Температурная шкала) Шкала отношений. наиболее распространенная из количественных шкал в науке и практике. Эта шкала отличается от интервальной шкалы лишь тем, что в ней задано абсолютное начало отсчета. Т. е. в данной шкале можно определить, во сколько раз одно измерение превосходит другое. Например: рост человека в дюймах принадлежит шкале отношений, в которой 0 дюймов есть фиксированное начало отсчета, а 1 дюйм – единица измерения. Шкала разностей. В шкале разностей есть естественная единица измерения, но нет естественного начала отсчета. Время измеряется по шкале разностей, если год (или сутки - от полудня до полудня) принимаем естественной единицей измерения, и по шкале интервалов в общем случае. На современном уровне знаний естественного начала отсчета указать нельзя. Дату сотворения мира различные авторы рассчитывают по-разному, равно как и момент рождества Христова. Абсолютная шкала. Только для абсолютной шкалы результаты измерений - числа в обычном смысле слова. Примером является число людей в комнате. Для абсолютной шкалы допустимым является только тождественное преобразование.

Дискретные и непрерывные наблюдения Именованные и порядковые данные всегда дискретны, Интервальные и относительные могут Дискретные и непрерывные наблюдения Именованные и порядковые данные всегда дискретны, Интервальные и относительные могут быть как дискретными, так и непрерывными. Например, непрерывные: стрельба по мишени (любой исход), температура (интервальная шкала); дискретные: игральная кость (1, 2, 3 … 6), монета (орел/решка), число телефонных вызовов за один час (шкала отношений)

Этапы решения задачи анализа данных и их взаимосвязи Анализ данных – это совокупность методов Этапы решения задачи анализа данных и их взаимосвязи Анализ данных – это совокупность методов и средств извлечения из организованных данных информации для принятия решений.

Этапы решения задачи анализа данных Этапы решения задачи анализа данных

Таблица экспериментальных данных Признаки Таблица экспериментальных данных Признаки

Этапы решения задачи анализа данных Этапы решения задачи анализа данных

Графическое представление задач при качественном анализе Графическое представление задач при качественном анализе

Вероятность - математическая, числовая характеристика степени возможности появления какого-либо события в тех или иных Вероятность - математическая, числовая характеристика степени возможности появления какого-либо события в тех или иных определенных, могущих повторяться неограниченное число раз условиях. Способы вычисления вероятности: использование теории: наблюдения:

Распределения вероятностей • Случайная величина х может быть дискретной или непрерывной. • Как непрерывная, Распределения вероятностей • Случайная величина х может быть дискретной или непрерывной. • Как непрерывная, так и дискретная случайная величина имеют плотность распределения вероятностей, которая часто называется плотностью вероятности и обозначается как f(x) (для непрерывной случайной величины) или р(х) (для дискретной случайной величины).

Распределения вероятностей • Самой важной вероятностной характеристикой случайной величины является функция распределения, определяемая следующим Распределения вероятностей • Самой важной вероятностной характеристикой случайной величины является функция распределения, определяемая следующим образом:

Дискретная случайная величина принимает значения с различными вероятностями. Соответствие между значениями и их вероятностями Дискретная случайная величина принимает значения с различными вероятностями. Соответствие между значениями и их вероятностями называют законом распределения вероятностей дискретной случайной величины. Значения X x 1 x 2 … xn Вероятности p 1 p 2 … pn p 1 + p 2+. . . + pn = 1. Значения Вероятности 1 2 3 4 5 6 1/6 1/6 1/6

МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И МОМЕНТЫ СЛУЧАЙНОЙ ВЕЛИЧИНЫ Пусть х — случайная величина, h(x) — некоторая МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И МОМЕНТЫ СЛУЧАЙНОЙ ВЕЛИЧИНЫ Пусть х — случайная величина, h(x) — некоторая функция от х. Математическим ожиданием случайной функции h(x), которое обозначается как M{h(x)}, называется средняя величина, взвешенная по отношению к плотности вероятности случайной величины х. При заданной плотности вероятности р(х) или f(x) (для дискретной и непрерывной случайных величин соответственно) величина M{h(x)} вычисляется следующим образом:

 В течение первой недели каждого месяца человек рассылает письма. С этой целью он В течение первой недели каждого месяца человек рассылает письма. С этой целью он обычно покупает 20 почтовых марок. Число используемых марок является случайной величиной, принимающей значения от 10 до 24 с равными вероятностями. Чему равно среднее число оставшихся марок? Пусть х — количество используемых марок, тогда плотность вероятности х такова: Количество оставшихся марок определяется соотношением Вероятность того, что вообще не останется марок, равна

МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ Бросание игральной кости МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ Бросание игральной кости

Структурные средние параметры дискретной величины: мода и медиана. Мода — это наиболее часто встречающийся Структурные средние параметры дискретной величины: мода и медиана. Мода — это наиболее часто встречающийся вариант ряда. Мода применяется, например, при определении размера одежды, обуви, пользующейся наибольшим спросом у покупателей. Модой для дискретного ряда является варианта, обладающая наибольшей частотой. Медиана – это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части. Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение варианта приходится на нее. (Если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле: Ме = (n(число признаков в совокупности) + 1)/2, в случае четного числа признаков медиана будет равна средней из двух признаков находящихся в середине ряда).

Графическое представление дискретного ряда Полигон – ломаная прямая, соединяющая точки, координаты которых определяются на Графическое представление дискретного ряда Полигон – ломаная прямая, соединяющая точки, координаты которых определяются на горизонтальной оси (ось абсцисс) – значениями варьирующего признака, а на вертикальной оси (ось ординат) – частотами признака. Тарифный Число разряд Xi работников fi 1 3 2 5 3 4 4 6 5 3 6 4 Итого: 25

Графическое представление дискретного ряда Гистограмма – столбчатая фигура, основанием каждого столбца которой по оси Графическое представление дискретного ряда Гистограмма – столбчатая фигура, основанием каждого столбца которой по оси абсцисс выступают значения границ интервалов случайной величины, а высота прямоугольников пропорциональна частотам. Размер Численность заработной работников платы чел. руб. в месяц до 5000 4 5000 — 7000 12 7000 — 10000 8 10000 — 15000 6 Итого: 30

Дискретные распределения случайной величины Дискретные распределения случайной величины

Дискретные распределения случайной величины Дискретные распределения случайной величины

Дискретные распределения случайной величины Дискретные распределения случайной величины

Дискретные распределения случайной величины Примеры случайных величин, имеющих распределение Пуассо на: число автомашин, которые Дискретные распределения случайной величины Примеры случайных величин, имеющих распределение Пуассо на: число автомашин, которые будут обслужены завтра автозапра вочной станцией; число бракованных изделий в готовой продукции.

Дискретные распределения случайной величины Пример на распределение Пуассона Дискретные распределения случайной величины Пример на распределение Пуассона

Распределения непрерывных случайных величин Распределения непрерывных случайных величин

Распределения непрерывных случайных величин Распределения непрерывных случайных величин

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Нормальное распределение описывает многие случайные явления, которые происходят в каждодневной жизни, включая НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Нормальное распределение описывает многие случайные явления, которые происходят в каждодневной жизни, включая анализ счетов, распределение веса и роста людей и многое другое. Плотность вероятности нормального распределения : Нормальное распределение с математическим ожиданием μ и стандартным отклонением σ обозначается как N(μ, σ ).

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Плотность вероятности нормального распределения НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Плотность вероятности нормального распределения

 Функция Лапласа Функция Лапласа

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ