АНАЛИЗ ДАННЫХ Лекция 1 к. т. н. Кирпичёва Елена Юрьевна kirphel@mail. ru
ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ» Данные – это воспринимаемые человеком факты, события, сообщения, измеряемые характеристики, регистрируемые сигналы.
Шкалы измерений Измерение - присвоение символов образцам в соответствии с некоторым правилом. Эти символы могут быть буквенными или числовыми. Числовые символы также могут представлять категории или быть числовыми. 6 типов шкал измерений: Шкала наименований - используется только для классификации. Каждому классу данных присваивается свое обозначение так, чтобы обозначения различных классов не совпадали (номера телефонов, автомашин, паспортов, студенческих билетов, ИНН -индивидуальный номер налогоплательщика, пол людей, раса, национальность, цвет глаз, волос. Порядковая шкала - позволяет не только разбивать данные на классы, но и упорядочить сами классы. Каждому классу присваивается различные обозначения так, чтобы порядок обозначений соответствовал порядку классов (номера домов, экспертные оценки, оценки успеваемости в средней школе - 2, 3, 4, 5; оценки успеваемости в высшей школе - неудовлетворительно, хорошо, отлично). В порядковой шкале допустимыми являются все строго возрастающие преобразования. Все шкалы измерения делят на две группы - шкалы качественных признаков и шкалы количественных признаков.
Шкалы измерений Интервальная шкала- позволяет не только классифицировать и упорядочивать данные, но и количественно оценивать различие между классами. Для проведения таких сравнений необходимо ввести единицу измерения и произвольное начало отсчета (нуль- пункт). (Температурная шкала) Шкала отношений. наиболее распространенная из количественных шкал в науке и практике. Эта шкала отличается от интервальной шкалы лишь тем, что в ней задано абсолютное начало отсчета. Т. е. в данной шкале можно определить, во сколько раз одно измерение превосходит другое. Например: рост человека в дюймах принадлежит шкале отношений, в которой 0 дюймов есть фиксированное начало отсчета, а 1 дюйм – единица измерения. Шкала разностей. В шкале разностей есть естественная единица измерения, но нет естественного начала отсчета. Время измеряется по шкале разностей, если год (или сутки - от полудня до полудня) принимаем естественной единицей измерения, и по шкале интервалов в общем случае. На современном уровне знаний естественного начала отсчета указать нельзя. Дату сотворения мира различные авторы рассчитывают по-разному, равно как и момент рождества Христова. Абсолютная шкала. Только для абсолютной шкалы результаты измерений - числа в обычном смысле слова. Примером является число людей в комнате. Для абсолютной шкалы допустимым является только тождественное преобразование.
Дискретные и непрерывные наблюдения Именованные и порядковые данные всегда дискретны, Интервальные и относительные могут быть как дискретными, так и непрерывными. Например, непрерывные: стрельба по мишени (любой исход), температура (интервальная шкала); дискретные: игральная кость (1, 2, 3 … 6), монета (орел/решка), число телефонных вызовов за один час (шкала отношений)
Этапы решения задачи анализа данных и их взаимосвязи Анализ данных – это совокупность методов и средств извлечения из организованных данных информации для принятия решений.
Этапы решения задачи анализа данных
Таблица экспериментальных данных Признаки
Этапы решения задачи анализа данных
Графическое представление задач при качественном анализе
Вероятность - математическая, числовая характеристика степени возможности появления какого-либо события в тех или иных определенных, могущих повторяться неограниченное число раз условиях. Способы вычисления вероятности: использование теории: наблюдения:
Распределения вероятностей • Случайная величина х может быть дискретной или непрерывной. • Как непрерывная, так и дискретная случайная величина имеют плотность распределения вероятностей, которая часто называется плотностью вероятности и обозначается как f(x) (для непрерывной случайной величины) или р(х) (для дискретной случайной величины).
Распределения вероятностей • Самой важной вероятностной характеристикой случайной величины является функция распределения, определяемая следующим образом:
Дискретная случайная величина принимает значения с различными вероятностями. Соответствие между значениями и их вероятностями называют законом распределения вероятностей дискретной случайной величины. Значения X x 1 x 2 … xn Вероятности p 1 p 2 … pn p 1 + p 2+. . . + pn = 1. Значения Вероятности 1 2 3 4 5 6 1/6 1/6 1/6
МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И МОМЕНТЫ СЛУЧАЙНОЙ ВЕЛИЧИНЫ Пусть х — случайная величина, h(x) — некоторая функция от х. Математическим ожиданием случайной функции h(x), которое обозначается как M{h(x)}, называется средняя величина, взвешенная по отношению к плотности вероятности случайной величины х. При заданной плотности вероятности р(х) или f(x) (для дискретной и непрерывной случайных величин соответственно) величина M{h(x)} вычисляется следующим образом:
В течение первой недели каждого месяца человек рассылает письма. С этой целью он обычно покупает 20 почтовых марок. Число используемых марок является случайной величиной, принимающей значения от 10 до 24 с равными вероятностями. Чему равно среднее число оставшихся марок? Пусть х — количество используемых марок, тогда плотность вероятности х такова: Количество оставшихся марок определяется соотношением Вероятность того, что вообще не останется марок, равна
МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ Бросание игральной кости
Структурные средние параметры дискретной величины: мода и медиана. Мода — это наиболее часто встречающийся вариант ряда. Мода применяется, например, при определении размера одежды, обуви, пользующейся наибольшим спросом у покупателей. Модой для дискретного ряда является варианта, обладающая наибольшей частотой. Медиана – это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части. Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение варианта приходится на нее. (Если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле: Ме = (n(число признаков в совокупности) + 1)/2, в случае четного числа признаков медиана будет равна средней из двух признаков находящихся в середине ряда).
Графическое представление дискретного ряда Полигон – ломаная прямая, соединяющая точки, координаты которых определяются на горизонтальной оси (ось абсцисс) – значениями варьирующего признака, а на вертикальной оси (ось ординат) – частотами признака. Тарифный Число разряд Xi работников fi 1 3 2 5 3 4 4 6 5 3 6 4 Итого: 25
Графическое представление дискретного ряда Гистограмма – столбчатая фигура, основанием каждого столбца которой по оси абсцисс выступают значения границ интервалов случайной величины, а высота прямоугольников пропорциональна частотам. Размер Численность заработной работников платы чел. руб. в месяц до 5000 4 5000 — 7000 12 7000 — 10000 8 10000 — 15000 6 Итого: 30
Дискретные распределения случайной величины
Дискретные распределения случайной величины
Дискретные распределения случайной величины
Дискретные распределения случайной величины Примеры случайных величин, имеющих распределение Пуассо на: число автомашин, которые будут обслужены завтра автозапра вочной станцией; число бракованных изделий в готовой продукции.
Дискретные распределения случайной величины Пример на распределение Пуассона
Распределения непрерывных случайных величин
Распределения непрерывных случайных величин
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Нормальное распределение описывает многие случайные явления, которые происходят в каждодневной жизни, включая анализ счетов, распределение веса и роста людей и многое другое. Плотность вероятности нормального распределения : Нормальное распределение с математическим ожиданием μ и стандартным отклонением σ обозначается как N(μ, σ ).
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Плотность вероятности нормального распределения
Функция Лапласа
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ