Математическая статистика. Числовые характеристики распределений. Нормальное распределение Автор:
47-mat_stat_lekciya_2(dopoln_sl).ppt
- Количество слайдов: 83
Математическая статистика. Числовые характеристики распределений. Нормальное распределение Автор: доцент кафедры информатики и математики Грязнов Сергей Александрович ВЫСШАЯ ШКОЛА ПРИВАТИЗАЦИИ И ПРЕДПРИНИМАТЕЛЬСТВА
Основные понятия Для экспериментальных данных, полученных по выборке, можно вычислить ряд числовых характеристик (мер)
Мода Числовой характеристикой выборки, как правило, не требующей вычислений, является так называемая мода. Мода — это такое числовое значение, которое встречается в выборке наиболее часто. Мода обозначается иногда как X.
Мода. Пример В ряду значений (2, 6, 6, 8, 9, 9, 9, 10) модой является 9, потому что 9 встречается чаще любого другого числа. Мода представляет собой наиболее часто встречающееся значение (в данном примере это 9), а не частоту встречаемости этого значения (в данном примере равную 3).
Мода. Правила нахождения 1) В том случае, когда все значения в выборке встречаются одинаково часто, принято считать, что этот выборочный ряд не имеет моды. Например: 5, 5, 6, 6, 7, 7 — в этой выборке моды нет.
Мода. Правила нахождения 2) Когда два соседних (смежных) значения имеют одинаковую частоту и их частота больше частот любых других значений, мода вычисляется как среднее арифметическое этих двух значений.
Мода. Правила нахождения Например, в выборке 1, 2, 2, 2, 5, 5, 5, 6 частоты рядом расположенных значений 2 и 5 совпадают и равняются 3. Эта частота больше, чем частота других значений 1 и 6 (у которых она равна 1). Следовательно, модой этого ряда будет величина
Мода. Правила нахождения 3)Если два несмежных (не соседних) значения в выборке имеют равные частоты, которые больше частот любого другого значения, то выделяют две моды. В ряду 10, 11, 11, 11, 12, 13, 14, 14, 14, 17 модами являются значения 11 и 14. В таком случае говорят, что выборка является бимодальной.
Мода. Правила нахождения Могут существовать и так называемые мультимодальные распределения, имеющие более двух вершин (мод). Например: 1, 2, 2, 2, 5, 7, 8, 8, 8, 12, 15, 15, 15 или 35, 35, 40, 43, 43, 52, 64, 64, 70, 71, 86, 86
Мода. Правила нахождения 4)Если мода оценивается по множеству сгруппированных данных, то для нахождения моды необходимо определить группу с наибольшей частотой признака. Эта группа называется модальной группой.
Медиана. Определение Медиана — обозначается (X с волной или Md) и определяется как величина, по отношению к которой, по крайней мере, 50% выборочных значений меньше неё и, по крайней мере, 50% — больше.
Медиана. Определение Можно дать второе определение, сказав, что медиана — это значение, которое делит упорядоченное множество данных пополам.
Медиана. Задача. Найдем медиану выборки: 9, 3, 5, 8, 4, 11, 13.
Медиана. Решение. Сначала упорядочим выборку по величинам входящих в нее значений. Получим: 3, 4, 5, 8, 9, 11, 13. Поскольку в выборке семь элементов, четвертый по порядку элемент будет иметь значение большее, чем первые три, и меньшее, чем последние три. Медианой будет четвертый элемент — 8.
Медиана. Задача. Найдем медиану выборки: 20, 9, 13, 1, 4,11.
Медиана. Решение. Упорядочим выборку: 1, 4, 9, 11, 13, 20. Поскольку здесь имеется четное число элементов, то существует две «середины» — 9 и 13. В этом случае медиана определяется как среднее арифметическое этих значений.
Среднее арифметическое Среднее арифметическое ряда из n числовых значений обозначается X и подсчитывается как: Здесь величины 1, 2...n являются так называемыми индексами.
Среднее арифметическое В том случае, если отдельные значения выборки повторяются, среднюю арифметическую вычисляют по формуле: в таком случае называют взвешенной средней, где — частоты повторяющихся значений.
Среднее арифметическое Знак является символом операции суммирования. Он означает, что все значения должны быть просуммированы. Числа, стоящие над и под знаком называются пределами суммирования и указывают наибольшее и наименьшее значения индекса суммирования, между которыми расположены его промежуточные значения.
Среднее арифметическое Например, в формуле вычисления среднего арифметического суммирование начинается с первого элемента выборки, поэтому и пишется так: i = 1, и заканчивается последним, поэтому наверху символа суммирования стоит величина n.
Среднее арифметическое Если же мы запишем так: то, поскольку нижний индекс суммирования i равен 4, а верхний равен 6, то будут просуммированы следующие элементы ряда Х4, Х5 и Х6, и в результате будет получено: Х4+Х5 +Х6.
Среднее арифметическое Если же будет записано: то, поскольку нижний индекс суммирования i равен 1, а верхний равен 3, то будут просуммированы следующие элементы ряда Х1, Х2 и Х3, и в результате будет получено: Х1+Х2 +Х3.
Среднее арифметическое В дальнейшем мы будем пользоваться сокращением, которое состоит в том, что если производится суммирование всех элементов выборки от первого до последнего, то верхний и нижний пределы суммирования указываться не будут, а пишется просто: или
Среднее арифметическое При вычислении величины средней по таблице чисел в дальнейшем будет использоваться следующая формула: где xIJ — значения всех переменных, полученных в эксперименте, или все элементы таблицы; при этом индекс j меняется от 1 до p, где р число столбцов в таблице, а индекс i меняется от 1 до n, где n — число испытуемых или число строк в таблице.
Среднее арифметическое Тогда — общая средняя всей анализируемой совокупности данных; N – общее число всех элементов в таблице (анализируемой совокупности эксперимен- тальных данных) и в общем случае N=p*n.
Среднее арифметическое Символ (двойная сумма) означает, что вначале осуществляется суммирование всех элементов таблицы по индексу i — т.е. по строкам, затем полученные суммы по строчкам складываются по столбцам, или, иначе говоря, по индексу j.
Среднее арифметическое Следует подчеркнуть, что средние величины характеризуют выборку одним (средним) числом. Информативная значимость, средних величин заключается в их способности аккумулировать или уравновешивать все индивидуальные отклонения, в результате чего проявляется то наиболее устойчивое и типичное, что характеризует качественное своеобразие варьирующего объекта, позволяя отличить одну выборку от другой, а на этой основе, например, одно измеренное свойство от другого.
Среднее арифметическое Среднее арифметическое оказывается достаточно чувствительным к очень маленьким или очень большим величинам, отличающимся от основных значений измеренных характеристик.
Среднее арифметическое Пусть 9 человек имеют доход от 4500 до 5200 тыс. рублей в месяц. Величина их среднего дохода равняется 4900 рублей. Если же к этой группе добавить человека, имеющего доход в 20000 тыс. рублей в месяц, то средняя всей группы сместится и окажется равной 6410 рублей, хотя никто из всей выборки (кроме одного человека) реально не получает такой суммы.
Среднее арифметическое Важно подчеркнуть, что подобные крайние величины, т.е. те, которые существенно искажают величину средней, оказываются в то же время и наименее характерными для изучаемой генеральной совокупности. Именно поэтому в статистике, кроме средней величины, используются и другие характеристики «типичных значений» выборки, такие, как мода, медиана и ряд других характеристик.
Разброс выборки Разброс (иногда эту величину называют размахом) выборки обозначается буквой R. Это самый простой показатель, который можно получить для выборки — разность между максимальной и минимальной величинами данного конкретного вариа- ционного ряда, т.е.
Разброс выборки Однако может случиться так, что у двух выборочных рядов и средние, и размах совпадают, однако характер варьирования этих рядов будет различный.
Разброс выборки Например, даны две выборки При равенстве средних и разбросов для этих двух выборочных рядов характер их варьи- рования различен. Для того чтобы более четко представлять характер варьирования выборок, следует обратиться к их распределениям.
Дисперсия Рассмотрим еще одну очень важную числовую характеристику выборки, называемую дисперсией. Дисперсия представляет собой наиболее часто использующуюся меру рассеяния случайной величины (переменной).
Дисперсия Дисперсия это среднее арифметическое квадратов отклонений значений переменной от её среднего значения. где n — объем выборки i - индекс суммирования - среднее.
Дисперсия Вычислим дисперсию следующего ряда 2 4 6 8 10 Прежде всего найдем среднее ряда. Оно равно = 6.
Дисперсия Рассмотрим величины: для каждого элемента ряда. Иными словами, из каждого элемента ряда вычтем величину среднего этого ряда. Полученные величи- ны характеризуют то, насколько каждый элемент отклоняется от средней величины в данном ряду.
Дисперсия Обозначим полученную совокупность разностей как множество Т. Тогда Т есть: Т = (2 - 6 = -4; 4 - 6 = -2; 6 - 6 = 0; 8 - 6 = 2; 10 - 6 = 4).
Дисперсия Так образуется новый ряд чисел. Его особенность в том, что при сложении этих чисел обязательно получится ноль. Проверим: (-4) + (-2) + 0 + 2 + 4 = 0.
Дисперсия Отметим, что сумма такого ряда всегда будет равна нулю. Для того чтобы избавиться от нуля, каждое значение разности возводят в квадрат, все их суммируют и затем делят на число элементов, т.е. применяют фор- мулу вычисления дисперсии.
Дисперсия. Пример Это и есть искомая дисперсия.
Дисперсия. Алгоритм вычисления. Общий алгоритм вычисления дисперсии для одной выборки следующий: 1. Вычисляется среднее по выборке. 2. Для каждого элемента выборки вычис- ляется его отклонение от средней, т.е. получается множество Т.
Дисперсия. Алгоритм вычисления. 3. Каждый элемент множества T возводят в квадрат. 4. Находится сумма этих квадратов.
Дисперсия. Алгоритм вычисления. 5. Эта сумма, как и в случае вычисления среднего, делится на общее количество членов ряда — n. В ряде случаев, особенно когда величина выборки мала, деление осуществляется не на величину n, а на величину n — 1.
Дисперсия Расчет дисперсии для таблицы чисел осуществляется по формуле: где x,j — значения всех переменных, полученных в эксперименте, или все элементы таблицы; индекс j меняется от 1 до p где p число столбцов в таблице, а индекс i меняется от 1 до n, где n — число испытуемых или число строк в таблице. — общая средняя всех элементов таблицы; N — общее число всех элементов в таблице (N = р*n).
Дисперсия Дисперсию для генеральной совокупности принято обозначать как , а дисперсию выборки как , причем индекс х обозначает, что дисперсия характеризует варьирование числовых значений признака вокруг их средней арифметической.
Дисперсия Однако сама дисперсия, как характерис- тика отклонения от среднего, часто неудоб- на для интерпретации. Предположим, что в эксперименте измерялся рост в сантиметрах, тогда размерность дисперсии будет являться характеристикой площади, а не линейного размера (поскольку при подсчете диспер- сии сантиметр возводится в квадрат).
Дисперсия Для того чтобы приблизить размерность дисперсии к размерности измеряемого признака применяют операцию извлечения квадратного корня из дисперсии. Полученную величину называют стандартным отклонением.
Дисперсия Стандартное отклонение выборки Sх представ- ляет собой корень квадратный, извлеченный из дисперсии выборки В нашем примере
Дисперсия Генеральной дисперсией DГ называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения хГ.
Дисперсия Если все значения х1, х2, ...,xn признака генеральной совокупности объема N различны, то
Дисперсия Если же значения признака х1, х2, ...,хn имеют соответственно частоты N1 ,N2, ..., Nk, причем N1+N2+Nk =N, то
Дисперсия Генеральная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам.
Дисперсия. Пример Генеральная совокупность задана таблицей распределения Найти генеральную дисперсию.
Дисперсия. Решение Найдем генеральную среднюю.
Дисперсия. Решение Найдем генеральную дисперсию.
Дисперсия Выборочной дисперсией DB называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения хВ.
Дисперсия Вычисление дисперсии, безразлично – выборочной или генеральной, можно упростить, используя следующую теорему. Теорема. Дисперсия равна среднему квадратов значений признака минус квадрат общей средней:
Дисперсия. Пример Найти дисперсию по данному распределению
Дисперсия. Решение Найдем общую среднюю: Найдем среднюю квадратов значений признака:
Дисперсия. Решение Искомая дисперсия
Групповая, внутригрупповая, межгрупповая и общая дисперсии Групповой дисперсией называют дисперсию значений признака, принадлежащих группе, относительно групповой средней
Групповая, внутригрупповая, межгрупповая и общая дисперсии. Пример Найти групповые дисперсии совокупности, состоящей из следующих двух групп:
Групповая, внутригрупповая, межгрупповая и общая дисперсии. Пример Найдем групповые средние
Групповая, внутригрупповая, межгрупповая и общая дисперсии. Пример Найдем искомые групповые дисперсии:
Групповая, внутригрупповая, межгрупповая и общая дисперсии Внутригрупповой дисперсией называют среднюю арифметическую дисперсий, взвешенную по объемам групп: где Nj –объем группы j; -объем всей совокупности
Групповая, внутригрупповая, межгрупповая и общая дисперсии. Пример Найти внутригрупповую дисперсию (по данным вышеописанного примера) Искомая внутригрупповая дисперсия равна
Групповая, внутригрупповая, межгрупповая и общая дисперсии Межгрупповой дисперсией называют дисперсию групповых средних относительно общей средней:
Групповая, внутригрупповая, межгрупповая и общая дисперсии. Пример Найти межгрупповую дисперсию (по данным вышеописанного примера) Найдем общую среднюю:
Групповая, внутригрупповая, межгрупповая и общая дисперсии. Пример Используя вычисленные выше величины , , найдем искомую межгрупповую дисперсию:
Групповая, внутригрупповая, межгрупповая и общая дисперсии Общей дисперсией называют дисперсию значений признака всей совокупности относительно общей средней:
Групповая, внутригрупповая, межгрупповая и общая дисперсии. Пример Найти общую дисперсию (по данным вышеописанного примера) Найдем искомую общую дисперсию, учитывая, что общая средняя равна 14/3:
Групповая, внутригрупповая, межгрупповая и общая дисперсии Найденная общая дисперсия равна сумме внутригрупповой и межгрупповсй дисперсий:
Групповая, внутригрупповая, межгрупповая и общая дисперсии
Степень свободы Число степеней свободы – это число свободно варьирующих единиц в составе выборки.
Степень свободы Если вся выборка состоит из n элементов и характеризуется средней , то любой элемент этой совокуп- ности может быть получен как раз- ность между величиной и суммой всех остальных элементов, кроме самого этого элемента.
Степень свободы. Пример. Рассмотрим ряд: 2 4 6 8 10. Мы помним, что средняя этого ряда равна 6. В этом ряду 5 чисел, следовательно N = 5. Предположим, что мы хотим получить последний элемент ряда — 10, зная все предыдущие элементы и среднее этого ряда.
Степень свободы. Пример. Тогда: 5 • 6-2-4-6-8 = 10
Степень свободы. Пример. Предположим, что мы хотим получить пер- вый элемент ряда — 2, зная все после- дующие элементы и среднее этого ряда. Тогда: 5*6-4-6-8-10 = 2 и т.д.
Степень свободы Следовательно, один элемент выборки не имеет свободы вариации и всегда может быть выражен через другие элементы и среднее.