Слайды 3 к лекции по Мат.Статистике 12.ppt
- Количество слайдов: 28
Основы математической статистики
Математическая статистика – это раздел математики, изучающий методы сбора, систематизации и обработки результатов наблюдений случайных массовых явлений с целью выявления существующих закономерностей. Термин «статистика» произошел от латинского слова «статус» (status), что означает «состояние и положение вещей» . Задача математической статистика - разработка методов получения научно доказанных выводов о массовых явлениях и процессах на основе статистических данных, полученных в результате наблюдений и экспериментов
Математическая статистика подразделяется на две обширные области: описательная статистика • методы описания статистических данных, представления их в форме таблиц, распределений и прочее • • аналитическая статистика (теория статистических выводов) обработка данных, полученных в ходе эксперимента, и формулировка выводов, имеющих прикладное значение для конкретной области человеческой деятельности. Теория статистических выводов тесно связана с другой математической наукой — теорией вероятностей и базируется на ее математическом аппарате Трудно найти современную область научных исследований, где бы ни использовались методы математической статистики. В последнее время они нашли широкое применение в медицине, биологии, социологии, т. е. в областях, сравнительно недавно считавшихся далекими от математики.
Способы представления данных • Таблица Год обучения • Диаграмма Количество учащихся 1 -4 класс 5 -9 класс 10 -11 класс 2007 -2008 250 254 80 2008 -2009 253 248 78 • График • Гистограмма
Основные понятия математической статистики • Генеральной совокупностью называется совокупность объектов, явлений или процессов, подлежащих изучению, т. е. совокупность всех возможных значений исследуемой случайной величины. Понятие генеральной совокупности аналогично понятию случайной величины (теории вероятностей) • Выборкой– это совокупность случайно отобранных объектов из генеральной совокупности. Выборка должна быть репрезентативной, представительной, т. е. объекты из генеральной совокупности должны отбираться случайно.
Способы отбора для формирования выборки • Простой случайный отбор – объекты извлекают по одному из всей генеральной совокупности • Типический отбор - объекты отбирают не из всей генеральной совокупности, а из каждой ее «типической части» • Механический отбор – генеральную совокупность делят механически на несколько групп и из каждой группы отбирают один объект • Серийный отбор – объекты из генеральной совокупности отбирают не по одному, а сериями, которые подвергают сплошному обследованию. На практике, как правило, используется смешанная схема.
• Объем выборки (n)– это число объектов выборочной совокупности. • Вариационный размах выборки – разность между наибольшим и наименьшим наблюдаемым значением случайной величины или вариантами. Например, в результате статистического исследования получена выборка из 25 вариант: количество баллов (десятибалльной системы), выставленных участникам математической олимпиады из двух классов школы. Объем выборки n 1= 25 Вариационный размах xmax – xmin = 10 -2=8
Статистическое распределение выборки (вариационный ряд) Пусть дана некоторая генеральная совокупность, из которой извлечена выборка, причем в ходе отбора xi наблюдалось mi раз, а сумма всех fi равна n. Вариационным рядом называют ранжированный в порядке возрастания или убывания ряд вариантов с соответствующими им частотами. х1 f 1 х2 f 2 … … хk fk xi – варианты, т. е. различные значения признака случайной величины; fi – частота варианта xi.
Вариационный ряд случайной величины количества баллов, полученных учащимися за участие в олимпиаде
Графическое представление выборки Для оценки плотности распределения генеральной совокупности используется специальный график - гистограмма
Полигон Если соединить отрезками середины верхних сторон прямоугольников гистограммы, получится еще одно графическое представление для плотности распределения – полигон.
Вариационный и статистический ряд х1 f 1 х2 f 2 … … хk fk Отношение числа вариантов к объему выборки называют частостью варианта или относительной частотой. Ранжированный ряд вариант и соответствующих частостей называют статистическим распределением х1 х2 … … хi
Статистический ряд случайной величины количества баллов, полученных учащимися за участие в олимпиаде Баллы Число учащихся 2 5 6 7 8 9 10 1/25 2/25 5/25 4/25 6/25 5/25
Точечные оценки параметров распределения выборки - это оценки, которые характеризуются одним конкретным числом (например, математическим ожиданием, дисперсией средним квадратическим отклонением и т. п. ), и используются для выборок большого объема.
Структурные или порядковые средние вариационного ряда Мода (Мо)– это варианта, которая имеет наибольшую частоту. Моду находят согласно следующим правилам: например, в ряду значений 2, 6, 6, 8, 9, 9, 9, 10 модой является 9, потому что 9 встречается чаще любого другого числа. в том случае, когда все значения в выборке встречаются одинаково часто, принято считать, что этот выборочный ряд не имеет моды. Например: 5, 5, 6, 6, 7, 7 — в этой выборке моды нет. 15
Когда два соседних (смежных) значения имеют одинаковую частоту и их частота больше частот любых других значений, мода вычисляется как среднее арифметическое этих двух значений. Например, в выборке 1, 2, 2, 2, 5, 5, 5, 6 частоты рядом расположенных значений 2 и 5 совпадают и равняются 3, 5. Эта частота (больше, чем частота других значений 1 и 6 (у которых она равна 1). 16
Если два несмежных (не соседних) значения в выборке имеют равные частоты, которые больше частот любого другого значения, то выделяют две моды. Например, в ряду 10, 11, 11, 12, 13, 14, 14, 17 модами являются значения 11 и 14. В таком случае говорят, что выборка является бимодальной. Могут существовать и так называемые мультимодальные распределения, имеющие более двух вершин (мод). 17
Структурные или порядковые средние вариационного ряда Медиана (Ме)– это варианта, которая делит ранжированный вариационный ряд на две равные части, из которых значения вариант одной половины меньше медианы, а значения другой – больше.
Пример 1 Найдем медиану выборки: 9, 3, 5, 8, 4, 11, 13. Решение. Упорядочим выборку по величинам входящих в нее значений. 3, 4, 5, 8, 9, 11, 13. Поскольку в выборке семь элементов, четвертый по порядку элемент будет иметь значение большее, чем первые три, и меньшее, чем последние три. Медианой будет, четвертый элемент - 8. 19
Пример 2. Найдем медиану выборки: 20, 9, 13, 1, 4, 11. Решение. Упорядочим выборку: 1, 4, 9, 11 , 13, 20. Поскольку здесь имеется четное число элементов, то существует две «середины» — 9 и 11. В этом случае медиана определяется как среднее арифметическое этих значений и равна будет 10. 20
• Выборочным средним называют среднее арифметическое значение признака выборочной совокупности. Если все значения признака выборки объема n различны, то: Если значения признака имеют частоты, то выборочное среднее вычисляется по формуле 21
18. 02. 2018
Дисперсия представляет собой наиболее часто использующуюся меру рассеяния случайной величины вокруг среднего значения. Дисперсия обозначается D или S 2 или 2 23
Для вариационных рядов дисперсия - это среднее арифметическое квадратов отклонений вариантов от выборочного среднего где n — объем выборки, i - индекс суммирования, Х- выборочное среднее если даны значения признака или варианты и соответствующие частоты 24
• Удобно дисперсию вычислять по формуле, которая получается из основной путем несложных преобразований Средний квадрат отклонений равен средней из квадратов значений вариант минус квадрат средней Среднее квадратическое отклонение – это квадратный корень из дисперсии
Квадратический коэффициент вариации это самый популярный относительный показатель вариации: Критериальным значением квадратического коэффициента вариации V служит 0, 333 или 33, 3%, то есть если V меньше или равен 0, 333 - вариация считает слабой, а если больше 0, 333 - сильной.
Например. Для почетного караула отбирают солдат по пять человек из двух взводов, для этого измерили их рост (в см) и получили результаты – группа А: 178, 182, 180, 183, 177; группа Б: 183, 186, 180, 182, 184. Для каждой группы определить дисперсию D и среднее квадратичное отклонение и найти группу, более однородную по росту.
Пример 1. В финал конкурса «Мисс факультета» вышли 10 студенток, за которых голосовали 90 студентов. В таблице приведены результаты голосования за участниц с номерами 1 – 10:


