
семинар_Группировка данных.ppt
- Количество слайдов: 38
Математическое обеспечение метрологического контроля 1 семинар
Генеральная совокупность – совокупность объектов объединенных одним признаком например: (Все стайеры России) Выборочная совокупность – совокупность объектов определенным образом выбранная из генеральной совокупности Например: (Несколько стайеров России отобранные для эксперимента )
Первичная обработка спортивных показателей.
В таблице приведены экспериментальные данные представляющие собой результаты в беге на 100 м показанные группой школьников (50 юношей 9 класса n=50) 16. 2 17. 8 15. 5 15. 6 14. 3 15. 0 16. 6 15. 8 15. 0 14. 8 13. 6 16. 1 16. 4 15. 8 15. 2 15. 3 15. 9 16. 0 15. 0 16. 2 14. 2 15. 3 15. 4 15. 5 13. 7 14. 8 16. 2 14. 7 15. 8 15. 6 14. 2 16. 2 15. 8 14. 2 14. 5 15. 4 16. 9 15. 3 15. 0 12. 8 16. 1 16. 0 15. 5 14. 6 16. 1
Задача: Сгруппировать данные по интервалам и представить результаты в виде графиков. • h – длинна интервала • xmin- min значение • xmax- max значение k Находится по формуле Стерждеса k = 1+3, 322 lg(n) • n – количество результатов • k – количество интервалов Где lg(n) можно определить по таблице десятичных логарифмов Брадиса Мантиссы или вычислить на калькуляторе.
k = 1+3. 322 lg(n) lg(50) = 1. 699 k = 1+3. 322*lg(50) = 6. /644 =7 При вычислении количества интервалов всегда округляем значения в большую сторону до целого числа Хmin=12. 8 Хmax=17. 8 Значение h округляем до десятых что соответствует нашим 50 значениям Первый интервал От xmin до xmin+h Соответственно в первый интервал попадают результаты от 12, 8 до 13, 5 с. Включительно 13, 5. Второй интервал будет от 13. 5 до 14. 2 включительно 14, 2 и. т. д.
Табличное представление данных о результатах в беге на 100 м №и Границы нтер интервала Распредел. данных mi mxi 1 12. 8 – 13. 5 I 1 1 2 13. 5 – 14. 2 IIIIIII 7 8 3 14. 2 – 14. 9 IIIIII 6 14 4 14. 9 – 15. 6 IIIIIIII 16 30 5 15. 6 – 16. 3 IIIIIII 14 44 6 16. 3 – 17. 0 IIIII 5 49 7 17. 0 – 17. 7 0 49 8 17. 7 – 18. 4 I 1 50 сумма 50 mi – частота интервалов mx - накопленные частоты i Так как наше максимальное число 17, 8 не вошло в семь интервалов, мы добавляем 8.
Графическое представление результатов
Графическое представление результатов № Границы интервала Распредел. mi данных mxi 1 12. 8 – 13. 5 I 1 1 13, 2 2 13. 5 – 14. 2 IIIIIII 7 8 13, 9 3 14. 2 – 14. 9 IIIIII 6 14 14, 6 4 14. 9 – 15. 6 IIIIIIII 16 30 15, 3 5 15. 6 – 16. 3 IIIIIII 14 44 16 6 16. 3 – 17. 0 IIIII 5 49 16, 7 7 17. 0 – 17. 7 0 49 17, 4 8 17. 7 – 18. 4 I 1 50 18, 1 сумма 50 инт ерв ала хсреди нное Хср. - среднее значение интервала. Т. е. для интервала 12, 8 -13, 5 будет 13, 2
Полигон частот – образуется линией соединяющей точки, соответствующие срединным значениям интервалов и частоте каждого из интервалов
Гистограмма – состоит из примыкающих к другу прямоугольников, основание которых равна ширине интервала, а высота частота встречаемости интервала
Полигон накопленных частот - образуется линией соединяющей точки, координаты которых соответствуют верхним границам интервалов и накопленным частотам (mxi)
Количественные характеристики выборки • Среднее арифметическое • мода • медиана • Дисперсия и стандартное отклонение • Коэффициент вариации • Стандартное отклонение среднего арифметического • Показатель точности
Меры центральной тенденции
Среднее арифметическое ( x ) – характеризует сред. знач. выборочной совокупности (В. С. ) групповые свойства В. С. , ее называют средняя величина. Расчет среднего для не сгруппированных данных Расчет среднего для сгруппированных данных
Мода(Мо) — значение во множестве наблюдений, которое встречается наиболее часто. Случайная величина может не иметь моды. Иногда в совокупности встречается более чем одна мода (например: 2, 6, 6, 6, 8, 9, 9, 9, 10; мода = 6 и 9). В этом случае можно сказать, что совокупность мультимодальна. Из структурных средних величин только мода обладает таким уникальным свойством. Как правило мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению.
Медиана(Ме) – середина ранжированного ряда Если данных четное количество, то Ме точка посредине между двух центральных значений (Пр. 3 3 4 5 8 9 10) Ме=5 Если данных не четное количество (Пр. 3 3 4 5 8 9 (4+5)/2=4, 5) Ме=4, 5 Для сгруппированных данных Ме вычисляется по формуле: Где: хмед – нижняя граница медиального интервала; h – длинна интервала n- объем выборки mхмед - накопленная частота интервала предшествующая -1 медиальному интервалу mмед - частота накопленного интервала
Если х=Мо=Ме то, кривая имеет симметричное распределение относительно выборочной средней, что говорит о нормальном распределении данных.
Показатели рассеивания Основными характеристиками рассеивания, применяемых для оценки вариации величин относительно выборочной средней, являются дисперсия, среднее квадратическое отклонение, коэффициент вариации.
Чтобы дать обобщающую характеристику, можно вычислить отклонения от среднего результата. (Например, для ряда 3, 6, 3 среднее = 4 отклонения будут следующими: 3 – 4 = – 1; 6 – 4 = 2; 3 – 4 = – 1. Сумма этих отклонений (– 1) + 2 + (– 1) всегда равна 0. Чтобы избежать этого, значения каждого отклонения возводят в квадрат: (– 1)2 + 22 + (– 1)2 = 6. ) Значение делает отклонения от средней более явственными: малые отклонения становятся еще меньше (0, 52=0, 25), а большие – еще больше (52 = 25). Получившуюся сумму называют суммой квадратов отклонений. Разделив эту сумму на число измерений, получают средний квадрат отклонений, или дисперсию.
Дисперсия (D) – Средний квадрат отклонения значений признака от среднего арифметического Формула для не сгруппированных данных Для простоты вычисления преобразовывает формулу, получаем:
Формула для сгруппированных данных n-1 Если объем выборки (n)< 30 то добавляется степень свободы и в знаменателе n-1 в чистом виде, как, например, средняя арифметическая, дисперсия не используется. Это скорее вспомогательный и промежуточный показатель, который используется для других видов статистического анализа. У нее даже единицы измерения нормальной нет. Судя по формуле, это квадрат единицы измерения исходных данных.
Стандартное отклонение ( ) - квадратный корень из дисперсии Стандартное отклонение, очевидно, также характеризует меру рассеяния данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными, так как единицы измерения у них одинаковые. Но и этот показатель в чистом виде не очень информативен, так как в нем заложено слишком много промежуточных расчетов, которые сбивают с толку (отклонение, в квадрат, сумма, среднее, корень). Тем не менее, со стандартным отклонением уже можно работать непосредственно, потому что свойства данного показателя хорошо изучены и известны Однако для сравнения колеблемости двух и более совокупностей, имеющих различные единицы измерения, эта характеристика не пригодна.
Коэффициент вариации (V)относительная характеристика однородности наблюдений Определяется как отношение среднего квадратического отклонения к среднему арифметическому, выраженное в процентах. Вычисляется он по формуле:
Коэффициент вариации (V) В спортивной практике колеблемость результатов измерений в зависимости от величины коэффициента вариации считают небольшой (0 – 10 %), средней (11 – 20 %) большой (20 - 30%). В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной.
Коэффициент вариации имеет большое значение в спортивной метрологии, т. к. , будучи величиной относительной (измеряется в процентах), позволяет сравнивать между собой колеблемость результатов измерений, имеющих различные единицы измерения. Коэффициент вариации можно использовать лишь в том случае, если измерения выполнены в шкале отношений.
Репрезентативность выборочных показателей Репрезентативная выборка — группа участников, более или менее точно представляющая состав изучаемой генеральной совокупности. Характеристики генеральной совокупности – средняя величина, дисперсия, среднее квадратическое отклонение – представляют собой величины постоянные. По отношению к ним соответствующие выборочные характеристики, которые служат оценками генеральных параметров, являются величинами случайными: они могут совпадать и не совпадать с величиной генеральных параметров. Отсюда возникает вопрос о репрезентативности выборочных показателей.
Ошибки репрезентативности Возможные отклонения выборочных показателей от их параметров в генеральной совокупности называются ошибками репрезентативности. Эти ошибки неизбежны и возникают потому, что исследованию подвергается не вся генеральная совокупность, а только ее малая доля (выборка).
Размеры выборочных ошибок зависят главным образом от объема выборки и от размаха варьирования. В частности, чем больше объем выборки, тем меньше выборочная средняя характеристика отличается от генеральной средней. Следовательно, при увеличении числа испытаний ошибка выборочной средней будет уменьшаться. На величину средней ошибки влияет также размах варьирования признака: чем больше размах варьирования, тем больше будет и величина выборочной ошибки, при сравнительно слабом варьировании признака ошибка средней арифметической оказывается меньше.
Стандартная ошибка среднего арифметического Чтобы судить о том, насколько точно проведенные измерения отражают состав генеральной совокупности, необходимо вычислить стандартную ошибку средней арифметической выборочной совокупности. Стандартная ошибка средней арифметической характеризует степень отклонения выборочной средней арифметической от средней арифметической генеральной совокупности. Стандартная ошибка средней арифметической вычисляется по формуле: Где: – стандартное отклонение результатов измерений, n – объем выборки От сюда х. Г. С. = х. В. С S x
Показатель точности оценки параметров (Сs) под точностью определения выборочной средней понимается степень приближения ее к средней генеральной совокупности. Чем точнее определен средний результат, тем меньше будет CS и наоборот, при менее точном среднем результате показатель CS окажется больше. Точность считается достаточной, если CS не превышает 5 %. Если проводят очень важные испытания, связанные с жизнью человека, то CS не превышает 3 %.
Решение статистических задач в Exsel
1. В диапазон A 4: C 20 заносятся исходные данные по выборке. Для удобства данный диапазону присваивается имя X, – сначала диапазон выделяется, далее ВСТАВКА – ИМЯ – ПРИСВОИТЬ) {ВСТАВКА – НАЗВАНИЯ – ОПРЕДЕЛИТЬ}. 2. В ячейки E 4: E 8, H 4: H 7, E 10: I 10 и H 19: H 20 заносятся поясняющие данные. 3. В ячейку F 8 заносится величина уровня значимости. Далее заполняются формулами следующие ячейки. o Адрес формула пояснение
4. В ячейку E 11 заносится формула =I 5 – начальное значение первого диапазона, равное минимальному в выборке. В ячейку E 12 заносится формула =E 11+$I$7 – начальное значение второго диапазона, равное началу предыдущего плюс ширина диапазона. Далее по содержимому E 12 производится автозаполнение ячеек E 13: E 17 начальных значений для всех остальных диапазонов (интервалов, классов). 5. В ячейку F 11 заносится формула =E 11+$I$7 – конечное значение первого диапазона, равное его началу плюс ширина диапазона. Далее по F 11 производится автозаполнение ячеек F 12: F 17 конечных значений для всех остальных диапазонов (классов).
6. В ячейки G 11: G 17 механизмом введения формул для массивов (использование F 2 затем Ctrl+Shift+Enter) заносится формула =ЧАСТОТА(X; F 11: F 17) формула вводится в выделенные ячейки и активируется через Ctrl+Shift+Enter }. На этом этапе определяются количества элементов выборки (частота), относящиеся к каждому классу.
18 16 14 12 10 Series 1 8 6 4 2 0 26. 3 43. 6 60. 9 78. 2 95. 5 112. 8 130. 1
семинар_Группировка данных.ppt