ЛЕКЦИЯ 2 Вариационные ряды.ppt
- Количество слайдов: 24
СТАТИСТИЧЕСКИЙ АНАЛИЗ КОЛИЧЕСТВЕННЫХ МЕДИЦИНСКИХ ДАННЫХ
Ранжированный однородный ряд числовых значений наблюдаемого признака (исследуемой случайной величины) называется простым вариационным рядом n Длительность заболевания вирусным гепатитом А (в днях) в группе пациентов: Х: 21 22 22 23 23 24 24 25 25 25 26 26 27 Количество наблюдений n = 15 Отдельное значение признака в простом вариационном ряду называется варианта
Объединение соседних значений простого вариационного ряда в группы, соответствующие определенным разрядам (интервалам значений), с подсчетом частоты (числа вариант) в каждом разряде называется группировкой
Сгруппированный вариационный ряд Х Разряд Частота 21 1 22 2 23 2 24 4 25 3 26 2 27 1
Графическое представление результатов группировки, отображающее форму функции плотности распределения исследуемой случайной величины, называется гистограммой
Частота наблюдений Число разрядов r = 7
Накопленная частота наблюдений
n n Возрастной состав пациентов клиники глазных болезней с диагнозом глаукома Простой вариационный ряд: возраст (лет) 16, 17, 18, 19, 20, 23, 24, 25, … Сгруппированный вариационный ряд: возраст Разряд до 19 лет от 20 до 39 лет от 40 до 59 лет от 60 до 79 лет от 80 лет и выше Частота 5 11 12 46 6
Частота наблюдений глаукомы В MS Excel: =ЧАСТОТА(диапазон данных; диапазон верхних границ разрядов)
Связь между числом наблюдений и числом разрядов гистограммы n n Если взято слишком малое число разрядов - гистограмма становится невыразительной Если взято слишком большое число разрядов - гистограмма чувствительна к случайностям опытов Формула Стерджесса:
Параметры распределения случайной величины Для характеристики центра распределения используются следующие параметры: Мода n Медиана n Среднее арифметическое значение n
n Мода - наиболее часто встречающаяся варианта в простом вариационном ряду: Х: 21 22 22 23 23 24 24 25 25 25 26 26 27 Мо = 24 n Медиана - варианта, занимающая в простом вариационном ряду серединное положение Х: 21 22 22 23 23 24 24 25 25 25 26 26 27 Ме= 24 В MS Excel: =МОДА(диапазон данных) =МЕДИАНА(диапазон данных)
Среднее арифметическое значение: В MS Excel: =СРЗНАЧ(диапазон данных)
Параметры распределения случайной величины Для характеристики степени рассеивания используются следующие параметры: Амплитуда n Дисперсия n Среднеквадратическое отклонение (СКО) n Коэффициент вариации n
n Амплитуда - разность между максимальным и минимальным значениями вариант в простом вариационном ряду: Х: 21 22 22 23 23 24 24 25 25 25 26 26 27 А = 27 -21 = 6 В MS Excel: =МАКС(диапазон данных)-МИН(диапазон данных)
Дисперсия: В MS Excel: =ДИСП(диапазон данных)
Среднеквадратическое отклонение (СКО): В MS Excel: =СТАНДОТКЛОН(диапазон данных)
Коэффициент вариации: kv < 10% - рассеивание слабое n 10% < kv < 20% - рассеивание умеренное n Kv > 20% - рассеивание сильное n
Частота наблюдений 3σ M 3σ Правило трех сигм: в диапазон ± 3σ попадает не менее 99, 7% всех значений случайной величины. Необходимо соответствие нормальному распределению.
Аппроксимация (сглаживание) распределений случайных величин теоретическими распределениями: Нормальное распределение n Распределение Стьюдента n Распределение χ2 (хи-квадрат) n Распределение Пуассона n ……………. . n
Нормальное распределение Формула Гаусса: fx S=1 x В MS Excel: =НОРМСТРАСП(Х)
Основания к применению нормального распределения n n многие реально наблюдаемые переменные действительно нормально распределены, что является аргументом в пользу того, что нормальное распределение представляет "фундаментальный закон" при возрастании объема выборки форма выборочного распределения приближается к нормальной, даже если распределение исследуемых переменных не является нормальным
Оценка отклонений от нормального закона распределения степень скошенности функции плотности распределения характеризуется величиной коэффициента асимметрии n степень островершинности функции плотности распределения характеризуется величиной коэффициента эксцесса n В MS Excel: =СКОС(диапазон данных) =ЭКСЦЕСС(диапазон данных)


