БИОМЕТРИЯ.3ppt.ppt
- Количество слайдов: 89
БИОМЕТРИЯ 1
При исследовании различных явлений природы применяют одновременно и качественные количественные и показатели: в единстве качественнойи количественной характеристик наиболееполнораскрывается сущность изучаемых явлений. В действительности приходится пользоваться либо качественными, либо количественными показателями. Количественные методы как более объективные и точные имеют преимущество перед качественной характеристикой предметов. 2
оверность Ещё типознания природысвязываласьс математикой– наукой, изучающей количественные отношения и пространственные формы реальной действительности. Опираясьна количественные показатели можно получить достоверную информацию предметах, о что дает возможность оценить их качественное своеобразие. Количественные методы не ограничиваются однимиизмерениями или учетомживыхсуществ и продуктов их жизнедеятельности. 3
Сами по себе результаты измерений недостаточны, чтобы сделать из них необходимые выводы. Это всего лишь фактическийматериал, который нуждается в соответствующейматематической обработке. Без упорядочения систематизации и цифровых данных нельзя извлечь заключеннуюв них информацию, оценить надежность отдельных суммарных показателей, убедиться в достоверности или недостоверности наблюдаемых междунимиразличий. Эта работа требует умения правильно обобщать и анализировать собранные в опыте данные. 4
Системаэтих знанийи составляет содержание биометриинауки, занимающейся вопросами статистического анализа результатовисследований как в областитеоретической, и так прикладной биологии. 5
Термин «биометрия» был введенв науку Фр. Гальтоном (1889) для обозначения количественных методов , применяемыхв области биологических исследований. В дальнейшем Дункер (1899) предложил другое название – «вариационная статистика » , как выражающее более точно содержание предмета. В настоящее время употребляются оба термина, хотя буквальный смысл их неодинаков. 6
Слово «биометрия» от лат. bios –жизнь, ( metron –мера) означает производство биологических измерений, а термин «вариационная статистика» от лат. variatio– ( измерение, колебание, status – состояние, положениевещей) понимаетсякак описание наблюдений, их математическаяобработка. Мы оставляемтермин «биометрия» понимая , его как совокупность методовматематической статистики, применяемых в биологических исследованиях. 7
Характерные черты биометрии и её место системе биологических наук Одна из характерных особенностей биометрии в том, что она не имеет прямого отношенияк вопросам техники измерений, так как это дело частных наук (зоология, генетика, биохимия и т. д. ). Они имеют свои методы исследованияи свои объекты. Главной задачей биометрии является обработка результатов измерений, чтобыпо немногим числовым показателям судить о существеизучаемых явлений. Эти методыона берет из математическойстатистики и теории вероятностей они являютсятехнической – базой биометрии. 8
Другойхарактерной особенностью биометрии как науки является то, что её методыприложимы к единичным не объектам, не к отдельным результатам наблюдений, к их а совокупности, т. е. к явлениям массового характера. Если рассматривать отдельную особь и сравнивать с популяцией, которой её к она и принадлежит, оказывается, то что между ними существует самая тесная связь. Иначе говоря, общее и единичные явленияне просто «сосуществуют» , они взаимно обусловливают друга. Нельзя представитьсовокупность без её членов 9
Можетпоказаться, что междуобщими отдельным, целым и частью нет никакой разницы и что законы, действующиев сфере единичных массовых и явлений, однии те же. Но это не так. Множество не есть простая арифметическая сумма входящихв нее единиц. Всякоеобщее лишь приблизительно охватывает все отдельные предметы. Всякое отдельное неполно входит в общее В сфере массовых. явлений действуют свои, присущие им статистические законы, которые лишь в общих чертах характеризуют единичные явления. 10
Такжеи законы, присущие единичным явлениям, не отражают полноймере общих в закономерностей, проявляющихсялишь в сфере статистических совокупностей. этом В противоречивом единстве заключается противоречивая связьмеждучастьюи целым. Биометрия помогает выявить эту связь и оценить значение отдельных факторов в рамках общих закономерностей, присущих совокупности в целом. 11
Еще одна характерная черта биометрии – ее символический язык Графики, уравнения. и формулы, посколькуони заключают себе в наиболее существенное и типичное в явлениях, служат своего рода математическимимоделями этих явлений. Математическое моделирование в данном случае аналогично схематическим построениям, которыедают лишь некоторое подобиереальнойдействительности одной с стороны, и большие методические возможности с другой. 12
Биологическая изменчивость и ошибки наблюдений - отправные положения биометрии Но не толькобиологическая изменчивость служит причиной применения математических методов в биологическихисследованиях. Этого требуют и случайныеошибки, допускаемыепри измерениях биологических объектов и в экспериментах. Любые измерения, как бы точно они не производились, всегда сопровождаются погрешностями. Они возникают разныхпричин: от вследствие недостаточной точности приборов (технические ошибки); 13
от навыкав работеи личныхкачеств измеряющего (личные ошибки); от рядадругих и причин, не поддающихся точному учету (случайные ошибки). Случайные ошибки как независимые от воли человека остаются и вместе с вариабельностью признаков существенносказываются результатах. При на этом, они настолько тесно переплетаются между собой, что учестьпо отдельности практически их невозможно. Положениеоблегчается тем, что оба эти явления– вариабельность случайные и ошибки – следуют одним и тем же законам распределения случайных величин. 14
Статистическая совокупность и её свойст Изучениебиологических явленийпроводится не по отдельнымнаблюдениям, которые могут оказаться случайными и нетипичными, а на множествеоднородных наблюдений. Некоторое множество однородных предметов или измерений, объединяемыхпо определенному признакудля совместногоизучения, называют статистической совокупностью. При этом не обязательно, чтобы она состояла из особей одного пола и возраста. 15
Она можетбыть образована результатов из проб, наблюдений т. п. , проводимых одном и на и том же индивидууме, например в случае выработкиусловныхрефлексов, при проверке реактивностиорганизмана одну и ту же дозу или серию доз. Элементы, входящие состав в совокупности, называютее членами, или вариантами (от лат. varians – изменяющийся). Варианты – это отдельные наблюдения или числовые значения признака. 16
значения называется случайной переменной. Если обозначить случайную переменную через Х, то её значения или вариантыобозначаются как х1 , х2, , х3, х4, ……хn. Общее число вариант, входящих в состав совокупности, называется её объемом и обозначается буквой n. Каждый изучаемый признак принимает разные значения у различныхвариант совокупности, то есть он меняется от одной единицы совокупностик другой. Это различие между вариантами называется вариацией или дисперсией. разные 17
Когдаобследованию подвергается вся совокупность однородных объектовв целом, ее называют генеральной совокупностью. Это – теоретически бесконечно большая или приближающаяся бесконечности к совокупность всехединиц которые , могутбытьк ней отнесены. Примероммогут служить общегосударственные переписинаселения. действительности, силу В в ряда обстоятельств, редко приходится иметь дело с генеральными совокупностями. На практике изучению подвергается какая-то ее часть, получившая название выборочной совокупности, или выборки. 18
Выборочная совокупность представляет собой образец, по которому судят о генеральной совокупности в целом. Например, чтобы узнать средний рост призывников в данной местности нет необходимостиобследоватьвсех юношей, достаточно измерить какую-то часть их. Чтобы выборочнаясовокупностькак можно полнееотражалагенеральную, необходимо чтобы она отвечала следующим требованиям: 19
варианты, которые наиболее полно отражают генеральную совокупность. 2. Выборкадолжна быть объективной, то есть она должна производитсяпо принципу случайного отбора. 3. Выборка должна быть однородной. Нельзя включать в состав одной и той же выборки данные, полученные на особях разного пола, возраста или физиологического состояния. Эти факторыпо-разному сказываютсяна величинеи функциональном состоянии признаков, по которым образована выборочная совокупность 20
Задачейизучениясовокупности является получение биометрических характеристик , которые позволяют судить о данной совокупности в целом, о различиях внутринее и об отличииеё от других, сходных с ней совокупностей. Совокупность становится статистически достоверной, когда в ее описание вносится количественный метод, позволяющий получить статистические её характеристики 21
Биологические признаки и их классификация Способыобработки данныхзависятот того, каковхарактервариации изучаемых признаков. Различиямеждувариантами могут выражаться в каких-то качествах – такую вариацию называют качественной. Если совокупность животных характеризуют по масти, тогда каждая варианта должна получить соответствующую качественную характеристику: рыжая, пестрая, черно-рыжая и т. д. 22
В этом случаеподсчетчислаособейв каждойиз выделенных групп дает представление о составе популяции в целом. Качественные признакимогут выражаться либо в процентах, либо в абсолютныхзначениях или в долях единицы. 23
Если же признакивыражаются при помощи счета или меры, они называются количественными. Количественная вариация может двух типов: дискретная, если различия между отдельными значениями случайной переменной выражаются целыми числами, междукоторыми нет и не можетбыть переходов ( количестводетенышейв помете; количество лепестковв цветке). При непрерывной вариации значения вариант не обязательновыражаются целыми числами. Все зависит от того, какая степень точности принимается для характеристики данного признака. 24
Например, при изучениимассыкрупных животных можно ограничиться кг, при сравнительном анализе экологических особенностей популяций мелких животных (полевок, птиц) необходимоучитыватьг и мг. Иными словами, при изучении непрерывной вариации надо все единицы совокупности характеризовать количественно той степенью с точности, которая больше подходит в данном конкретном случае. 25
Группировка данных при количественной вариации 26
Вариационный ряд и его графическое изображение Послераспределения вариантпо классам получаютсяряды, в которых показано, как частовстречаются варианты каждого классаи как варьируют признаки от минимума к максимуму. Такие ряды называются вариационными. Класс, обладающий наибольшей частотой называетсямодальным а значения крайних , классов –лимитами или пределами. Графическое изображение вариационного ряда называется кривой распределения. 27
28
В биометрии встретимся двумятипами мы с задач. Первый тип задач, — как сжато, описать данные Этими задачами занимается так. называемая описательная статистика. Задачи второго типа связаныс оценкой статистической значимости различий и с проверкой гипотез. Сначала мы рассмотримзадачи первого типа — как наилучшимобразом описать данные. Если значения интересующего нас признака у большинства объектовблизкик их среднемуи с равной вероятностью отклоняются от него в большую или меньшую сторону, лучшими характеристиками совокупности будут само среднее значение и стандартное отклонение. 29
Когдазначенияпризнака распределены несимметрично относительносреднего, совокупность лучше описать с помощьюмедианыи процентилей. Тех, для кого терминыпроцентиля звучат туманно, мы приглашаем приступить к изучению марсиан. . 30
31
Мы видим, что венерианцы нижемарсиани что интервал, в которыйумещаетсярост всех марсианшире, чем соответствующий интервал для венерианцев. Ширина интервала, в которыйпопадаютпочти все марсиане(194 из 200) — 20 см (от 30 до 50 см). Рост большинства венерианцев (144 из 150) умещаетсяв интервалот 10 до 20 см, то есть имеет ширину всего лишь 10 см. Важно, что марсиансреднегороста (около 40 см) большевсего и что высокорослых столько же, сколько коротышек — распределение симметрично. 32
Несмотряна эти различиямеждудвумя совокупностями инопланетянимеется и существенное сходство. В обоих рост любогочленаскорееблизокк середине распределения, и одинаково вероятно может быть как выше, так и ниже середины. Распределенияна рис. 2. 1 и 2. 2 имеют схожую форму и приближенно определяются одной и той же формулой. 33
Раз существует множество похожих распределений, значит, для характеристики одногоиз них достаточно указать, чем оно отличается от других ему подобных, то есть всю собранную информацию мы можем свести к нескольким числам, которыеназываются параметрами распределения. Это среднее значение истандартное отклонение. 34
Характеристика положения распределения на числовойоси называетсясредним. Среднее по совокупностиобозначаютгреческой буквой μ (читается "мю") и вычисляют по формуле: μ=ΣX / N , где X — значение признака, N — число членов совокупности. Греческаябуква Σ (читается «сигма» ) обозначает сумму. Подставивв формулуданные, получим : среднийрост марсиан 40 см, а венерианцев — 15 см. 35
СТАНДАРТНОЕ ОТКЛОНЕНИЕ Еще на Венеремы заметили, что тамошние жители более однородны по росту, нежели марсиане. Необходимо это оформить количественно, то есть иметь показатель разброса значений относительно среднего. Ясно, что для характеристикиразброса все равно, в какуюсторону отклоняется значение — в большуюили меньшую. Инымисловами, отрицательные положительные и отклонения должны вносить равный вклад в характеристику разброса. 36
Воспользуемся тем, что квадраты двух равныхпо абсолютной величинечисел равны между собой, и вычислимсредний )2 2 X квадрат отклонения от среднего. Этот показатель носит название дисперсии и обозначается σ2. Чем больше разброс значений, тем больше дисперсия. Дисперсию вычисляют по формуле: 37
Как видноиз формулы, дисперсия измеряется в единицах, равных квадрату единицыизмерения соответствующей величины. Например, дисперсия измеряемого сантиметрах в роста сама измеряется в квадратных сантиметрах. Это довольно неудобно. Поэтомучаще используют квадратный кореньиз дисперсии — стандартное отклонение σ (маленькая греческая буква «сигма» ): 38
Стандартное отклонение измеряется в тех же единицах, что исходные данные. Например, стандартное отклонение роста марсиан составляет 5 см, а венерианцев — 2, 5 см. НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ Таблица 2. 1 сжато представляет то, что мы узнали о марсианах и венерианцах Таблица. очень информативна, из нее можно узнать об объеме совокупности, среднем росте и о том, о насколько велик разброс относительно среднег 39
40
Вновьобратившись рис. 2. 1 и 2. 2, мы к обнаружим, что на обеих планетах рост примерно 68% обитателей отличается от отклонение и примерно 95% — на два стандартных отклонения. Подобные распределения встречаются очень часто. Можно сказать, что это происходит всегда, когда некая величинаотклоняется средней от под действием множества слабых, независимых друг от друга факторов. 41
Распределение такого рода называется нормальным (или гауссовым) и описывается формулой: 42
МЕДИАНА И ПРОЦЕНТИЛИ Обогатившись теоретическими познаниями, мы отправляемсяна Юпитер. Здесь мы не толькоизмеряем всех до одногоюпитерианно , также подсчитываемсреднее и стандартное отклонениероста для всей их совокупности. Оказывается, среднийрост юпитериан— 37, 6 см, а его стандартноеотклонение— 4, 5 см. Можно заключить, что юпитериане очень похожина марсиан, т. к. близкиоба параметра определяющие нормальноераспределение — среднее и стандартное отклонение. 43
44
Но исходные данныепо юпитерианам , обнаруживают другую картину: типичный юпитерианин довольно приземист около 35 — см, то есть на 5 см ниже марсианина. Итак, рост произвольно выбранного юпитерианина вовсе не равновероятно может оказаться выше или ниже среднего, то есть распределение юпитериан по росту асимметрично. В такой ситуации полагаться на среднее и стандартное отклонение нельзя. 45
46
Эти величины называются 25 -ми 75 -м процентилями. Если медиана делит распределение пополам, то 25 -й и 75 -й процентили отсекают от него по четвертушке. (Сама медианасчитается 50 -м процентилем Для юпитериан как ). , видно из рис. 2. 4 Б, 25 -й и 75 -й процентилиравны соответственно см 34 и 40 см. Конечно, медианаи процентили , в отличие от среднего и стандартного отклонения не дают полного описания , распределения. 47
Однако между 25 м и 75 -м процентилями находится половина значений, – значит, мыможем судить, каков ростом средний юпитерианин. По положениюмедианыотносительно 25 -го и 75 -го процентилей можно судить о том, насколько асимметрично распределение. Вычисление процентилей — быстрый способ разобраться в том, насколько распределение близко к нормальному. Для нормального распределения 95% значенийзаключено пределахдвух стандартных в отклонений от среднего и 68% — в пределах одного стандартного отклонения, а медиана совпадает со средним значением. 48
Соответствие между процентилями и числом стандартных отклонений от среднего значения 49
50
51
Достаточнонадежноможнооценить величину ассиметриии с помощью коэффициента Пирсона по разностимежду средней и модой, отнесенной к величине стандартного отклонения: где Аs – мера скошенности распределения или коэффициент ассиметрии. 52
В качествепоказателя ассиметрии можно использовать утроенную разностьмеждусредней и медианой, отнесенной к стандартному отклонению : величинаэтого показателя колеблется в пределах± 3. Коэффициент ассиметрии s - величинане А именованная. колеблетсяв границахот нуля Он до единицы. Ассиметрия считается незначительной , еслиs ≤ 0, 25. А При Аs ≤ 0, 5 скошенность уже значительна. 53
ВЫБОРОЧНЫЕ ОЦЕНКИ До сих пор нам удавалось получитьданные обо всех объектах совокупности, поэтому мы могли точно рассчитать значения среднего, дисперсиии стандартного отклонения На самом. деле обследовать все объекты совокупности удается редко: обычно довольствуются изучением выборки, полагая, что эта выборка отражает свойства совокупности. Выборку, отражающую свойства совокупности, называют представительной. Имея дело с выборкой, мы не узнаемточныхзначенийсреднегои стандартного отклонения, но можем оценить их. 54
Оценка среднего, вычисленная по называется выборочным средним. выборке Оценка стандартного отклонения называется выборочным стандартным отклонением (s) и определяется следующим образом: 55
Средняя и её свойства Нахождение средней это заменаиндивидуальных варьирующих значений отдельных членов совокупностинекоторой уравненнойвеличиной при сохраненииосновныхсвойств всех членов совокупности. Этому условию в наибольшей степени удовлетворяетсредняя, обозначаемая х‾. 56
Свойства средней 1. Если каждую из вариант совокупности увеличить или уменьшитьна одну и туже величину, то и средняя увеличится или уменьшится на эту же величину. 2. Алгебраическая суммаотклонений отдельных вариант отсредней равна нулю: 57
Это положение важнодля понимания сущности средней как равнодействующей для всех варьирующихвеличин совокупности ; оно дает возможность проверить правильность расчета средней. 3. Сумма квадратов отклонений средней от меньшесуммыквадратов отклонений от любой другой величины, не равной средней: 58
НОРМИРОВАННОЕ ОТКЛОНЕНИЕ Нормальное распределение занимаетважное место в биометрии, так как много признаков следует этому типу распределения. Для изучения закономерностей при нормальном распределении используется так называемое нормированноеотклонение (t). Нормированное отклонение представляет собой отклонение той или иной вариантыот средней, выраженное с сигмах ( ): δ 59
Каждая варианта характеризуется определенным значениемt, указывающим её положениев на вариационном ряду. Например, если хn = +1, 5, это значит, что даннаявариантарасполагается в правой части кривой, на расстоянии средней от +1, 5 δ. 60
Размещение вариантпри нормальном распределении характеризуется определенными закономерностями: при нормальном распределении отклонения отдельных вариант от средней практически охватывают 6 δ. Зная вариационную ± кривую по изучаемому признаку, можно заранее предсказать, какой % изученных вариант укладывается в пределах ± 1 δ, ± 2 δ, ± 3 δ. Так в пределах± 1 δ располагается 68%всех вариант, в пределах ≈ ± 2 δ - ≈95, 5%, в пределах δ - ≈99, 7%всех ± 3 вариант. 61
Вероятность любогоотклонения от среднейесть функциянормированного отклонения. Таким образом, вероятность того, что взятая наугад варианта, отклоняется среднейна ± от 1 δ равна 0, 68, на ± 2 δ - 0, 95, на ± 3 δ – 0, 997. 62
Доверительные вероятности Существенно важныв биологии 2 вероятности: 0, 95 и 0, 99. Это значит, что с вероятностью 0, 95 любая случайная вариантабудет находитсяв пределах1, 96 δ; с вероятностью 0, 99 она будет находится в пределах 2, 58 δ. Если в качествеграниц ± взять ± 3δ, то вероятность выхода данной варианты за пределы равна 0, 027 Это. важное правило называют « правилом 3 δ. » 63
Вероятности, принятые как доверительные, определяют доверительные интервалымежду ними. Для разныхвероятностей доверительные интервалы будут следующими: Вероятности интервалы 0, 95 -1, 96 δ…………. +1, 96 δ 0, 99 -2, 58 δ…………. +2, 58 δ 0, 999 -3, 03 δ…………. +3, 03 δ 64
Уровни значимости Определенным значениям вероятностей соответствуют определенные уровни значимости. Вероятности 0, 95 соответствует уровень значимости 0, 05, вероятности 0, 99 соответствует уровень значимости 0, 01. Т. о. , уровеньзначимости обозначает вероятность получения случайного отклонения от установленных с опреледенной вероятностью результатов С помощьюуровня. значимости можно установить, в каком % случаев возможна ошибка результатов. 65
Оценка достоверности статистических показателей с помощью стандартной ошибки Стандартная ошибкапозволяет: первоеопределить границы для показателей генеральнойсовокупности; второе – она дает возможность оценить степень достоверности самих статистическихпоказателей, например, для средней. Что такое достоверность средней Мерилом. достоверности является нормированное отклонение: 66
С помощью нормированного отклонения можно сравнивать две выборочные средние, воспользовавшись формулами: 67
Нулевая гипотеза Общиепринципы сравнения основываются на анализе «нулевой гипотезы» . По этой гипотезе первоначальнопринимается , что между показателями или группами достоверных различийнет, то есть обе группы составляют одну совокупность. Анализдолжен привестиили к отклонению нулевойгипотезы , если доказана достоверность полученных различий, или к сохранению её, если достоверность различий не доказана. 68
Так как все показатели характеризуются определенными уровнями значимости, то отбрасывание нулевойгипотезыдолжнобыть связано с принятием определенногоуровня значимости. Если взят уровень значимости 0, 01 и если вероятность достоверности данного показателя или различий между показателями не удовлетворяет этому условию, то есть она ниже 0, 99, то нет оснований для отбрасывания нулевой гипотезы. 69
КОРРЕЛЯЦИЯ и РЕГРЕССИЯ Существует две категории связейили зависимостей между признаками: функциональные и корреляционные При. функциональных зависимостях каждому значению одной переменной величины соответствуетопределенноезначение другой переменной. Такие зависимости есть математике, физике…Между радиусом окружности r и её длиной C существует функциональная зависимость. 70
При корреляционных или статистических связяхчисленному значению однойпеременной соответствует много значений другой переменной. Функциональнаясвязь имеет место по отношению каждому к отдельному наблюдению: количество удобрений – урожайность. Корреляционная связь проявляетсяв среднем для всей совокупности наблюдений: существует корреляция междувесоми ростомчеловека. Но полногосоответствия междуэтими признаками нет. 71
Если функциональную связь выразить математически, изменениюаргумента то соответствует определенное изменение функции. При корреляции наблюдается сопряженная вариация: отклонения от средних по обоим признакам идут сопряжено, т. е. параллельно. В том случае, когда они идут в одном направлении – это положительная корреляция, когдаониразнонаправлены – отрицательная корреляция. 72
Если необходимо установить наличие корреляции и её степень, нужно вычислять коэффициент корреляции, который показывает наличиесвязиили её отсутствие. На рис. 8. 10 приведены примеры зависимостей и соответствующие им значения r. Мы рассмотрим два коэффициента корреляции. 73
74
Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регрессионный анализ, он требует нормальности распределения. Когда говорят просто о «коэффициенте корреляции» , всегда имеют в виду коэффициент корреляции Пирсона. 75
КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА Расчеткоэффициента корреляции возможен при тех же условиях, что и регрессионный анализ. Это преждевсеголинейность связипеременных и нормальность распределения. Эти условия выполняются далеконе всегда. Крометого, в клинических биологических и исследованиях мы часто имеемдело с порядковыми признаками, а к ним ни регрессионный анализ, ни расчет коэффициента корреляции неприменим. 76
В подобных случаяхследуетвоспользоваться коэффициентом ранговой корреляции Спирмена. Это непараметрический метод — он не требует нормальности распределения; требует он и не линейной зависимости, можноприменять его как к количественным, так и к порядковым признакам. Идея коэффициентаранговой корреляции Спирмена (его обозначают rs, ) проста. Нужно упорядочить данные по возрастанию и заменить реальные значения их рангами. 77
Рангом значенияназывается номерв его упорядоченном ряду. Например, в ряду 1, 4, 8, 8, 12 ранг числа 4 равен 2. Затем, беря вместо самих значений их ранги, рассчитывают обычный коэффициент корреляции Пирсона. Это и будет коэффициент ранговой корреляции Спирмена Как быть, если в ряду встретятся. одинаковыезначения? Скажем, в приведенном примере это две восьмерки. Им следует присвоитьодин и тот же ранг, равныйсреднему занимаемых ими мест: (3 + 4)/2 = 3, 5. Рангом стоящего за ними числа 12 будет 5. 78
Почемудля описаниятеснотысвязи нельзявоспользоваться регрессионным анализом? Асимметричность регрессионного анализа — вот что мешает непосредственно использовать его для характеристики силы связи. Коэффициент корреляции, хотя его идея вытекает из регрессионного анализа, свободен от этого недостатка. 79
80
Для установления типа связимежду варьирующими признаками используетсяметод регрессии. Он позволяет количественно оценить изменениесопряженных величин, так как дает возможность вычислить уравнениеи построитьграфикданной функции. Сначаларассмотрим уравнение регрессии для совокупности, а затем выясним, как оценивать его параметры по выборке. 81
Ранее мы бралинормально распределенную совокупность, находили параметры распределения (среднее μ и стандартное отклонение α), затем находили выборочные оценкиэтих параметров(X и s) и использовали их для оценки значимости различий между группами. Мы будем рассматриватьнормально распределенную совокупность, группа будет но только одна. Рассмотрим связь между двумя количественными признаками, характеризующими членовэтой группы, например, между ростом и весом. 82
теперь разберемся с весом. Известно: чем больше рост, тем больше вес. Линейнаязависимость от х определяется у формулой = α + βх. у Возможнанелинейная зависимость, напримеру = α + βх 2. Возможна множественная и зависимость, когда определяющих признаков более одного, например, у = α + βх + γz. Если рассчитатьсреднийвес марсианразного роста и нанестиполученные значенияна график, окажется, что они даютпрямуюлиниюи средний вес марсиан линейно зависит от роста. 83
УРАВНЕНИЕ РЕГРЕССИИ Прежде чем перейти к обобщению этих закономерностей, дадим несколькоопределений. В уравнении регрессии одна из переменных, х, называется независимой переменной, а другая, у, —зависимой. Набор значений у, соответствующих определенному значению обозначим х, у|х. В примере с марсианами рост мы будем рассматриватькак независимуюпеременную, а вес — как зависимую. Это не означает, что одна переменная действительно определяет другую. Просто по значениюодного признакамы предсказываем значение второго. В условиях эксперимента мы произвольно ме 84
В условияхэксперимента мы произвольноменяем независимую переменную смотрим, как меняется и зависимая. При этом речь действительноидет о зависимости, то есть о причинной связи. В многихже случаяхвыявление статистической связи двух переменныхуказывает на возможность причин ной связи, но не доказывает ее. Для каждогозначениянезависимой переменнойх (в нашем примере это рост) рассчитаемсреднее значение зависимой переменной у (вес). Это среднее в точке х обозначим μy|x. Тогда обнаруженная нами линейная зависимость описывается уравнением|x = α + βx. μy 85
Здесьα — значениеу в точке х = 0 (коэффициент сдвига ), β —коэффициент наклона Таким образом, прямая средних (для каждого роста) весов задается формулой: μy|x = – 8 + 0, 5. x Теперь посмотрим, как распределены веса марсиан одного роста. В данном случае это нормальное распределение со средним μy|x и стандартным отклонением|x. σy 86
Помимонормальности распределения требуется, чтобы σy|x было одинаковым для разных х. Разброс значений зависимой случайной переменнойу должен быть неизменнымпри любом значении независимой переменной х. Итак, значения переменных должны удовлетворять следующим условиям. • Среднее значениеy|x линейно зависит от. μ х • Для любого значения х значения у|х распределены нормально. • Стандартное отклонение σy|x одинаково при всех значениях. х 87
Функция, задающая зависимость y|x от х, μ определяется параметрами α и β. Разброс значенийу|х в точке х задаетсястандартным отклонением σy|x. помнить, что Важно коэффициентырегрессии вычисляютсятак, чтобы разброс точек вокруг линии регрессии былминимален. Разбросэтот характеризуется остаточной дисперсиейs y|x 2 : чем меньше остаточная дисперсия, тем лучше прямая регрессии соответствует имеющимся точкам. 88
Мы рассмотрели методы, предназначенные для оценки связи между двумя признаками. Успех применения этих методов определяется тем, насколько математическая модель, лежащая в их основе, соответствует действительности. Особенно важна форма зависимости — она должнабыть линейной. Поэтому, перед тем как приступить к расчетам, нанесите данные на график —это поможет правильно выбрать статистический метод (или отказаться от применения любого из них). 89
БИОМЕТРИЯ.3ppt.ppt