Теоретические основы статистических методов контроля качества Описательная статистика

Скачать презентацию Теоретические основы статистических методов контроля качества Описательная статистика

Opisat_st.pptx

Количество слайдов: 58

Теоретические основы статистических методов контроля качества Описательная статистика

ГОСТ Р 50779. 10 2000 ГОСУДАРСТВЕННЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ СТАТИСТИЧЕСКИЕ МЕТОДЫ ВЕРОЯТНОСТЬ И ОСНОВЫ СТАТИСТИКИ Термины и определения единица [объект] То, что можно рассмотреть и описать индивидуально. Примечание Единицей может, например, быть: изделие; определенное количество материала; услуга, действие или процесс; организация или человек; некоторая их комбинация признак Свойство, которое помогает идентифицировать или различать единицы данной генеральной совокупности. Примечание Признак может быть количественным или качественным (альтернативным) (генеральная) совокупность Множество всех рассматриваемых единиц. Примечание Для случайной величины распределение вероятностей рассматривают как определение совокупности этой случайной величины подсовокупность Определенная часть генеральной совокупности

Термины и определения класс a) Для качественного признака Определенные группы объектов, каждые из кото рых имеют отдельные общие признаки, взаимно исключают друга, исчерпывая все объекты. b) Для количественного признака Каждый из последовательных взаимоисклю чающих интервалов, на которые разделен весь интервал варьирования границы класса; пределы класса Значения, определяющие верхнюю и нижнюю границы класса. Примечания 1 Следует уточнить, какую из двух границ считают принадлежащей классу. 2 Если возможно, надо чтобы граница класса не совпадала с возможным значением середина класса Среднее арифметическое верхней и нижней границ класса для количественного признака интервал класса Разница между верхней и нижней границами класса для количественного признака

частота Термины и определения Число наступлений события данного типа или число наблюдений, попавших в данный класс накопленная кумулятивная частота Число наблюдений из множества, имеющих значения, которые меньше заданного значения или равны ему. Примечание Для данных, объединенных в классы, кумулятивную частоту можно указать только в границах класса относительная частота Частота, деленная на общее число событий или наблюдений распределение частот Эмпирическое отношение между значениями признака и его частотами или его относительными частотами. Примечание Это распределение можно представить графически в виде гистограммы, столбиковой диаграммы, полигона кумулятивных частот или как таблицу сопряженности двух признаков гистограмма Графическое представление распределения частот для количественного признака, образуемое соприкасающимися прямоугольниками, основаниями которых служат интервалы классов, а площади пропорциональны частотам этих классов столбиковая диаграмма Графическое представление распределения частот для дискретной случайной величины, образуемое набором столбцов равной ширины, высоты которых пропорциональны частотам полигон кумулятивных частот Ломаная линия, получаемая при соединении точек, абсциссы которых равны верхним границам классов, а ординаты либо кумулятивным абсолютным частотам, либо кумулятивным относительным частотам

выборка [проба] Одна или несколько выборочных единиц, взятых из генеральной совокупности и предназначенных для получения информации о ней. Примечание Выборка [проба] может служить основой для принятия решения о генеральной совокупности или о процессе, который ее формирует объем выборки Число выборочных единиц в выборке отбор выборки Процесс извлечения или составления выборки

ИЗМЕРИМЫЙ ПРИЗНАК И ЕГО ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ. ИСХОДНЫЕ НАБЛЮДЕНИЯ. ТАБЛИЦА ЧАСТОТ. ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ

Основу статистического исследования составляет множество данных, полученных по результатам измерения одного или нескольких признаков. Путем вычисления или измерения признаков соответствующими измерительными средствами получают ряд значений, называемый также рядом измерений. Ряд измерений может состоять, например, из значений результатов измерений диаметра валов привода, температуры прокатки и плавки подшипниковой стали или значений количества телефонных вызовов, регистрируемых за определенный промежуток времени, например в 1 мин. Исследуемыми измеримыми признаками являются здесь соответственно диаметр, температура прокатки или плавки или число вызовов за определенный промежуток времени. Эти признаки соответствуют определению случайных величин. Обозначим их заглавными латинскими буквами X, Y, Z, . . Область их значений охватывает все возможные значения, которые может принимать признак или случайная величина.

• Ряд измерений объема n состоит из n значений признака, которые обозначаются соответствующими малыми латинскими буквами, снабженными индексом, указывающим порядковый номер измерения; х1, х2, . . . , хn представляют собой значения, которые X принимает в каждом конкретном случае. • Наблюдаемые значения х1, х2. . . , хn называются реализациями случайной величины X. • Речь идет о непрерывной случайной величине, если она принимает все возможные значения в определенном интервале, например, при определении диаметра валов привода или при измерении температуры плавки или проката подшипниковой стали. • Количество телефонных вызовов представляет собой дискретную случайную величину, так как она может принимать лишь целочисленные значения 0, 1, 2, . .

ПРИМЕР 1 • У 20 изготовленных на токарном автомате цапф передней оси контролировался диаметр; в результате были получены значения положительных отклонений вмк (микронах) от номинального размера 20 мм, приведенные в таблице 1. • Признак или случайная величина X есть диаметр цапф, который теоретически (с ограничениями, налагаемыми имеющейся точностью измерений) может принимать любые значения в интервале, величина которого определяется заданной технологией станка и материала, т. е. X есть непрерывная величина. • Объем ряда измерений составляет n = 20. • Реализациих1, x 2, . . . , х20 случайной величины X образуют последовательность, представленную в таблице 1. • Такая последовательность называется исходной. Она содержит неупорядоченные отклонения от номинального размера между 39 и 46 мк.

Таблица 1. Исходные значения величин в примере (20 измерений диаметра цапф) отклонения от номинального размера 42 40 42 42 46 43 42 41 41 40 41 43 39 41 40 39 42 44 42 40

• Если упорядочить измерения по величине и указать вертикальными черточками их повторяемость, получится первичная таблица распределения (табл. 2). • В столбец (1) таблицы заносятся в порядке возрастания результаты измерений, в столбец (2) — штриховые отметки повторяемости данного измеренного значения, в столбец (3) — их количество, т. е. абсолютная частота каждого результата измерения. • Таблица 2. Первичная таблица распределения Отклонение от номинального размера, мк Штриховые отметки отклонения Абсолютная частота 1 2 3 39 40 41 42 43 44 45 46 II IIII I I 2 4 4 6 2 1 0 1 Первичная таблица распределения показывает, что большинство измерений, а именно 14 из 20, лежит между 40 и 42 мк, в то время как вне этого интервала располагается относительно мало величин.

• Пример 2 • Объем ряда измерений составляет n = 150. Имеют место отклонения от 25 до 52 мк. Обозначим наименьшее измеренное значение в исходной последовательности через xмин (xмин = 25 мк), а наибольшее измеренное значение — через xмакс (хмакс= 52 мк). Разность между этими величинами называется размахом R: • R = хмакс хмин = 52 25 = 27 мк. • при большом объеме n измерений первичная таблица распределения по прежнему остается слишком обширной. Поэтому следует прибегнуть к классификации (группировке; ) измерений, объединяя по нескольку следующих друг за другом значений в класс, или группу. Границы интервала, мк Штриховые отметки Абсолютная частота 1 2 3 4 5 1 4 13 23 22 29 29 16 11 2 0, 67 2, 67 8, 67 15, 33 14, 67 19, 33 10, 67 7, 33 1, 33 0, 67 3, 34 12, 01 27, 34 42, 01 61, 34 80, 67 91, 34 98, 67 100, 00 24, 5 … 27, 5 … 30, 5 … 33, 5 … 36, 5 … 39, 5 … 42, 5 … 45, 5 … 48, 5 … 51, 5 … 54, 5 I IIII IIII IIII IIII IIII IIII IIII I IIII I II Относительная частота, % накопленная частота, ∑, %

Эмпирическое распределение частот • Первое указание на вид распределения частот нам дают штриховые отметки таблицы частот. Количество штрихов в отдельных интервалах дает наглядную картину эмпирического распределения случайной величины X. На практике, например в технике контрольных карт, этого оказывается вполне достаточно для оценки распределения. • Если для примера 1 в прямоугольных координатах отложить по оси абсцисс границы интервала из табл. : 24, 5. . . 27, 5 мк; 27, 5. . . 30, 5 мк; а по оси ординат — соответствующие абсолютные или же относительные частоты и построить для каждого интервала прямоугольник ширинойd = 3 мк и высотойhm или (hm/n)*100% (после выбора соответствующего масштаба на осях координат), то получится ступенчатый многоугольник, называемый также гистограммой. Совокупность штриховых отметок по существу представляет собой такую гистограмму, повернутую на 90°.

• Другое представление получается, если в серединах интервалов на оси абсцисс — обозначим их через nт (т = 1, 2, . . . , k) — восстановить перпендикуляры высотойhm или (hm/n)*100% и соединить между собой их вершины. • В результате получаем полигон частот, или многоугольник распределения (эмпирическую кривую распределения). • При увеличении ширины интервалаd полигон частот все более сглаживается, в результате чего ранее имевшиеся вершины могут исчезнуть. При этом возникает опасность существенного смазывания картины эмпирического распределения, так что уже по этой одной причине значения d не следовало бы выбирать слишком большими.

• Полигоны частот к примеру 2 (d = 3 мк)

• Наряду с этим имеется множество методов графического представления распределений частот (7 простых японских методов).

СТАТИСТИКИ ЧИСЛОВЫХ ХАРАКТЕРИСТИК ОДНОГО ИЗМЕРИМОГО ПРИЗНАКА

СРЕДНИЕ ЗНАЧЕНИЯ • В качестве характеристик измеримого признака вместо исходных значений величин или таблицы их частот используются числовые характеристики, называемые также статистическими мерами, которые служат для описания и сравнения распределений. Важнейшей и чаще всего применяемой на практике статистической характеристикой является среднее значение, описывающее одним числом результаты некоторого ряда измерений. • Для статистических исследований в технике особый интерес представляют следующие средние значения: среднее арифметическое, медиана, или срединное значение, мода. D и среднее геометрическое.

Среднее арифметическое • Наиболее известно среднее арифметическое ряда измерений. • В повседневной жизни нам приходится часто сталкиваться с такими средними значениями. • Так, например, на предприятии рассчитывается среднемесячная доля брака, средний расход сырья в цехе или среднесуточная производительность агрегата; при метеорологических исследованиях вычисляют среднегодовую температуру или среднесуточную влажность воздуха. • Точно так же, как вычисляют эти средние значения (суммирование индивидуальных значений и деление суммы на количество величин), определяют и среднее арифметическое ряда измерений объема п со значениямиx 1 х2, . . . , хn • Среднее арифметическое ряда измерений определяется по формуле

ВЫБОРОЧНОЕ СРЕДНЕЕ • Для выборки, состоящей из чисел Х„ Хг, Хп, выборочное среднее (обозначаемое символом X ) равно

• Поскольку среднее арифметическое зависит от всех элементов выборки, наличие экстремальных значений значительно влияет на результат. • В таких ситуациях среднее арифметическое может исказить смысл числовых данных. • Следовательно, описывая набор данных, содержащий экстремальные значения, необходимо указывать медиану либо среднее арифметическое и медиану

Медиана • Важной числовой характеристикой распределения для ряда измерений объема n является медиана, или срединное значение. • Для ее вычисления все наблюдения необходимо расположить в порядке возрастания или убывания результатов измерений. • Если n — нечетное число, то медиана просто является числом, находящимся в середине упорядоченной последовательности. • При четном n медиана равна среднему арифметическому двух расположенных в середине значений упорядоченной последовательности. • По определению медиана зависит исключительно от одного или двух срединных значений ряда измерений. Остальные значения последовательности можно поэтому произвольно варьировать, не изменяя при этом медиану , в то время как среднее арифметическое может существенно измениться. • Особенно легко найти медиану малого количества измерений. • В связи с этим медиана используется главным образом для построения контрольных карт, где ей отдается предпочтение перед средним арифметическим, так как там обычно оперируют с выборками измерений из 5 или 7 значений, откуда легко найти как срединное значение (3 е или 4 е) и занести его на контрольную карту, в то время как при использовании среднего арифметического нужно произвести ряд вычислений (сложить измерения и разделить сумму на их количество).

• ПРИМЕР • Чтобы вычислить медиану выборки, сначала необходимо упорядочить исходные данные. • В соответствии с правилом, относящимся к выборкам, содержащим нечетное количество элементов, позиция медианы вычисляется по формуле • Таким образом, медиана равна 6, 5. • Обратите внимание на то, что медиана, равная 6, 5, ненамного больше среднего значения, равного 6, 08.

• ПРИМЕР • Упорядоченный массив теперь выглядит так. Согласно правилу, относящемуся к вычислению медианы выборки, содержащей четное количество элементов, позиция медианы задается формулой Следовательно, медиана равна среднему значению, вычисленному по третьему и чет вертому элементам, т. е. 12, 2.

• • Мода D (наиболее вероятное значение) есть наиболее часто встречающаяся в данном ряде измерений величина. Если измерения образованы реализациями дискретной случайной величины X то. D можно установить непосредственно по таблице частот как значение признака, имеющее максимальную абсолютную частоту. Если же измерения являются реализациями непрерывной случайной величины Х, то моду D определяют при наличии первичной таблицы распределения как значение с максимальной абсолютной частотой или (при отсутствии такой таблицы) приближенно по таблице частот. Если имеется только таблица частот, т. е. сгруппированный материал, то можно определить лишь интервал, в который попадает мода D. Это будет интервал с наибольшей абсолютной частотой hm. При графическом представлении эмпирического распределения в виде полигона частот D равно значению измеримого признака, которому соответствует максимум ординаты полигона. Многовершинные распределения частот (с несколькими максимумами) обладают несколькими модами, поэтому для их характеристики удобнее избрать моду D, а не среднее арифметическое, так как она лучше отражает типичные черты распределения, чем среднее значение или медиана. На практике мода чаще всего применяется в демографической статистике, при решении же технических задач она еще не нашла широкого применения.

• ПРИМЕР • Системный администратор, руководящий работой корпоративной сети, подсчитыва ет количество сбоев сервера, происходящих за день. В следующей таблице приведены данные его наблюдений за последние две недели. • Вычислите моду этой выборки. • РЕШЕНИЕ. Упорядочим массив. • Чаще всего в этой выборке повторяется число 3. Следовательно, мода равна 3. Таким образом, системный администратор может утверждать, что, как правило, сервер сбо ит 3 раза в день. • Обратите внимание на то, что мода этой выборки равна 3, а среднее выборочное значение равно 4, 5. Число 26 является выбросом, поэтому для оценки среднего количества сбоев за день следует пользоваться медианой или модой, а не средним арифметическим значением.

Квартили • Квартили (quartiles) — это показатели, которые чаще всего используются для оцен ки распределения данных при описании свойств больших числовых выборок. • В то вре мя как медиана разделяет упорядоченный массив пополам (50% элементов массива меньше медианы и 50% — больше), квартили разбивают упорядоченный набор данных на четыре части. • Квартили вычисляются по формулам • Первый квартиль Q 1 — это число, разделяющее выборку на две части: 25% элементов меньше, а 75% — больше первого квартиля. Третий квартиль Q 3 — это число, разделяющее выборку на две части: 75% элементов меньше, а 25% — больше третьего квартиля.

• ПРИМЕР • Вычислим квартили выборки. Упорядоченный массив имеет следующий вид. • Это означает, что 25% значений СВ не превы шает 0, 7%.

Среднее геометрическое • В отличие от среднего арифметического среднее геометрическое позволяет оценить степень изменения переменной с течением времени. • Среднее геометрическое ряда измерений объема n с членами х1, х2, …, xn определяется формулой Значение вычисляют, логарифмируя при произвольном основании В определении среднего геометрического предполагают, чтоxi>0 для любых членов.

Вариация числовых данных • Важное свойство числовых данных — их вариация, характеризующая сте пень дисперсии ( ispersion) данных. d • Две разные выборки могут отличаться как сред ними значениями, так и вариациями. • Однако, как показано, две вы борки могут иметь одинаковые вариации, но разные средние значения, либо одинако вые средние значения и совершенно разные вариации. Два симметричных распределения колообразной формы с одинаковым разбросом и разными средними значениями колообразной формы с одинаковыми средними значениями и разным разбросом

МЕРЫ РАССЕИВАНИЯ • Для описания эмпирических распределений недостаточно введения единственного числа, характеризующего ряд измерений через их среднее значение, так как два эмпирических распределения с одинаковыми средними могут иметь совершенно разный вид. • Существует пять оценок вариации данных: размах, межквартилъный раз мах , дисперсия, стандартное отклонение и коэффициент вариации. Размах R • Размахом (range) называется разность между наибольшим и наименьшим элемента ми ыборки в

Размах • Размах позволяет измерить общий разброс (total spread) данных. • Хотя размах вы борки является весьма простой оценкой общего разброса данных, его слабость заключа ется в том, что он никак не учитывает, как именно распределены данные между мини мальным и максимальным элементами. Сравнение трех выборок, имеющих одинаковый размах

Межквартильный размах • Межквартильный, или средний, размах — это разность между третьим и первым квартилями выборки. • Эта величина позволяет оценить разброс 50% элементов и не учитывать влияние экстремальных элементов. • Следует отметить, что величины Q 1 и Q 3, а значит, и межквартильный размах, не зависят от наличия выбросов, поскольку при их вычислении не учитывается ни одна величина, ко торая была бы меньше Q 1, или больше Q 3. • Суммарные количественные характеристики, та кие как медиана, первый и третий квартили, а также межквартильный размах, на которые не влияют выбросы, называются устойчивыми показателями.

Дисперсия и стандартное отклонение • Хотя размах и межквартильный размах позволяют оценить общий и средний раз брос выборки соответственно, ни одна из этих оценок не учитывает, ак к именно распре делены данные. • Дисперсия и стандартное отклонение лишены этого недостатка. Эти показатели позволяют оценить степень колебания данных вокруг среднего значения. • Выборочная дисперсия — это сумма квадратов разностей между элементами выбор ки и выборочным средним, деленная на величину, равную объему выборки минус один.

Стандартное выборочное отклонение • Наиболее практичной и широко распространенной оценкой разброса данных явля ется стандартное выборочное отклонение ( ample standard s deviation). • Этот показатель обозначается символом S и равен квадратному корню из выборочной дисперсии. • Стандартное выборочное отклонение — квадратный корень из суммы квадратов раз ностей между элементами выборки и выборочным средним, деленной на величину, равную объему выборки минус один.

ВЫЧИСЛЕНИЕ ПОКАЗАТЕЛЕЙ S 2 И S • Чтобы вычислить выборочную дисперсию, следует выполнись следующее. • Вычислить разность между каждым элементом выборки и выборочным средним. • Возвести каждую разность в квадрат. • Сложить все разности, возведенные в квадрат. • Поделить результат на п 1. • Чтобы вычислить показатель S, т. е. стандартное выборочное отклонение, необходимо извлечь квадратный корень из выборочной дисперсии. • Ни выборочная дисперсия, ни стандарт ное выборочное отклонение не могут быть отрицательными. • Показатели S 2 и S могут быть нулевыми, — если все элементы выборки равны между собой. В этом случае размах и межквартильный размах также равны нулю.

Дисперсия и стандартное отклонение • Дисперсия и стандартное отклонение позволяют оценить разброс данных вокруг среднего значения, определить, сколько элементов выборки меньше среднего, а сколько — больше. • Величина дисперсии представляет собой квадрат единицы измерения. • Оценкой дисперсии является стандартное отклонение, которое выражается в обычных единицах измерений. • Стандартное отклонение позволяет оценить величину колебаний элементов выборки вокруг среднего значения. • Практически во всех ситуациях основное количество наблюдаемых величин лежит в интервале плюс минус одно стандартное отклонение от среднего значения. • Зная среднее арифметическое элементов выборки и стандартное выборочное отклонение, можно определить интервал, которому принадлежит основная масса данных.

Коэффициент вариации •

Форма распределения • Важное свойство выборки — форма ее распределения. • Распределение мо жет быть симметричным или асимметричным. • Чтобы описать форму распределения, необходимо вычислить его среднее значение и медиану. • Если эти два показателя совпадают, переменная считается симметрично распределено. • Если среднее значение переменной больше медианы, ее распределение имеет положительную асимметрию. • Если медиана боль ше среднего значения, распределение переменной имеет отрицательную асимметрию. • Положительная асимметрия возникает, когда среднее значение увеличивается до необычайно высоких значений. Отрицательная асимметрия возникает, когда среднее значение уменьшается до необычайно малых значений. Переменная является симмет рично распределенной, если она не принимает никаких экстремальных значений ни в одном из направлений, так что большие и малые значения переменной уравновеши вают друга

Форма распределения • Данные, изображенные на панели А, имеют отрицательную асимметрию. На этом рисунке виден длинный хвост и перекос влево, вызванные наличием необычно малых значений. Эти крайне малые величины смещают среднее значение влево, и оно стано вится меньше медианы. • Данные, изображенные на панели Б, распределены симметрично. Левая и правая по ловины распределения являются своими зеркальными отражениями. Большие и малые величины уравновешивают друга, а среднее значение и медиана равны между собой. • Данные, изображенные на панели В, имеют положительную асимметрию. На этом рисунке виден длинный хвост и перекос вправо, вызванные наличием необычайно вы соких значений. Эти слишком большие величины смещают среднее значение вправо, и оно становится больше медианы.

ВЫЧИСЛЕНИЕ ОПИСАТЕЛЬНЫХ СТАТИСТИК ДЛЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ

• Математическое ожидание равно сумме всех значений генеральной совокупности, деленной на объем генеральной совокупности N. • Дисперсия генеральной совокупности равна сумме квадратов разностей между эле ментами генеральной совокупности и математическим ожиданием, деленной на объ ем генеральной совокупности. • Стандартное отклонение генеральной совокупности (population standard deviation) равно квадратному корню, извлеченному из дисперсии генеральной совокупности.

Эмпирическое правило • Эмпирическое правило гласит: если данные имеют колообразное распределение, то приблизительно • 68% наблюдений отстоят от математического ожидания не более чем на одно стандартное отклонение, • приблизительно 95% наблюдений отстоят от математического ожидания не более чем на два стандартных отклонения • и 99% на блюдений отстоят от математического ожидания не более чем на три стандартных отклонения.

Правило Бьенамэ-Чебышева • Более ста лет назад математики Бьенамэ и Чебышев независимо друг от друга откры ли полезное свойство стандартного отклонения. Они обнаружили, что для любого набора данных, независимо от формы распределения, процент наблюдений, лежащих на расстоя нии не превышающем k стандартных отклонений от математического ожидания, не меньше • Правило Бьенамэ Чебышева. По крайней мере 3/4, или 75%, всех наблюдений из любого набора данных содержится в интервале µ± 2σ, по крайней мере 8/9, или 88, 89%, наблюдений содержится в интервале µ± 3σ, и как минимум 15/16, или 93, 75% , наблюдений содержится в интервале µ± 4σ.

Сколько данных лежит вокруг математического ожидания • Правило Бьенамэ Чебышева носит весьма общий характер и справедливо для рас пределений любого вида. Оно указывает минимальное количество наблюдений, рас стояние от которых до математического ожидания не превышает заданной величины. Однако, если распределение имеет колообразную форму, эмпирическое правило более точно оценивает концентрацию данных вокруг математического ожидания.

АНАЛИЗ ДАННЫХ • Основные характеристики (среднее значение, разброс и форма распределения) по зволяют описать свойства данных и перейти к более глубоким исследованиям. Доволь но часто для анализа данных применяется подход, основанный на пятерке базовых по казателей Если данные распределены совершенно симметрично, между пятью базовыми показа телями наблюдаются ависимости: з • Расстояние от Хmin до медианы равно расстоянию от медианы до Хmax. • Расстояние от Хmin до Q 1 равно расстоянию от Q 3 до Хтах • Расстояние от Q 1 до медианы равно расстоянию от медианы до Q 3.

Зависимости, которые возникают между элементами пятерки показателей, когда данные распределены несимметрично • Если распределение имеет положительную асимметрию, расстояние от от Хmin до медианы меньше расстояния от медианы до Хmax. • Если распределение имеет положительную асимметрию, расстояние от Q 3 до Хтах больше чем от Xmin до Q 1 • Если распределение имеет отрицательную асимметрию, расстояние от Xmin до ме дианы больше расстояния от медианы до max. Х • Если распределение имеет отрицательную асимметрию, расстояние от Q 3 до Хmax меньше, чем от Хmin до Q 1

КОВАРИАЦИЯ И КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ • Ковариация оценивает силу линейной зависимости между двумя чи словыми переменными и У. X • Ковариация не позволяет оценить относительную силу зависимости. • Для того чтобы точнее оценить эту величину, необходимо вычислить коэффициент корре ляции. • Относительная сила зависимости, или связи, между двумя переменными, образую щими двумерную выборку, измеряется коэффициентом корреляции, изменяющимся от 1 для идеальной обратной зависимости до +1 для иде альной прямой зависимости. Коэффициент корреляции обозначается греческой буквой р. • Линейность корреляции (perfect correlation) означает, что все точки, изображенные на диаграмме разброса, лежат на прямой.

Три вида корреляции между двумя переменными На рисунке А, изображена обратная линейная зависимость между пере менными и X У. Таким образом, коэффициент корреляции р равен 1, т. е. , когда пере менная X возрастает, переменная У убывает. На рисунке Б показана ситуация, в которой между переменными X и У нет корреляции. В этом случае коэффициент корреляции р равен 0, и, когда переменная X возрастает, переменная У не проявляет никакой опреде ленной тенденции: она ни убывает, ни возрастает. На рисунке В изображена линейная прямая зависимость между переменными X и У. Таким образом, коэффициент корре ляции р равен +1, и, когда переменная X возрастает, переменная У также возрастает.

Выборочный коэффициент корреляции • При анализе выборок, содержащих двумерные данные, вычисляется выборочный коэффициент корреляции, который обозначается буквой г. • В реальных ситуациях ко эффициент корреляции редко принимает точные значения -1, 0 и +1. На рисунке при ведены шесть диаграмм разброса и соответствующие коэффициенты корреляции г ме жду 00 значениями 1 переменных X и У. • На рисунке А показана ситуация, в которой выборочный коэффициент корреляции г равен -0, 9. Прослеживается четко выраженная тенденция: небольшим значениям пе ременной соответствуют очень большие X значения переменной У, и, наоборот, боль шим значениям переменной X соответствуют малые значения переменной У. Однако данные не лежат на одной прямой, поэтому зависимость между ними нельзя назвать линейной. • На рисунке Б приведены данные, выборочный коэффициент корреляции между которыми равен -0, 6. Небольшим значениям переменной X соответствуют большие значения переменной У. Обратите внимание на то, что зависимость между пе ременными и У нельзя назвать линейной, X как на рисунке А, и корреляция между ними уже не так велика.

Выборочный коэффициент корреляции • Коэффициент корреляции между переменными X и У, изо браженными на рисунке В, равен 0, 3. Прослеживается слабая тенденция, согласно ко торой большим значениям переменной У, в основном, соответствуют малые значения переменной У. • Рисунки Г Е иллюстрируют положительную корреляцию между данны ми — малым значениям переменной X соответствуют большие значения переменной У. • Мы употребляли термин тенденция, поскольку между перемен ными X и У нет причинно следственных связей. Наличие корреляции не означает нали чия причинно следственных связей между переменными X и У, т. е. изменение значения одной из переменных не обязательно приводит к изменению значения другой. Сильная корреляция может быть случайной и объясняться третьей переменной, оставшейся за рамками анализа. В таких ситуациях необходимо проводить дополнительное исследова ние. Таким образом, можно утверждать, что причинно следственные связи порождают корреляцию, но корреляция не означает наличия причинно следственных связей.

Диаграммы разброса и соответствующие коэффициенты корреляции г ме жду 100 значениями переменных X и У

Выборочный коэффициент корреляции • Выборочный коэффициент корреляции r вычисляется в соответствии с формулой

Выборочный коэффициент корреляции • Коэффициент корреляции свидетельствует о линейной зависимости, или свя зи, между двумя переменными. • Чем ближе коэффициент корреляции к 1 или +1, тем сильнее линейная зависимость между двумя переменными. • Знак коэффициента корре ляции определяет характер зависимости: прямая (чем больше значение переменной X, тем больше значение переменной У) и обратная (чем больше значение переменной X, тем меньше значение переменной У). • Сильная корреляция не является причинно следственной зависимостью. Она лишь свидетельствует о наличии тенденции, харак терной для данной выборки.

ВЫЧИСЛЕНИЕ КОЛИЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ НА ОСНОВЕ РАСПРЕДЕЛЕНИЯ ЧАСТОТ •

Этические проблемы • Исследователя подстерегают две ошибки: неверно выбранный предмет анализа и неправильная интерпретация результатов. • Интерпретация данных является субъективным процессом. Разные люди приходят к разным выводам, истолковывая одни и те же результаты. • Следует критично относиться к информации, не только к результатам, но и к целям, предмету и объективности исследований. • Британский политик Бенджамин Дизраэли: «Существует три вида лжи: ложь, наглая ложь и статистика» .

Спасибо за внимание!