Анализ данных наблюдения 1. 2. 3. 4. 5. 6. Источники информации для исследования Наблюдение Статистическое наблюдение Функции и характеристики документа Этапы статистического наблюдения
Источники информации для научного исследования Наблюдение (мониторинг); Документальные источники информации; Статистическое наблюдение; Социологическое наблюдение; Накопленные знания; Эксперимент.
Статистическое наблюдение • Под статистическим наблюдением (исследованием) пони мают массовое, планомерное, научно организованное наблю дение за явлениями социальной и экономической жизни, ко торое заключается в регистрации отобранных признаков у каждой единицы исследуемой совокупности. • Объектом наблюдения может быть некоторая совокуп ность (физические, юридические лица), в которой протекают исследуемые социально экономи ческие явления и роцессы. п • Статистическая совокупность — это множество единиц, обла дающих массовостью, однородностью, определенной ценно стью, взаимозависимостью состояния, и отдельных единиц с наличием вариации (изменчивостью).
Источники получения данных Фактический материал подвергается квалификации по разным основаниям, формируются: • статистические последовательности, • полигоны распределения, • обнаруживаются тенденции развития • стабильности, скачков в формировании качеств объекта экспериментального исследования. Индуктивные и дедуктивные обобщения фактического материала строятся в соответствии с требованиями репрезентативности, валидности и релевантности. Кузн. , 70
Инвариантность шкал измерения В соответствии с ТИ при математическом моделировании реального явления или процесса следует прежде всего установить типы шкал, в которых измерены те или иные переменные. Тип шкалы задает группу допустимых преобразований шкалы. Допустимые преобразования не меняют соотношений между объектами измерения. Например, при измерении длины переход от аршин к метрам не меняет соотношений между длинами рассматриваемых объектов.
Инвариантность шкал измерения В шкале наименований (номинальная) допустимыми являются все взаимно однозначные преобразования. В этой шкале числа используются лишь как метки. В шкале наименований измерены, например, номера телефонов, автомашин, паспортов, студенческих билетов. Единственное, для чего годятся измерения в шкале наименований это различать объекты. В порядковой шкале числа используются не только для различения объектов, но и для установления порядка между объектами.
Инвариантность шкал измерения В порядковой шкале допустимыми являются все строго возрастающие преобразования. Порядковая шкала и шкала наименований основные шкалы качественных признаков. Поэтому во многих конкретных областях результаты качественного анализа можно рассматривать как измерения по этим шкалам. Шкалы количественных признаков это шкалы интервалов, отношений, разностей, абсолютная. Процесс измерения включает в себя и определение типа шкалы (вместе с обоснованием выбора определенного типа шкалы).
Инвариантность шкал измерения и достоверность данных Статистические выводы могут быть адекватны реальности только тогда, когда они не зависят от того, какую единицу измерения предпочтет исследователь, т. е. когда они инвариантны относительно допустимого преобразования шкалы. Сформулированное условие является достаточно сильным. Из многих алгоритмов эконометрического анализа данных ему удовлетворяют лишь некоторые. Покажем это на примере сравнения средних величин.
Численность работников, их заработная плата и доходы № Категория работников п/п Число Заработная Суммарные работников плата доходы 1 Низкоквалифицированные рабочие 40 100 4000 2 Высококвалифицированные рабочие 30 200 6000 3 Инженеры и служащие 25 300 7500 4 Менеджеры 4 1000 4000 5 Генеральный директор (владелец) 1 18500 6 Всего 40000 100
Использование средних величин Среднее арифметическое можно использовать лишь для достаточно однородных совокупностей (без больших выбросов в ту или иную сторону). Какие средние использовать для описания заработной платы? Вполне естественно использовать медиану. У 50 ти работников заработная плата не превосходит 200, и у 50 ти не менее 200, поэтому медиана показывает "центр", около которого группируется основная масса исследуемых величин.
Использование средних величин Еще одна средняя величина мода, наиболее часто встречающееся значение. Здесь это заработная плата низкоквали фицированных рабочих, т. е. 100 ед. Таким образом, для описания зарплаты имеем три средние величины моду (100 единиц), медиану (200 единиц) и среднее арифметическое (400 единиц). Для наблюдающихся в реальной жизни распределений доходов и заработной платы справедлива та же закономерность: мода меньше медианы, а медиана меньше среднего арифметического.
Использование средних величин Общее понятие средней величины введено французским математиком первой половины ХIХ в. академиком О. Коши: Средней величиной является любая функция f(X 1, X 2, . . . , Xn) такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел X 1, X 2, . . . , Xn, и не больше, чем максимальное из этих чисел. Все виды средних являются средними по Коши.
Использование средних величин С помощью математической теории удается описать вид допустимых средних в основных шкалах. Так для данных, измеренных в шкале наименований, в качестве среднего годится только мода. В качестве среднего для данных, измеренных в порядковой шкале, можно использовать, в частности, медиану (при нечетном объеме выборки). При четном один из двух центральных членов вариационного ряда левую медиану или правую медиану. Моду тоже можно использовать она всегда является членом вариационного ряда. Но никогда нельзя рассчитывать среднее арифметическое, среднее геометрическое и т. д.
Средние по Колмогорову Естественная система аксиом (требований к средним величинам) приводит к так называемым ассоциативным средним. Их общий вид нашел в 1930 г. А. Н. Колмогоров. Теперь их называют «средними по Колмогорову» . Они являются обобщением нескольких из перечисленных выше средних. Для чисел X 1, X 2, . . . , Xn среднее по Колмогорову вычисляется по формуле G{(F(X 1)+F(X 2)+. . . F(Xn))/n}, где F строго монотонная функция (т. е. строго возрастающая или строго убывающая), G функция, обратная к F.
Средние по Колмогорову Так, если F(x) = x, то среднее по Колмогорову это среднее арифметическое, если F(x) = ln x, то среднее геометрическое, если F(x) = 1/x, то среднее гармоническое, если F(x) = x 2, то среднее квадратическое, и т. д. (в последних трех случаях усредняются положительные величины). Среднее по Колмогорову частный случай среднего по Коши. Но такие популярные средние, как медиана и мода, нельзя представить в виде средних по Колмогорову.
Средние по Колмогорову В шкале интервалов из всех средних по Колмогорову допустимым является только среднее арифметическое. Таким образом, среднее геометрическое или среднее квадратическое температур (в шкале Цельсия) или расстояний не имеют смысла. В качестве среднего надо применять среднее арифметическое. А также можно использовать медиану или моду.
Средние по Колмогорову Аналогично средним величинам могут быть изучены и другие статистические характеристики показатели разброса, связи, расстояния и др. Так, коэффициент корреляции не меняется при любом допустимом преобразовании в шкале интервалов, как и отношение дисперсий, дисперсия не меняется в шкале разностей, коэффициент вариации в шкале отношений, и т. д.
Вывод В исследовании принятии решений необходимо использовать только инвариантные алгоритмы обработки данных. Требование инвариантности выделяет из многих алгоритмов усреднения лишь некоторые, соответствующие используемым шкалам измерения. Прикладные исследования теории измерений дается в монографиях: 1. Орлов А. И. Устойчивость в социально экономических моделях. М. : Наука, 1979. 296 с. , 2. Орлов А. И. Эконометрика. – М. : Экзамен, 2002. – 576 с.
Закон больших чисел. Неравенство Чебышёва позволяет доказать замечательный результат, лежащий в основе математической статистики – закон больших чисел. Из него вытекает, что выборочные характеристики при возрастании числа опытов приближаются к теоретическим, а это дает возможность оценивать параметры вероятностных моделей по опытным данным. Без закона больших чисел не было бы части прикладной математической статистики.
Закон больших чисел. Теорема Бернулли позволяет оценить неизвестные вероятности. Именно, оценкой неизвестной вероятности р является число m/k, поскольку доказано, что при возрастании k вероятность того, что m/k отличается от p более чем на какое либо фиксированное число, приближается к 0. Оценка будет тем точнее, чем больше k. Где m является суммой k, K – число случайных величин.
Случайные погрешности При наличии случайных погрешностей измерений прибегают к многократным наблюдениям и последующей статистической обработке их результатов. При этом результаты наблюдений и измерений и случайные погрешности рассматриваются как случайные величины, то есть величины, которые характеризуют случайное явление и в результате измерений принимают то или иное значение.
Случайные погрешности Обработка результатов таких наблюдений возможна, если их рассеивание обнаруживает определенные статистические закономерности. Если же результаты наблюдений разбросаны произвольно, то использовать какие либо способы обработки таких наблюдений и получить результат измерения не представляется возможным.
Случайные погрешности При получении результатов наблюдений необходимо прежде всего проверить наличие закономерностей в распределении наблюдений. Если такие закономерности обнаруживаются, то распределение наблюдений обладает статистической устойчивостью и для их обработки возможно применение методов теории вероятностей и математической статистики.
Законы распределения случайной величины Случайная величина наилучшим и исчерпывающим образом характеризуется в теории вероятностей законом ее распределения. Этот закон устанавливает связь между возможными значениями случайной величины и соответствующими этим значениям вероятностям их появления. Существует две формы описания закона распределения случайной величины дифференциальная и интегральная.
Законы распределения случайной величины Дифференциальный закон распределения характеризуется плотностью распределения вероятностей f(x) случайной величины х. Вероятность Р попадания случайной величины в интервал от х1 до х2 при этом дается формулой: Графически эта вероятность представляет собой отношение площади под кривой f(x) в интервале от х1 до х2 к общей площади, ограниченной всей кривой распределения. Как правило, площадь под всей кривой распределения вероятностей нормируют на единицу.
Законы распределения случайной величины Интегральный закон распределения случайной величины представляет собой функцию F(x), определяемую формулой: Вероятность Р попадания случайной величины в интервал от х1 до х2 при этом дается формулой:
Законы распределения случайной величины Хотя закон распределения случайных величин является их полной вероятностной характеристикой, нахождение этого закона является довольно трудной задачей и требует проведения многочисленных измерений. Поэтому на практике для описания свойств случайной величины используют различные числовые характеристики распределений. К ним относятся моменты случайных величин: начальные и центральные, которые представляют собой некоторые средние значения.
Законы распределения случайной величины При этом если усредняются величины, отсчитываемые от начала координат, то моменты называются начальными, а если от центра распределения – то центральными. Начальный момент k-го порядка определяется формулой: Наибольший практический интерес представляет начальный момент первого порядка математическое ожидание случайной величины m 1 (k=1):