Скачать презентацию Начальный анализ статистической информации 1 Структура лекции Скачать презентацию Начальный анализ статистической информации 1 Структура лекции

лекция_3 2016 Графики выбросы типы данныхДля магистров.pptx

  • Количество слайдов: 19

Начальный анализ статистической информации 1 Начальный анализ статистической информации 1

Структура лекции 1. Основные понятия прикладной статистики 2. Переменные и наблюдения. Типы переменных 3. Структура лекции 1. Основные понятия прикладной статистики 2. Переменные и наблюдения. Типы переменных 3. Анализ количественных данных 4. Подготовка данных для количественного анализа 5. Генеральная совокупность. Выборка 6. Бутстреп 7. Группировка данных. Ряд распределения. Таблицы частот 8. Методы описательной статистики 9. Наглядные методы описательной статистики 10. Группировка. Гистограмма 11. Диаграммы размахов 12. Диаграммы Кливленда и одномерные диаграммы рассеяния 13. Категоризованные графики 14. Выбросы 15. Пропущенные значения 2

Основные понятия прикладной статистики Цель - определить основные понятия теории вероятностей и статистики, на Основные понятия прикладной статистики Цель - определить основные понятия теории вероятностей и статистики, на которые опирается анализ данных изменчивой (случайной) природы. Статистика изучает числа, чтобы обнаружить в них закономерности. Явления (ситуации), в которых результат полностью определяется влияющими на него факторами, называют детерминированными или закономерными, а те, в которых это не выполняется — недетерминированными или стохастическими. 3

Основные понятия прикладной статистики • События и их вероятности Р(А) • Измерение вероятности • Основные понятия прикладной статистики • События и их вероятности Р(А) • Измерение вероятности • Случайные величины. Функции распределения • Числовые характеристики распределения вероятностей • Независимые и зависимые случайные величины • Случайный выбор • Выборки и их описание • Ранги и ранжирование • Методы описательной статистики • Наглядные методы описательной статистики • Методы описательной статистики в пакетах MS Excel и SPSS 4

Переменные и наблюдения. Типы переменных В анализе данных имеем некоторый ограниченный набор значений показателей, Переменные и наблюдения. Типы переменных В анализе данных имеем некоторый ограниченный набор значений показателей, описывающих некоторое явление. Такие показатели называют переменными (variables). Каждое значение переменной, полученное в результате наблюдения или эксперимента называется наблюдением (case) или статистическими данными. Переменные можно контролировать, измерять, на них можно влиять в эксперименте или практической деятельности. Переменные бывают нескольких типов: номинальные (категориальные), порядковые (ординальные, ранговые), интервальные. 5

Анализ количественных данных 1. 2. Подготовка данных для количественного анализа Методы составления диаграмм и Анализ количественных данных 1. 2. Подготовка данных для количественного анализа Методы составления диаграмм и статистической обработки данных в конкретной ситуации

Подготовка данных для количественного анализа 1. 2. 3. 4. 5. Тип данных Формат, в Подготовка данных для количественного анализа 1. 2. 3. 4. 5. Тип данных Формат, в котором данные будут вводиться в компьютер Влияние кодирования данных на последующий анализ Необходимость взвешивания показателей Методы проверки данных на наличие ошибок

ТРЕБОВАНИЯ, ПРЕДЪЯВЛЯЕМЫЕ К СТАТИСТИЧЕСКОЙ ВЫБОРКЕ Генеральная совокупность содержит все элементы или все данные, соответствующие ТРЕБОВАНИЯ, ПРЕДЪЯВЛЯЕМЫЕ К СТАТИСТИЧЕСКОЙ ВЫБОРКЕ Генеральная совокупность содержит все элементы или все данные, соответствующие изучаемому объекту или явлению. Выборка – часть данных из генеральной совокупности. Анализ имеющейся выборки - самостоятельный этап исследования с целью выявления особенностей ее структуры и содержащихся в ней данных. Как правильно сформировать выборку, какие данные включить в нее, чтобы получить объективные и достоверные выводы обо всей генеральной совокупности? В прикладной статистике для этих целей разработаны специальные процедуры, среди которых чаще всего используют случайный, систематический или экспертный метод отбора 8

Обработка и анализ статистической информации 14 В практических задачах имеем совокупность наблюдений на основе Обработка и анализ статистической информации 14 В практических задачах имеем совокупность наблюдений на основе которых требуется сделать те или иные выводы. Возникает задача компактного описания имеющихся наблюдений Определение. Методами описательной статистики принято называть методы описания выборок с помощью различных показателей и графиков. 1. Показатели положения 2. Показатели разброса описывают степень разброса данных относительно своего центра 3. Показатели асимметрии 4. Показатели, описывающие закон распределения 9

Наглядные методы описательной статистики 19 Начальная обработка статистических данных Группировка данных — разбиение всего Наглядные методы описательной статистики 19 Начальная обработка статистических данных Группировка данных — разбиение всего диапазона изменения показателя на группы (интервалы) с подсчетом числа наблюдений (частот), попавших в ту либо иную группу, или их доли (относительных частот). 10

Начальная обработка статистических данных Таблица Характеристика сгруппированных данных Интервал Частота ni число наблюдений, попавших Начальная обработка статистических данных Таблица Характеристика сгруппированных данных Интервал Частота ni число наблюдений, попавших в интервал Относительная частота Рi (доля наблюдений, оказавшихся в интервале) Относительная частота Рi % (доля в процентах) 11

Анализ выбросов • Под выбросом мы будем понимать наблюдение, которое «слишком» велико или «слишком» Анализ выбросов • Под выбросом мы будем понимать наблюдение, которое «слишком» велико или «слишком» мало, по сравнению с большинством других имеющихся наблюдений. • Для визуального выявления выбросов обычно используют диаграммы размахов или точечные диаграммы Кливленда. 12

Анализ выбросов • При большом объеме наблюдений редкие наблюдения можно исключить из анализа. При Анализ выбросов • При большом объеме наблюдений редкие наблюдения можно исключить из анализа. При относительно небольшом объеме данных его уменьшение может быть нежелательным с точки зрения статистической значимости получаемых результатов. • Альтернативой удалению необычных значений предиктора является нормализующее преобразование (чаще всего логарифмирование). 13

Анализ выбросов • Исходные значения зависимой переменной обычно представляют особый интерес при построении регрессионных Анализ выбросов • Исходные значения зависимой переменной обычно представляют особый интерес при построении регрессионных моделей, и их преобразование может нарушить содержательный смысл проверяемых гипотез. • Поэтому лучше попытаться подобрать метод анализа, который основан на распределении вероятностей, допускающем асимметрию разброса значений (например, гамма-распределение для непрерывных переменных или распределение Пуассона для дискретных количественных переменных). 14

Заполнение пропущенных значений в таблицах данных Большинство статистических методов предполагает, что в ходе наблюдений Заполнение пропущенных значений в таблицах данных Большинство статистических методов предполагает, что в ходе наблюдений были получены полностью укомплектованные матрицы, векторы и другие структуры с данными. На практике пропуски в данных являются повсеместным явлением, и поэтому, прежде чем начать аналитические изыскания, необходимо привести обрабатываемые таблицы к «каноническому» виду, то есть либо удалить фрагменты объектов с недостающими элементами, либо заменить имеющиеся пропуски на некоторые разумные значения. 15

Заполнение пропущенных значений в таблицах данных • существует множество подходов, методологий и их критических Заполнение пропущенных значений в таблицах данных • существует множество подходов, методологий и их критических анализов (см. , например, классическую монографию Little & Rubin (2002, http: //bit. ly/lz. WOh. ZV)). 16

Заполнение пропущенных значений в таблицах данных На практике процедура «борьбы с пропусками» обычно включает Заполнение пропущенных значений в таблицах данных На практике процедура «борьбы с пропусками» обычно включает следующие шаги: • идентификация отсутствующих значений; • исследование закономерностей появления этих значений в данных; • формирование наборов данных, не содержащих пропусков (в результате удаления или замены соответствующих фрагментов). 17

Самостоятельная работа № 4 Эссе «Визуальный анализ экономических данных» Структура работы 1. Аннотация 2. Самостоятельная работа № 4 Эссе «Визуальный анализ экономических данных» Структура работы 1. Аннотация 2. Ключевые слова 3. Основное содержание 4. Литература 18

19 19