stats club1.ppt
- Количество слайдов: 44
Кредитный рейтинг европейских стран
There are three kinds of lies: lies, damned lies and statistics. B. Disraeli Figures don't lie, but liars figure. Mark Twain
What happened to the market between 1920 s and 1950 s?
Можно ли доверять этим утверждениям? «Средняя ежемесячная зарплата на нашем предприятии выше 35 тысяч рублей. Это означает, что работники у нас зарабатывают хорошо» . «Это лекарство было протестировано в Индии на 10000 молодых мужчин. Результаты исследования не выявили никаких побочных эффектов данного лекарства на здоровье пациентов. Т. е. оно безопасно для всего населения страны» . «В исследовании, спонсированном табачной фабрикой, британские учёные не смогли найти неопровержимых доказательств того, что никотин вызывает рак лёгких. » «Американский журналист провёл две недели в малоимущей семье, получающей пособия от государства. Сегодня вечером он представляет репортаж, в котором показано, что малоимущие ничего не делают для того, чтобы выбраться из бедности» . «Мой друг, когда за рулём, всегда добавляет газ на перекрёстках. По статистике это самое опасное место для водителей, поэтому он старается сокращать время, проведённое на перекрёстке. »
Статистика бывает разная • Сплошные исследования – Перепись населения, данные Росстата • Исследования на основе выборки – Подавляющая часть исследований • Почему мы чаще собираем данные на основе выборке вместо проведения сплошного исследования? • В чём заключаются слабые стороны выборочных исследований?
10 миллионов опрошенных: – Владельцы телефонов – Подписчики журнала – Члены различных клубов и ассоциаций
Научные исследования Каковы главные отличия научного способа познания мира? Типы исследований: • Поисковые • Описательные • Устанавливающие причинно-следственные связи Методы сбора и анализа данных: • Качественные – Глубинные интервью, включённое наблюдение, фокус-группы, анализ текстов и документов • Количественные – Опрос, эксперимент, систематическое наблюдение, контент-анализ, архивные данные
Этапы проведения исследования 1) Обзор литературы на выбранную тему и разработка исследовательских гипотез 2) Разработка дизайна исследования, процедуры выборки и инструмента для сбора данных Использование знаний по статистике 3) Сбор данных 4) Анализ данных с целью проверки гипотез 5) Публикация результатов
Важные понятия • • Переменная Единица анализа Гипотеза Зависимая и независимая переменные
Тип шкалы Номинальная Порядковая Интервальная Относительная Название категории Да Да Порядок от меньшего к большему Нет Да Да Да Равные промежутки между категориями Нет Да Да Абсолютный ноль Нет Нет Да
Тип шкалы Порядковая Ваш возраст: 1 ___ Моложе 20 2 ___ 20 -29 3 ___ 30 -39 4 ___ 40 -49 5 ___ 50 -59 6 ___ 60 -69 7 ___ 70 и старше Относительная How old are you? I’m ______ years old. категория число Обратите внимание на то, что все категории являются взаимоисключающими
Центральные показатели распределения
Средние показатели – это числа, которые дают нам представление о типичных представителях изучаемой группы – Почему средняя температура по больнице – бесполезный показатель? Средние показатели называются центральными показателями распределения, потому что они как правило расположены посередине или в центре частотного распределения. Три типа средних: • Мода • Медиана • Среднее
Мода – наиболее часто встречающееся значение (категория) переменной, наиболее распространённое значение 1, 2, 3, 1, 1, 6, 5, 4, 1, 4, 4, 3 15, 3, 2, 5, 5, 9, 2, 5, 3, 2, 3, 9, 5, 1, 5, 7
Медиана – это срединное значение (по месту расположения в распределении организованных в порядке увеличения значений) переменной, оно делит распределение пополам. Место расположения медианы 11, 12, 13, 16, 17, 20, 25 85, 84, 80, 79, 77, 76, 74, 71, 69, 65, 62, 56, 53, 48
Среднее значение x Среднее – это сумма всех значений, поделённая на общее число значений. Рассчитывается о формуле: _ X = среднее = сумма X = значения переменной N = количество значений X = 1, 2, 3, 1, 1, 6, 5, 4, 1, 4, 4
Какие центральные показатели распределения используются в зависимости от шкалы? Тип шкалы Центральные показатели распределения Мода Медиана Среднее Номинальная Да Нет Порядковая Да Да Нет Интервальная/ относительная Да Да Да
Частотное распределение
Пропорции, проценты и соотношение Частотность категории Общее количество наблюдений Частотность первой категории Частотность второй категории
Частотное распределение номинальной переменной Частотное распределение партийной принадлежности (3 способа отображения) Партия Единая Россия f 30 Партия КПРФ f Партия f 20 Другая 10 30 20 Другая 10 Единая Россия 30 КПРФ 20 Итого 60 КПРФ
Частотное распределение порядковой переменной Частотное распределение поддержки президента Поддержка президента f Полностью поддерживаю 27 Полностью не поддерживаю 21 Скорее не поддерживаю 10 Скорее поддерживаю 11 27 Затрудняюсь ответить 1 Скорее поддерживаю 11 Полностью поддерживаю Скорее не поддерживаю 10 Затрудняюсь ответить Итого 70 Итого НЕПРАВИЛЬНО! ПРАВИЛЬНО 21 1 70
Частотное распределение интервальной/относительной переменной Частотное распределение результатов ЕГЭ Балл f 99 Балл f 0 82 98 1 97 Балл f 3 65 0 81 1 64 1 0 80 2 63 2 96 1 79 8 62 0 95 1 78 1 61 0 94 0 77 0 60 2 93 0 76 2 59 3 92 1 75 1 58 1 91 1 74 1 57 0 90 0 73 1 56 1 89 1 72 2 55 0 88 0 71 4 54 1 87 1 70 9 53 0 86 0 69 3 52 1 85 2 68 5 51 1 84 1 67 1 50 1 83 0 66 3 Итого 71
Сгруппированное частотное распределение и проценты f 95 -99 3 4. 23 90 -94 2 2. 82 85 -89 4 5. 63 80 -84 7 9. 86 75 -79 12 16. 90 70 -74 17 23. 94 65 -69 12 16. 90 60 -64 5 7. 04 55 -59 5 7. 04 50 -54 Балл 4 5. 63 Итого 71 % 100. 00
Кумулятивное частотное распределение Распределение баллов за 4 ЕГЭ экзамена % Баллы f cf c% 350 -400 4 2. 27 176 100 300 -349 24 13. 64 172 97. 73 250 -299 28 15. 91 148 84. 09 200 -249 30 17. 05 120 68. 18 150 -199 35 19. 89 90 51. 14 100 -149 55 31. 25 Итого 176 100. 00
Зачем нужен кумулятивный процент? 94 92 91 88 85 84 80 79 77 76 74 74 71 69 65 62 56 53 48 40 12 й балл снизу Процентиль, рейтинг