
9 Графическое суммирование данных.ppt
- Количество слайдов: 57
Графическое суммирование данных
Описание данных • Описание данных является одной из важнейших задач статистики – Причем статистики в целом, а не только экспериментальной/ выборочной статистики – Описательная статистика – это то, что обычно понимается под словом статистика (в противоположность биометрии) – Основные методы – графические и численные
Значение • Мощный инструмент передачи информации о данных • Представление простых изображений • Обнаружение выбросов и тенденций ДО ТОГО, как будет … • Планирование анализа
Графические методы • Суммарное изображение полученных данных • Научная графика – Высокая плотность данных - суммирование • Иллюстрации – Невысокая плотность данных – эстетическая функция
Исторически • Столбиковые диаграммы – Прерывистые переменные • Линейные диаграммы – Непрерывные переменные Отдельно развивалось использование картограмм
Графические методы • Изображение, как минимум, двумерно. Графические методы всегда анализируют связь показателей • Этими показателями могут быть – Различные переменные • Графики звисимостей/ переменных – Количество наблюдений в зависимости от значения • Графики распределения
Некоторые технические детали • Изображения делаются, чаще всего на компьютере • Два вида графики: – Растровая (точечная) – фактически, аналог фотографии – Векторная (описание линий и фигур) – фактически, специализированный язык • Проблемы – Растровая – разрешение должно быть публикационным, занимают много места – Векторная – на другом компьютере может интерпретироваться не правильно • Цветовая палитра – Надо помнить про конечный носитель • Черно-белый: надо делать штриховку • Цветной: как будет выполняться цветоделение
Форматы • Растровые – JPEG, TIFF, PNG, GIF • Векторные – WMF, CGM, EPS (? )
Графические методы для представления распределения данных • Качественные/ количественные – Распределение качественного показателя лучше описывать таблицами – Эмпирическое распределение количественного показателя
Эмпирическое распределение количественного показателя • • • Гистограмма Коробчатый график Ствол-с-листьями Точечный график График ядерной плотности График Каплана-Мейера
Гистограмма
Гистограмма
Коробчатый график (box plot). • Предложен Тьюки в рамках исследовательского анализа данных • В реальности комбинирует численные и графические методы • Базируется на оценке процентилей
Скелетный коробчатый график
Схематичный коробчатый график
График "ствол с листьями" (stem-and-leaf). • Также предложен Тьюки • Близкий родственник гистограммы • Позволяет на график вынести все имеющиеся данные, по этой причине наиболее информационно-насыщенный • Подходит для малых и средних групп
«Стебель с листьями» • Стебель – основная часть значения элемента, часть числа слева от десятичной точки • Листья – упорядоченная последовательность цифр (отброшенных, менее значимых) • Отображаются все значения данных • Используется для упорядочивания данных и выявления диапазона данных • Характеризует степень однородности данных Пример. Если заданы возраста людей, страдающих определенным заболеванием: 42, 44, 45, 51, 53, 56, 59, 60, 61, 62, 63, то их можно отобразить следующим образом: 4 2, 4, 5, 5 5 1, 3, 6, 9 6 0, 1, 2, 3
Ствол Лист # 7 8 1 7 0 1 6 5557 4 6 00000111123 11 5 556677788999 12 5 0000111122233344 16 4 555566667788899999 22 4 000113333334 12 3 566777788888899 15 3 00334 5 2 6 1 ----+----+-Multiply Stem. Leaf by 10**+1
The 2 3 3 4 4 5 5 6 6 7 decimal point is 1 digit(s) to the right of the | | 679 | 2223344 | 56777788899 | 001222223344 | 5566666777888999 | 0000011112222233444 | 5566667777778889 | 00011222334 | 566 | 03
Точечный гафик • Самостоятельно используется не часто, только если много наблюдений в классе (в принципе много наблюдений/ мало классов) • Фактически аналог ствола с листьями в случае, если шаг веток равен единице измерения.
График ядерной плотности (kernel density) • Улучшенный вариант гистограммы • Визуально позволяет лучше обнаружить асимметрию • Можно строить семейства графиков с разной степенью сглаживания
График Каплана-Мейера • Формально - вариант линейного графика – ступенчатого графика (представление дискретно меняющихся значений при помощи линейного графика) • Используется для представления оценки эмпирической кривой выживаемости по Каплану-Мейеру
График Каплана-Мейера
График Каплана-Мейера time<-c(9 , 13, 18, 23, 28, 31, 34, 45, 48, 161, 5, 5, 8, 8, 12, 16, 23, 27, 30, 33, 45) status<-c(1, 1, 0, 1, 1, 1, 0, 1, 1, 1) group<-c(rep(1, 11), rep(0, 12))
Методы представления связи • Две переменные, поэтому: – Количественная vs количественная – Количественная vs качественная – Качественная vs качественная
Количественная vs количественная • • Диаграмма рассеяния Двумерный график ядерной плотности Мешковидный график Линейные графики
Диаграмма рассеяния
График двумерной ядерной плотности (контурная карта)
График двумерной ядерной плотности (G 3 D)
Линейный график
Качественные vs. количественные • Столбиковые диаграммы средних • Линейные диаграммы средних • Лесной график (точнее, точечный график средних, «лесным» он становится в выборочной статистике) • Диаграмма-звезда/ паутина
Столбиковая диаграмма
Линейная диаграмма логарифма отношения шансов
Лесной график
Диаграмма-звезда
Качественные vs качественные • Столбиковые диаграммы количества – Аналог гистограмм • Новые типы – Четырехпольный график – Диаграмма-сито – Диаграмма-мозаика – Триплот
Новые типы графиков для качественных показателей • Базируются на понятии независимости строк и столбцов таблицы • Отражают связь • Легко расширяются для статистического тестирования – фактически основой построения графиков является методология оценки хи 2.
Четырехпольный график
Мозаика
Сито
Особые виды графиков • Картограммы – Карты в комбинации с точечными, столбиковыми диаграммами или кодирование цветом • Психометрические графики – Лица Чернова – MDS – Факторные нагрузки • Диагностические графики – ROC кривые