
КТвМ часть3 Графический анализ.ppt
- Количество слайдов: 14
Владимирский государственный университет Кафедра биомедицинской инженерии Электронное средство обучения по дисциплине Компьютерные технологии в медицине Лекции часть 3 Исаков Роман Владимирович
Тема 3 Графический анализ данных
Введение в графический анализ данных Первая задача, которая обычно возникает при статистической обработке данных заключается в том, чтобы описать свойства изучаемого явления в наиболее компактном и информативном виде. Такое описание является основой для дальнейшего аналитического исследования. Классический способ такого описания - сведение всего множества измеренных значений к небольшому числу обобщенных характеристик - так называемых описательных статистик. Графическое представление изучаемой совокупности наблюдений до недавнего времени являлось лишь дополнением к такому обобщенному представлению данных. C широким внедрением компьютеров в экспериментальную и практическую медицину графические методы анализа стали использоваться "на равных" с аналитическими методами на всех стадиях обработки данных графические методы анализа данных могут даже служить достойной заменой описательных статистик, особенно если речь идет о стадии первоначального ознакомления с данными. Отображая данные на графиках обычно преследуют две цели - с одной стороны необходимо выявить общую тенденцию в распределении данных, сгладив второстепенные детали, - с другой стороны - сконцентрировать внимание на особенностях поведения изучаемой характеристики.
Основные типы графиков В зависимости от вида маркеров данных, их размещения относительно координатных осей и типа отображаемых данных различают несколько типов графиков. Наиболее часто используемыми графиками являются • гистограммы частот, • "ящик с усами", • круговые диаграммы, • диаграммы рассеяния.
Гистограмма является графическим представлением распределения частот выбранных переменных, на которой каждому интервалу переменной соответствует маркер данных - столбец, высота которого пропорциональна частоте наблюдений, попадающих в этот интервал. Гистограмма частот более эффективна на этапе оценки закона распределения данных чаще всего используется для проверки соответствия изучаемой выборки данных нормальному закону распределения.
Гистограмма
Ящик с усами На диаграммах типа «ящик с усами» вокруг средней точки, отображающей значение некоторой меры центральной тенденции (обычно, среднего или медианы) рисуются две фигуры - прямоугольник ("ящик") и пара отрезков с планками на концах ("усы"). Эти фигуры представляют две меры разброса изучаемой величины, например, стандартной ошибки и стандартному отклонению соответственно. Основное назначение "ящика" - заострить внимание исследователя на расположении мер центральной тенденции и разброса изучаемой характеристики в разных группах наблюдений для их сравнения.
Круговая диаграмма обычно используется при изучении распределения в выборке качественных показателей. На этих графиках пропорции отдельных значений представлены круговыми секторами. Количество возможных значений изучаемого показателя не должно быть слишком большим, иначе диаграмма будет состоять из множества секторов с малой угловой величиной, которые трудно между собой сравнивать.
Круговая диаграмма
Диаграммы рассеяния обычно используются для выявления природы взаимосвязи двух переменных, поскольку они предоставляют гораздо больше информации, чем коэффициент корреляции. Например, неоднородность выборки, по которой рассчитываются корреляции, может привести к искажению значений коэффициента корреляции. Такой график поможет прояснить структуру взаимосвязей между переменными X и Y внутри подгруппы.
Выбросы • Выбросы - это нетипичные наблюдения, которые существенно отклоняются от распределения остальных выборочных данных. • Выбросы могут отражать истинные свойства изучаемого явления (переменной), а могут быть связаны с ошибками измерения или аномальными явлениями, и поэтому не должны включаться в модель. • Выбросы могут оказывать существенное влияние на угол наклона линии регрессии и, соответственно, на коэффициент корреляции. • Выбросы могут не только искусственно увеличить коэффициент корреляции, но могут также и уменьшить степень "реальной" зависимости. "Неявные" выбросы • При сравнительно малом объеме выборки включение или исключение "неявных"выбросов может также существенно изменить линию регрессии и коэффициент корреляции. Однако здесь, вполне вероятно, что исключаемые точки вовсе не являются выбросами, а представляют собой "крайние" точки.
Использование трёхмерных графиков Большинство современных программных средств позволяют строить двух- и трехмерные графики. Следует отметить, что последние, несмотря на свою внешнюю привлекательность обладают меньшей "чувствительностью" к небольшим различиям в размерах графических меток. Использование объемных графиков может быть полезным на самом последнем этапе работы с данными презентации результатов работы, когда на первый план выступает фактор "социального одобрения".
Проверка нормальности эмпирического распределения Обычно исследователя интересует, насколько точно эмпирическое распределение можно аппроксимировать нормальным. Некоторую информацию об этом дают даже простые описательные статистики, такие как асимметрия и эксцесс. Например, если асимметрия (показывающая отклонение распределения от симметричного) существенно отличается от 0, то распределение несимметрично, в то время как нормальное распределение абсолютно симметрично. У симметричного распределения коэффициент асимметрий равен 0. Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то коэффициент асимметрии отрицателен. Если эксцесс (показывающий "остроту пика" распределения) существенно отличен от 0, то распределение имеет или более закругленный пик, чем нормальное, или, напротив, имеет более острый пик (возможно, имеется несколько пиков). Обычно, если эксцесс положителен, то пик заострен, если отрицательный, то пик закруглен. Эксцесс нормального распределения равен 0. Выход показателя асимметрии или эксцесса за пределы интервала [-2; 2] свидетельствует о явном отклонении эмпирического распределения от нормального закона.
Проверка нормальности эмпирического распределения Ни один из аналитических методов не может заменить визуальную проверку с помощью графика, показывающего частоту попаданий значений переменной в отдельные интервалы числовой оси - то есть гистограммы. Для повышения эффективности проверки на гистограмму можно "наложить" кривую нормального распределения. Гистограмма позволяет качественно вид распределения параметра.
КТвМ часть3 Графический анализ.ppt