АНАЛИЗ ДАННЫХ.pptx
- Количество слайдов: 49
АНАЛИЗ ДАННЫХ
Обработка фактического материала в любом исследовании является самой главной частью. Каким бы современным и обширным набором для анализа (приборным, программным, методическим), мы не обладаем, решающими остаются: ü до статочный набор фактического материала, ü его полнота, ü репрезентативность. И напротив, если мы не способны обработать накопленную информацию, то ника кое ее обилие и разнообразие не дадут возможность надлежащим образом интерпретировать полученные данные. Основным способом обработки полученной информации является их статистическая обработка.
ОСНОВНЫЕ ЭТАПЫ РАБОТЫ С ДАННЫМИ Ø Ø Ø Сбор первичных данных для анализа Ввод данных в компьютер Преобразование данных Визуализация данных Статистический анализ Интерпретация и представление результатов
СБОР ПЕРВИЧНЫХ ДАННЫХ ДЛЯ АНАЛИЗА • Наблюдая и измеряя характеристики объекта, мы собираем первичный статистический материал. • Дальнейшая задача состоит в выдвижении статистической гипотезы на основании темы и цели исследования.
ВВОД ДАННЫХ В КОМПЬЮТЕР • Данные исследований необходимо ввести в компьютер и сохранить. • Ввод данных может осуществляться ручным набором чисел с клавиатуры или же экспортом из файла в каком либо формате. • Введенные данные обычно отображаются в форме электронной таблицы или матрицы данных, где столбцы представляют различные переменные (рост, вес, цвет глаз), а строки – измерения значений этих переменных.
ВИДЫ ДАННЫХ (ПРИЗНАКОВ) • УЧЕТНЫЕ ПРИЗНАКИ — признаки, подлежащие регистрации в ходе статистического исследования (пол, возраст, профессия пациента, стаж работы). • Особенностью большинства учетных признаков в медико биологических исследованиях является их вероятностный, случайный характер. • Случайный характер учетных признаков объясняется индивидуальными особенностями анатомических, физиологических и других характеристик.
• Например: o уровень артериального давления даже у одного человека может колебаться в определенных пределах. o величина роста человека изменяется в течение суток. К вечеру она несколько меньше, чем утром. Причем эти изменения у каждого индивидуальны. Даже если тот или иной учетный признак является вполне определенным (пол, возраст и т. п. ), эти характеристики в массе единиц наблюдений распределяются, как правило, случайно.
ПРИЗНАКИ
ПРЕОБРАЗОВАНИЕ ДАННЫХ • Проводится группировка данных, т. е. распределение их на однородные группы в соответствии с признаками. • Данные в каждой группе упорядочиваются классифицируются, сортируются, структурируются, подсчитывается частота событий. • Нередко также требуется удаление из введенных данных высокоамплитудных значений, которые могут быть результатом некорректных измерений или замена пропущенных (неизмеренных) значений.
ВИЗУАЛИЗАЦИЯ ДАННЫХ ПРОЦЕСС ПРЕДСТАВЛЕНИЯ ДАННЫХ В НАГЛЯДНОЙ ФОРМЕ. Для этого можно использовать: ü табличное представление, ü различ ные формы графического изображения. Причина необходимости визуализации: человек часто на много более продуктивно и быстро воспринимает информацию в виде зрительных образов.
ВИДЫ ГРАФИКОВ 1. Линейный график – передает изменения в некоторых мерных числах, например, изменение среднего возраста пациентов в отделении, среднего количества проведенных исследований. 2. Гистограмма – представляет собой разновидность графика в котором по оси “Y” откладываются частотные (интервальные) значения какой-либо группировки, в результате чего график становится “ступенчатым”.
ВИДЫ ГРАФИКОВ 3. Полигон частот – на базе полигона частот строится гистограмма, разница между ними заключается в том, что в полигоне частота интервала сведена к его центру, а при гистограмме частоты изображают равномерно в пределах всего интервала. 4. Кумулятивный график частоты (накопляющее распределение частоты) – частота отдельных интервалов совокупности рассматривается кумулятивно, то есть к частоте каждого интервала прибавляются частоты всех предыдущих интервалов.
ВИДЫ ГРАФИКОВ 5. Диаграммы сопоставляют количественную информацию в виде площадей различных фигур (круг, прямоугольник, сектор, цилиндр, пузырьки и др. )
ПРАВИЛА ПОСТРОЕНИЯ ГРАФИКОВ 1. Необходимо провести тщательный отбор из имеющегося цифрового статистического материала тех данных, которые будут изображены на графике (далеко не все полученные данные следует изображать графически). 2. Выбрать тот вид графика, который наиболее ярко будет отражать полученные данные. 3. Название графика должно быть ясным и полным, отражающим содержание и имеющим при необходимости особые пояснения. 4. Надписи и легенда располагаются, как правило, в нижней или правой части диаграммы. 5. Цифры шкалы следует наносить слева и снизу или вдоль осей.
6. Горизонтальную шкалу (по оси абсцисс) необходимо строить слева направо, вертикальную (по оси ординат) снизу вверх. 7. Если числовые данные не включены в диаграммы, желательно их представить рядом в табличной форме. 8. Густота координатной сетки должна быть оптимальной, не затрудняющей чтения графика. 9. Допускается количество различных цветов на графике не более трех. 10. Если графики отражают серию наблюдений, рекомендуется ясно обозначать все точки, соответствующие отдельным наблюдениям.
СТАТИСТИЧЕСКИЙ АНАЛИЗ это статистическая обработка полученных количественных данных, заключающаяся в вычислении статистических характеристик и оценок, позволяющих проверить нулевую гипотезу.
ВИДЫ ГИПОТЕЗ используют дихотомические гипотезы: нулевая и альтернативная. • Но – нулевая, гипотеза отсутствия различий, изменений, эффектов воздействия на совокупность. • Её математический смысл состоит в том, что Хср. 1 – Хср. 2→ 0, т. е. различие между выборками стремится к нулю. • Принятие нулевой гипотезы можно выразить такими словами: «Достоверных различий между выборками не обнаружено»
ВИДЫ ГИПОТЕЗ • НА (Н 1) – альтернативная, гипотеза о наличии различий, изменений, эффектов при воздействии на совокупность. • Её смысл заключается в том, что различия между выборками есть и что они достоверны. • Если отвергли нулевую гипотезу, то следует принять альтернативную.
УРОВЕНЬ ЗНАЧИМОСТИ это вероятность того, что мы сочли различия существенными, в то время как они на самом деле случайны. уровень значимости имеет дело с вероятностью • Уровень значимости показывает степень достоверности выявленных различий между выборками, т. е. показывает, насколько мы можем доверять тому, что различия действительно есть.
1 -й уровень значимости: р ≤ 0, 05 Это 5% ный уровень значимости. До 5% составляет вероятность того, что мы ошибочно сделали вывод о том, что различия достоверны, в то время как они недостоверны на самом деле. Можно сказать и по другому: мы лишь на 95% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0, 95. Общий смысл критерия останется тем же.
2 -й уровень значимости: р ≤ 0, 01 Это 1% ный уровень значимости. Вероятность ошибочного вывода о том, что различия достоверны, составляет не более 1%. Можно сказать и по другому: мы на 99% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0, 99. Смысл останется тем же.
3 -й уровень значимости: р ≤ 0, 001 Это 0, 1% ный уровень значимости. Всего 0, 1% составляет вероятность того, что мы сделали ошибочный вывод о том, что различия достоверны. Это — самый надёжный вариант вывода о достоверности различий. Можно сказать и по другому: мы на 99, 9% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0, 999. Смысл опять таки останется тем же.
ИНТЕРПРЕТАЦИЯ И ПРЕДСТАВЛЕНИЕ РЕЗУЛЬТАТОВ • Самая сложная задача интерпретации полученного и обработанного фактического материала. • Хорошо обра ботанные материалы, упорядоченные и оформленные в таблицы, статистические диаграммы могут служить ба зой для выводов.
• Однако, без всестороннего обсуждения, выво ды будут мало или вовсе необоснованными и неубедитель ными Из поля зрения могут выпасть. ценные характеристики фактиче ского материала, которые невидимы, то есть визуально не просматриваются, но существенно влияют на выводы. • Основная цель интерпретации — выявление и фиксиро вание комплекса характеристик обработанного материа ла, на основе которых открывается возможность обнару жить и объяснить основные тенденции и сформулировать выводы.
ДИАГНОСТИЧЕСКАЯ СПЕЦИФИЧНОСТЬ И ЧУВСТВИТЕЛЬНОСТЬ ТЕСТА
Применяя тот или иной метод диагностики, лечащий врач часто хотел бы знать с какой вероятностью можно доверять методу. Самый лучший метод, с точки зрения лечащего врача, должен иметь 100% надежность, хотя по абсолютному большинству заболеваний уровень науки и техники пока не позволяет создать такие методы. Для того, чтобы формализовать практическую ценность различных методов диагностики, были введены понятия ЧУВСТВИТЕЛЬНОСТИ и СПЕЦИФИЧНОСТИ диагностики – важнейших характеристик теста.
• ЧУВСТВИТЕЛЬНОСТЬ это доля всех больных, которых можно выявить с помощью диагностического метода. o Хороший метод должен выявлять большую долю больных. • СПЕЦИФИЧНОСТЬ способность метода не выявлять "болезни" у людей, у которых её нет. o Хороший метод дает ложно положительные результаты редко.
ü Если у теста высокая чувствительность, то по его отрицательному результату можно надежно исключить подозреваемую болезнь. При обследовании таким тестом группы людей невозможно пропустить больных. ü Если у теста высокая специфичность, то его положительный результат (его почти никогда не бывает у здоровых!) дает основания включить подозреваемую болезнь в дальнейшую дифференциальную диагностику. При обследовании группы людей таким тестом получают положительные результаты с высокой вероятностью только у больных.
Для проверки нового метода диагностики необходимо использовать методы «золотого стандарта» , которые дают максимально положительный результат при диагностике соответствующей патологии у пациента. Например, «золотым стандартом» для диагностики рака является гистопатологическое подтверждение рака в образцах, полученных при хирургическом вмешательстве. На начальном этапе вычисления диагностической специфичности и чувствительности теста результаты исследований необходимо расположить в соответствии с таблицей …
Распределение результатов исследований РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ ОБСЛЕДУЕМЫЕ ВСЕГО ПОЛОЖИТЕЛЬНЫЕ + ОТРИЦАТЕЛЬНЫЕ - БОЛЬНЫЕ (Б) + Истинно (ИП) + + Ложно (ЛО) + - ИП + ЛО НЕБОЛЬНЫЕ (НБ) - Ложно (ЛП) - + Истинно (ИО) - - ЛП + ИО ВСЕГО ИП + ЛП ЛО + ИО ИП + ЛО + ИО
Причем … категория НЕБОЛЬНЫХ (НБ) обследуемых подразумевает здоровых людей либо больных другими болезнями. Положительный результат лабораторного теста у БОЛЬНЫХ (Б) определенным заболеванием рассматривается как ИСТИННО ПОЛОЖИТЕЛЬНЫЙ (ИП), у небольных – как ЛОЖНО ПОЛОЖИТЕЛЬНЫЙ (ЛП). Отрицательный результат лабораторного теста у больных определенным заболеванием рассматривается как ЛОЖНО ОТРИЦАТЕЛЬНЫЙ (ЛО), у небольных – как ИСТИННО ОТРИЦАТЕЛЬНЫЙ (ИО).
Затем вычисляют следующие показатели, характеризующие эффективность применения лабораторного исследования при определенном заболевании: Диагностическая чувствительность (ДЧ) Диагностическая специфичность (ДС) Диагностическая эффективность теста (ДЭ) Прогностическая (предсказательная) значимость положительных результатов (ПЗ+) • Прогностическая (предсказательная) значимость отрицательных результатов (ПЗ-) • •
Диагностическая чувствительность (ДЧ) теста •
Диагностическая специфичность (ДС) теста •
Диагностическая эффективность теста (ДЭ) •
Прогностическая (предсказательная) значимость положительных результатов (ПЗ+) •
Прогностическая (предсказательная) значимость отрицательных результатов (ПЗ-) •
ЗАДАНИЕ: • СОЗДАЙТЕ В ЭЛЕКТРОННОМ ВИДЕ И ЗАПОЛНИТЕ ТАБЛИЦУ № 1 С ИСХОДНЫМИ ЗНАЧЕНИЯМИ ПО РЕЗУЛЬТАТАМ ТЕСТОВ • СОЗДАЙТЕ В ЭЛЕКТРОННОМ ВИДЕ ТАБЛИЦУ № 2 С ВЫЧИСЛЯЕМЫМИ ПОКАЗАТЕЛЯМИ ТЕСТОВ • РАССЧИТАЙТЕ ПОКАЗАТЕЛИ: ПЗ+ и ПЗ • ПОЛУЧЕННЫЕ РЕЗУЛЬТАТЫ ЗАПИШИТЕ В ТЕТРАДЬ • ВЫБИРИТЕ И ЗАПИШИТЕ В ТЕТРАДЬ: 1) ВЫСОКОСПЕЦИФИЧНЫЙ(Е) ТЕСТ(Ы) 2) ВЫСОКОЧУВСТВИТЕЛЬНЫЙ(Е) ТЕСТ(Ы) (свои выводы объясните)
Корреляционный анализ
• Корреляционный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. • Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине. • Коэффициент корреляции, всегда обозначаемый латинской буквой r, используется для определения наличия взаимосвязи между двумя свойствами.
Шкала Чеддока (корреляция и сила связи)
ЗАДАНИЕ: • СОЗДАЙТЕ В ЭЛЕКТРОННОМ ВИДЕ И ЗАПОЛНИТЕ ТАБЛИЦУ № 1 С ИСХОДНЫМИ ЗНАЧЕНИЯМИ • Используя надстройку «Анализ данных» в MS Excel рассчитайте значения корреляции • Проведите расчет значения корреляции с помощью программ: Open. Off. calc и Gnumeric • ПОЛУЧЕННЫЕ РЕЗУЛЬТАТЫ ЗАПИШИТЕ В ТЕТРАДЬ • ВЫБИРИТЕ И ЗАПИШИТЕ В ТЕТРАДЬ: Показатели, между которыми высокая сила связи Показатели, между которыми слабая сила связи (свои выводы объясните)
РЕГРЕССИЯ
Анализ данных – Регрессия • Входной интервал Y – зависимая переменная • Входной интервал X – независимая переменная • Выходной интервал ü Остатки ü Нормальное распределение
УРАВНЕНИЕ РЕГРЕССИИ • Y=a + b∙x Для расчета прогноза необходимо подставить в общее уравнение значения, полученные при расчете с помощью блока «Анализ данных – Регрессия» a = Коэффициент – Y пересечения b = Коэффициент – Переменная X 1
ИНТЕРПРЕТАЦИЯ • «Множественный R» это значение коэффициента корреляции r. Сравнивается со шкалой интервалов коэффициента корреляции и силы связи. • R 2 – показывает, какая часть зависимой переменной (переменной Y) объясняется уравнением регрессии. Необходимо перевести в %. Например: «Таким образом, можно утверждать, что в соответствии с уравнением регрессии …% вариаций показателя 1 объясняются изменением показателя 2. »
ЗАДАНИЕ: • СОЗДАЙТЕ В ЭЛЕКТРОННОМ ВИДЕ И ЗАПОЛНИТЕ ТАБЛИЦУ С ИСХОДНЫМИ ЗНАЧЕНИЯМИ • Используя надстройку «Анализ данных» «Регрессия» в MS Excel • Выделите заливкой блоки необходимые для дальнейшей подстановки в поле «ПРОГНОЗ» • Сделайте выводы о полученных результатах. • ПОЛУЧЕННЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ ЗАПИШИТЕ В ТЕТРАДЬ
ЛИТЕРАТУРА: • С. Гланц «Медико-биологическая статистика» . – М. : Практика, 1999 • Б. А. Кобринский, Т. В. Зарубина «Медицинская информатика» . – М. : Академия, 2009 • Н. В. Макарова «Информатика. Практикум по технологии работы на компьютере» (2 т. ). – М. : Финансы и статистика, 2005 • В. П. Омельченко, А. А. Демидова «Практикум по медицинской информатике» . – Ростов-на-Дону. : Феникс, 2001
СПАСИБО ЗА ВНИМАНИЕ!
АНАЛИЗ ДАННЫХ.pptx