Скачать презентацию Статистические методы в QSAR Часть 1 Множественная линейная Скачать презентацию Статистические методы в QSAR Часть 1 Множественная линейная

Вопрос No.6_Статистические методы в QSAR - 1.ppt

  • Количество слайдов: 18

Статистические методы в QSAR Часть 1 Множественная линейная регрессия Статистические методы в QSAR Часть 1 Множественная линейная регрессия

Затронутые темы • Задача статистического анализа в QSAR • Множественная линейная регрессия • Статистические Затронутые темы • Задача статистического анализа в QSAR • Множественная линейная регрессия • Статистические показатели: R, s, F • Пошаговый вариант множественной линейной регрессии • Разбиение выборки на обучающую и контрольную • Процедура скользящего контроля

Задача статистического анализа в QSAR Целью статистического анализа в QSAR является поиск функции f, Задача статистического анализа в QSAR Целью статистического анализа в QSAR является поиск функции f, связывающей значение свойства y (которое может быть как физикохимическим свойством, так и биологической активностью) со значениями дескрипторов x 1, …, x. M, описывающих химическое соединение: Y непрерывное – регрессионный анализ, аппроксимация функции Y дискретное – дискриминантный анализ, классификация, распознавание образов

Задача статистического анализа в QSAR j=1, …, N Принцип максимального правдоподобия Задача статистического анализа в QSAR j=1, …, N Принцип максимального правдоподобия

Метод наименьших квадратов • Выборка является репрезентативной • Случайная величина ε имеет нормальное распределение Метод наименьших квадратов • Выборка является репрезентативной • Случайная величина ε имеет нормальное распределение • Наблюдения являются независимыми • Наблюдения являются равноточными

Множественная линейная регрессия – постановка задачи j = 1, …, N Найти такие значения Множественная линейная регрессия – постановка задачи j = 1, …, N Найти такие значения Ci:

Множественная линейная регрессия – решение задачи Регрессионные коэффициенты Экспериментальные значения свойства Значения дескрипторов Множественная линейная регрессия – решение задачи Регрессионные коэффициенты Экспериментальные значения свойства Значения дескрипторов

Статистические показатели для МЛР RSS – сумма квадратов остатков SS – дисперсия свойства Y Статистические показатели для МЛР RSS – сумма квадратов остатков SS – дисперсия свойства Y R – коэффициент корреляции Radj – скорректированный коэффициент корреляции O

Статистические показатели для МЛР RMSE – среднеквадратичное значение ошибки s – стандартное отклонение MAE Статистические показатели для МЛР RMSE – среднеквадратичное значение ошибки s – стандартное отклонение MAE – средняя абсолютная ошибка F – критерий Фишера

Статистические показатели для МЛР Показатели описательной способности линейной регрессионной модели Показатели прогнозирующей способности линейной Статистические показатели для МЛР Показатели описательной способности линейной регрессионной модели Показатели прогнозирующей способности линейной регрессионной модели R Radj RMSE s MAE F

Статистические показатели для МЛР Статистические показатели для МЛР

Статистические показатели для МЛР Статистические показатели для МЛР

Статистические показатели для МЛР Индивидуальный t-критерий (критерий Стьюдента) для дескриптора Статистические показатели для МЛР Индивидуальный t-критерий (критерий Стьюдента) для дескриптора

Необходимость отбора дескрипторов • Проблема мультиколлинеарности дескрипторов и сингулярности матрицы (XTX)-1 • Проблема переопределенности Необходимость отбора дескрипторов • Проблема мультиколлинеарности дескрипторов и сингулярности матрицы (XTX)-1 • Проблема переопределенности моделей • Внесение «шума» в модель нерелевантными дескрипторами

Пошаговый вариант множественной линейной регрессии Дескриптор включается в модель, если Дескриптор исключается из модели, Пошаговый вариант множественной линейной регрессии Дескриптор включается в модель, если Дескриптор исключается из модели, если Типичные значения порогов: FIN = 3. 84, FOUT = 2. 7

Разбиение выборки на обучающую и контрольную PRSSS - сумма квадратов остатков при прогнозе PSSS Разбиение выборки на обучающую и контрольную PRSSS - сумма квадратов остатков при прогнозе PSSS - дисперсия свойства y на контрольной выборке PRMSES - среднеквадратичная ошибка на прогнозе PMAES - средняя абсолютная ошибка на прогнозе Q 2 s - квадрат коэффициента корреляции на прогнозе

Процедура скользящего контроля (cross-validation) 1. При μ-кратном скользящем контроле исходная выборка разбивается на μ Процедура скользящего контроля (cross-validation) 1. При μ-кратном скользящем контроле исходная выборка разбивается на μ приблизительно равных частей 2. Каждая из этих частей по очереди объявляется контрольной выборкой 3. Для нее формируется обучающая выборка, состоящая из всех соединений из исходной выборки, в нее не входящих 4. По обучающей выборке строится регрессионная модель 5. По текущей контрольной выборке вычисляется сумма квадратов ошибок PRSSs и сумма абсолютных ошибок PSAEs 6. Пункты 2 -5 повторяются для всех μ частей

Процедура скользящего контроля – статистические показатели RMSECV - среднеквадратичная ошибка прогноза MAECV - средняя Процедура скользящего контроля – статистические показатели RMSECV - среднеквадратичная ошибка прогноза MAECV - средняя абсолютная ошибка прогноза Q 2 CV – коэффициент корреляции для прогноза