Вопрос No.6_Статистические методы в QSAR - 1.ppt
- Количество слайдов: 18
Статистические методы в QSAR Часть 1 Множественная линейная регрессия
Затронутые темы • Задача статистического анализа в QSAR • Множественная линейная регрессия • Статистические показатели: R, s, F • Пошаговый вариант множественной линейной регрессии • Разбиение выборки на обучающую и контрольную • Процедура скользящего контроля
Задача статистического анализа в QSAR Целью статистического анализа в QSAR является поиск функции f, связывающей значение свойства y (которое может быть как физикохимическим свойством, так и биологической активностью) со значениями дескрипторов x 1, …, x. M, описывающих химическое соединение: Y непрерывное – регрессионный анализ, аппроксимация функции Y дискретное – дискриминантный анализ, классификация, распознавание образов
Задача статистического анализа в QSAR j=1, …, N Принцип максимального правдоподобия
Метод наименьших квадратов • Выборка является репрезентативной • Случайная величина ε имеет нормальное распределение • Наблюдения являются независимыми • Наблюдения являются равноточными
Множественная линейная регрессия – постановка задачи j = 1, …, N Найти такие значения Ci:
Множественная линейная регрессия – решение задачи Регрессионные коэффициенты Экспериментальные значения свойства Значения дескрипторов
Статистические показатели для МЛР RSS – сумма квадратов остатков SS – дисперсия свойства Y R – коэффициент корреляции Radj – скорректированный коэффициент корреляции O
Статистические показатели для МЛР RMSE – среднеквадратичное значение ошибки s – стандартное отклонение MAE – средняя абсолютная ошибка F – критерий Фишера
Статистические показатели для МЛР Показатели описательной способности линейной регрессионной модели Показатели прогнозирующей способности линейной регрессионной модели R Radj RMSE s MAE F
Статистические показатели для МЛР
Статистические показатели для МЛР
Статистические показатели для МЛР Индивидуальный t-критерий (критерий Стьюдента) для дескриптора
Необходимость отбора дескрипторов • Проблема мультиколлинеарности дескрипторов и сингулярности матрицы (XTX)-1 • Проблема переопределенности моделей • Внесение «шума» в модель нерелевантными дескрипторами
Пошаговый вариант множественной линейной регрессии Дескриптор включается в модель, если Дескриптор исключается из модели, если Типичные значения порогов: FIN = 3. 84, FOUT = 2. 7
Разбиение выборки на обучающую и контрольную PRSSS - сумма квадратов остатков при прогнозе PSSS - дисперсия свойства y на контрольной выборке PRMSES - среднеквадратичная ошибка на прогнозе PMAES - средняя абсолютная ошибка на прогнозе Q 2 s - квадрат коэффициента корреляции на прогнозе
Процедура скользящего контроля (cross-validation) 1. При μ-кратном скользящем контроле исходная выборка разбивается на μ приблизительно равных частей 2. Каждая из этих частей по очереди объявляется контрольной выборкой 3. Для нее формируется обучающая выборка, состоящая из всех соединений из исходной выборки, в нее не входящих 4. По обучающей выборке строится регрессионная модель 5. По текущей контрольной выборке вычисляется сумма квадратов ошибок PRSSs и сумма абсолютных ошибок PSAEs 6. Пункты 2 -5 повторяются для всех μ частей
Процедура скользящего контроля – статистические показатели RMSECV - среднеквадратичная ошибка прогноза MAECV - средняя абсолютная ошибка прогноза Q 2 CV – коэффициент корреляции для прогноза


