АЛГОРИТМ CART
ЗМІСТ • Дерева рішень. Загальні поняття • Поняття алгоритму CART • Суть алгоритму • Правила розбиття • Механізм відсікання дерева • Приклад реалізації дерева рішень за даним алгоритмом • Переваги та недоліки алгоритму • Використання алгоритму
ЗАГАЛЬНІ ПОНЯТТЯ • Інтелектуальний аналіз даних - це процес аналізу даних з різних точок зору і узагальнення їх у корисну інформацію, яка може бути використана для збільшення доходів, скорочення витрат, або те й інше. • Класифікація — одна з головних задач Data mining, основною задачею якої є розподілення об'єктів за класами відповідно до визначених ознак. • Дерево прийняття рішень (також можуть називатися деревами класифікацій або регресійними деревами) — метод побудови прогнозних моделей, що широко використовується в інтелектуальному аналізі даних.
ПОНЯТТЯ АЛГОРИТМУ CART • В алгоритмі CART кожен вузол дерева рішень має двох нащадків. На кожному кроці побудови дерева правило, формується в вузлі, ділить заданий безліч прикладів (навчальну вибірку) на дві частини - частина, в якій виконується правило (нащадок - right) і частина, в якій правило не виконується (нащадок - left). Для вибору оптимального правила використовується функція оцінки якості розбиття.
ПРАВИЛА РОЗБИТТЯ • Поділ джерела даних. Після того, як знайдено найкращу інформацію для розбивання, необхідно розділити джерело даних відповідно до правила формованого вузла і рекурсивно викликати процедуру побудови для двох половинок джерела даних.
МЕХАНІЗМ ВІДСІКАННЯ ДЕРЕВА • Механізм відсікання дерева - найбільш серйозна відмінність алгоритму CART від інших алгоритмів побудови дерева. CART розглядає відсікання як отримання компромісу між двома проблемами: отримання дерева оптимального розміру і отримання точної оцінки ймовірності помилкової класифікації. • Базова ідея методу - не розглядати всі можливі піддерева, обмежившись лише "кращими представниками" згідно формули. • Позначимо | T | - Число листів дерева, R (T) - помилка класифікації дерева, що дорівнює відношенню числа неправильно класифікованих прикладів до числа прикладів в навчальній вибірці. Визначимо Cα (T) - повну вартість (оцінку / показник витрати-складність) дерева Т як: