c466baf1a0a3cf69a15d9606e9b5df9c.ppt
- Количество слайдов: 19
Задача поиска неточностей в электронной коллекции судебных актов Рогов А. А. , Сидоров Ю. В. , Бурлак И. Л. Петрозаводский государственный университит
Структура Арбитражных судов РФ n Арбитражные суды субъектов федерации n Арбитражные апелляционные суды n Федеральные арбитражные суды округов n Высший арбитражный суд Российской Федерации
Виды судебных документов n Судебные определения n Судебные решения n Судебные постановления
Сайты q q q Арбитражный суд РК Высший арбитражный суд Российской Федерации Петрозаводский городской суд
Судебное решение
Структура судебного решения Решение состоит из: n Вводная часть - набор атрибутов дела (номер дела, судья) n Описательная и мотивировочная части - набор фактов в текстовом виде (начинается со слов «установил: …» ) n Резолютивная часть или судебное решение (начинается со слов «Решил: …» )
Особенности n Наличие определенной структуры построения всего текста и отдельных предложений n Ограниченность языка и возможность использования словаря судебных терминов n 2 основных субъекта отношений n Возможен анализ текста при помощи базы статей кодекса (Ко. АП, АПК)
Цель работы: Разработать алгоритм(ы) проверки корректности отнесения того или иного судебного акта к определенной категории спора (классу) и проверки однозначности решений похожих дел. Категории судебных споров: n Агентирование n Административная ответственность n Аренда n Банкротство n Залог n Заем n …
Для решения поставленной задачи требуется реализовать прототип программного продукта, который будет обладать следующим функционалом: o Поиск в банках судебных решений (http: //ras. arbitr. ru) o Предварительная обработка o Извлечение информации o Применения алгоритмов анализа текста o Интерпретация полученных результатов
Предварительная обработка n Определение частей документа n Удаление стоп-слов n Стэмминг n Приведение к НФ n Выделение ключевых слов на основе судебного словаря n Выделение номеров статей кодекса
Задача классификации § § § Множество категорий: Множество документов: Неизвестная целевая функция Некоторая начальная коллекция размеченных документов разделена на обучающую и проверочную выборки Необходимо построить классификатор Ф’, максимально близкий к Ф
Классификация на основе словаря. Уменьшение размерности. n n Отбрасываются служебные слова Вместо отдельных слов брать группы слов и словосочетания Отбрасываются «непоказательные» слова Использовать только судебный словарь
Индексация документов n n Каждый текст представляется как вектор термов: Ti = {w 1, w 2, …, wn} wi – частота (или количество) встречаемости или вес слова (TF * IDF) категория / слово Слово 1 Слово 2 Слово 3 Агентирование 0. 2 0. 5 0. 1 Административная 0 ответственность 0. 3 0. 1 Аренда 0. 2 0. 15 … 0. 1 …
Байесовский классификатор Категория 1 Категория 2 Процент правильного определения (%) 80 60 Категория 3 80 Категория 4 Категория 5 60 40
Классификация на основе статей Частотная матрица категория / статья Статья 1 Статья 2 Статья 3 Агентирование 0. 2 0. 5 0. 1 Административная 0 ответственность 0. 3 0. 1 Аренда 0. 2 0. 15 … 0. 1 …
Смешанная классификация Классификация и на основе словаря и на основе статей (задавая весовые коэффициенты между обоими вариантами классификации).
Варианты формализации похожих судебных решений Фактологическая часть судебного решения Факт 1 Факт 2 Факт 3 …. Факт N
Подходы определяется - мера вины Тогда g(Di) – общая мера вины по делу Di
Спасибо за внимание
c466baf1a0a3cf69a15d9606e9b5df9c.ppt