eea0e8ae25361ac8ab9cf0540ebc4e07.ppt
- Количество слайдов: 28
WUT TWG 2005 WEDT Klasyfikacja dokumentów Wykład 8 Piotr Gawrysiak pgawrysiak@supermedia. pl 2005
Grupowanie (clustering) WUT TWG 2005
Klasyfikacja (categorization) Klasa B Klasa A Klasa C WUT TWG 2005
Ocena efektywności algorytmów kategoryzacji kategoryzacja jest problemem zbliżonym do wyszukiwania informacji (IR) DB DB – baza dokumentów dr – dokumenty relewantne ds ds – dokumenty uznane przez system za relewantne dr PR – precision, R – recall, A – accuracy, FO – fallout WUT TWG 2005
Kategoryzacja binarna WUT TWG 2005 • Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. • Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym. • Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. • Zaszumienie określa z kolei prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest.
WUT TWG 2005 Rozszerzenie dla wielu klas M={M 1, M 2, . . . , Ml} Mk Makro-uśrednianie PR={PR 1, PR 2, . . . , PRl} Mikro-uśrednianie
Przykład oceny Wyniki działania czterech systemów kategoryzacji: Ocena systemów według przedstawionych wskaźników: WUT TWG 2005
WUT TWG Reprezentacje dokumentów 2005 w istocie są niemal tożsame z modelami języka Zliczanie słów • reprezentacje unigramowe (bag-of-words) • binarne • częstościowe Zliczanie sekwencji słów • reprezentacja n-gramowe • reprezentacje mieszane (Katz backoff style) Rozkłady prawdopodobieństwa wyst. słów • reprezentacje pozycyjne
WUT TWG 2005 Reprezentacje unigramowe Niech dany będzie dokument D=(w 1, w 2, . . . , z 1, . . . , wn, zm). Unigramową reprezentacją binarną dokumentu D nazywamy wektor R taki, że: Niech dany będzie dokument D=(w 1, w 2, . . . , z 1, . . . , wn, zm). Unigramową reprezentacją częstościową dokumentu D nazywamy wektor R taki, że:
Reprezentacje bazujące na modelu Markowa • n-gramowe • mieszane WUT TWG 2005 „I would like to make phone. . . ” Niech dany będzie dokument D=(w 1, w 2, . . . , z 1, . . . , wo, zm). Reprezentacją ngramową dokumentu D nazywamy macierz M taką, że: 1) kolejne wiersze x macierzy odpowiadają kolejnym wariacjom rx obejmującym n-1 słów ze słownika V 2) kolejne kolumny y macierzy odpowiadają kolejnym słowom vy ze słownika V 3) elementy macierzy przyjmują wartości:
WUT TWG 2005 Budowanie reprezentacji n-gramowej Przykład – bigram dla tekstu: Twas brillig, and the slithy toves Did gyre and gimble in the wabe
WUT TWG 2005 Reprezentacja pozycyjna
WUT TWG 2005 Budowanie reprezentacji pozycyjnej Niech dany będzie dokument D=(w 1, w 2, . . . , z 1, . . . , wn, zm). Reprezentacją pozycyjną dokumentu D nazywamy dwójkę (F, S) gdzie F jest zbiorem funkcji gęstości rozkładu słów f. Vi o następujących własnościach: 1) dziedziną funkcji f. Vi jest zbiór {1. . . n} 2) wartości funkcji f. Vi określone są następująco: 2 r k f(k)=2 (przed norm. ) Wystąpienia słów
Przykłady funkcji gęstości WUT TWG 2005
WUT TWG 2005 Przetwarzanie reprezentacji dokumentów • Powiększanie rozmiaru reprezentacji • Różne metody wygładzania • Ograniczanie rozmiaru reprezentacji • Funkcje istotności atrybutów • Wybór atrybutów • Przekształcanie przestrzeni atrybutów
Po co ograniczać rozmiar reprezentacji? Prawo Zipfa „Hapax legomena” WUT TWG 2005
WUT TWG DMG Attribute selection 2005 NOV 2001 Statistical tests can be also applied to check if a feature – class correlation exists AAC A BCB CB CA Class 1 and A – significant Class 2 and B – significant C – not important for class separation problem
WUT TWG Ograniczanie wielkości reprezentacji 2005 „Uniwersalne” funkcje istotności atrybutów Funkcje istotności atrybutów – rodzina TF/IDF term frequency tfi, j – określa częstość wystąpień atrybutu wi w dokumencie dj document frequency dfi – określa liczbę dokumentów w których występuje atrybut wi N – określa liczbę wszystkich dokumentów w systemie Atrybut w jednym dokumencie Atrybut we wszystkich dokumentach Funkcje istotności atrybutów - analiza funkcji gęstości Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1.
WUT TWG Korelacja atrybut-klasa 2005 Testy statystyczne mogą być zastosowane AAC A BCB CB CA Klasa 1 i A – istotny Klasa 2 i B – istotny C – nieistotny dla separacji klas
WUT TWG Funkcje istotności atrybutów – Information Gain określa, które atrybuty są tymi, które w najlepszy sposób różnicują klasy ze zbioru trenującego 2005
Przekształcanie przestrzeni atrybutów Grupowanie semantyczne Bezpośrednia analiza macierzy reprezentacji (SVD) Grupowanie wg zależności atrybut-klasa Grupowanie wg podobieństwa funkcji gęstości WUT TWG 2005
WUT TWG Kategoryzacja dokumentów o bogatej strukturze 2005 Atrybuty nie muszą być wyłącznie częstościami słów/sekwencji słów XEROX Web Categorisation Tekst • topologia • metadane • podobieństwo tekstów (klasyczny model dokumentów) • częstość odwiedzin Kroje pisma Elementy medialne (obraz, dźwięk itp. ) Hiperpołączenia z innymi dokumentami Układ stron i paginacja Przykład: Node Type Size Index Source Index Reference + Destination + Head Org. Home Page Personal Home >1 k&<3 k Content + Number Depth Inlinks Outlinks of Children + + + - - Osadzone aplikacje Similari Freq. Entry Precision ty to Point Children 0. 67 + 0. 53 0. 64 0. 53 + + 0. 70 + + 0. 30 0. 51 0. 99
Kategoryzacja oparta o formatowanie dokumentów WUT TWG 2005
WUT TWG Klasyfikacja - przykład Słownik bunga-unga • bunga • unga bunga Bunga bunga Unga unga Bunga bunga 2005 Binary unigram Bunga 1 Unga 1 Multivariate unigram Bunga 2 Unga 1
WUT TWG Przestrzeń 2005 Unga 2 Bunga bunga 1 0 Bunga 0 1 2
WUT TWG Drzewo decycyjne - uczenie 2005 Unga 0 Unga > 0 Unga Bunga 2 Bunga < 2 2 Bunga > 0 Bunga 0 1 Unga 1 0 Bunga 0 1 2 Unga > 1
Kategoryzacja nowego dokumentu Unga 0 Unga > 0 Bunga 2 Bunga < 2 Bunga > 0 Bunga 0 Unga 1 Unga > 1 Bunga bunga WUT TWG 2005
Zastosowania • Klasyczne • Analiza wiadomości email (spam, routing etc. ) • Event tracking • Internet related • Web Content Mining, Web Farming • Focused crawling, assisted browsing itd. WUT TWG DMG 2005 NOV 2001


