adc03d5ba4df5587a79793826172df0a.ppt
- Количество слайдов: 21
Tomáš Kramár Fakulta Informatiky a Informačných Techológií Introduction to Web Usage Mining
Motivácia Objavenie spôsobov akým sa sídlo / stránka používa využitie preusporiadania navigácie/obsahu vstup pre reccommender systémy analýza obsahu nákupného košíku v e-shopoch 2
Vymedzenie pojmov vzory používania charakterizujú správanie používateľov akým spôsobom je stránka používaná asociácie medzi jednotlivými stránkami príklad: 80% návštevníkov stránky kliklo na odkaz '/dovolenka/Grecko' a '/dovolenka/Spanielsko' 80% zákazníkov, ktorí kúpili plienky, kúpili aj pivo 3
Dolovanie vzorov 4
Príprava dát I. Pri dolovaní musíme rozlíšiť: kto (zákazník/používateľ) si čo (obsah nákupného košíka/obsah sedenia) kúpil/klikol. 5
Príprava dát II. Proces, ktorý sa skladá z čistenia dát identifikácie používateľov identifikácie sedení doplnenia chýbajúcich dát Výstupom je User Session File 6
Čistenie dát roboti irelevantné záznamy whitelist, blacklist 7
Identifikácia používateľov Problém: proxy server cache webového prehliadača a proxy servera Jedna IP adresa / Viacero používateľov Viac IP adries / Jedno sedenie Viac IP adries / Jeden používateľ Viac agentov / Jeden používateľ Riešenie: heuristické metódy s využitím poznatkov o štruktúre sídla a referrer logu, identifikácia pomocou OS a agenta topológia: A – B – C; E – D log: A, B, D 8
Identifikácia sedení Čo môžeme označiť za jedno sedenie? Metódy: Časová identifikácia Identifikácia na základe stráveného času Identifikácia maximálnym dopredným odkazom Identifikácia pomocou štatistického jazykového modelu 9
Identifikácia sedenia pomocou štatistických jazykových modelov Entropia – miera neporiadku, náhodnosti v systéme pracuje nad abecedou stránok hraničná entropia { C, Java, Lisp } - nízka entropia { C, Java, Lisp, Bryndzové halušky } - nárast entropie 10
Vzory Asociačné pravidlá Sekvenčné pravidlá Zhlukovanie 11
Asociačné pravidlá /Hudba, /Noty → /Gitara [sup=80%, conf=20%] X → Y [sup > minsup, conf > minconf] Support vyjadruje pravdepodobnosť, s akou sa X aj Y nachádzajú v jednej transakcii. Confidence je percentuálnym vyjadrením počtu transakcií, ktoré ak obsahujú X, tak zároveň obsahujú Y. 12
Príklad t 1: Beef, Chicken, Milk t 2: Beef, Cheese t 3: Cheese, Boots t 4: Beef, Chicken, Cheese t 5: Beef, Chicken, Clothes, Cheese, Milk t 6: Chicken, Clothes, Milk t 7: Chicken, Milk, Clothes O X X X Rule: Chicken, Milk -> Clothes [sup = 3/7, conf = 3/4] 13
Apriori vlastnosť Apriori: Ak množina položiek dosahuje minimálnu podporu, potom aj každá podmnožina tejto množiny dosahuje minimálnu podporu. 14
Multiple minimum support I rare item problem menej frekventované položky sú zaujímavejšie rotavátor → kosačka [sup=0, 5%, conf=60%] chlieb, syr, mlieko → pivo [sup=0, 5%, conf=60%] chlieb, syr, kosačka → pivo [sup=0, 6%, conf=60%] 15
Multiple minimum support II. MIS(Chlieb) = 2% MIS(Tričko) = 0, 2% MIS(Topánky) = 0, 1% Tričko → Chlieb [sup=0, 15%, conf = 70%] min(MIS(Tričko), MIS(Topánky)) = 0, 2% nastavenie MIS na viac ako 100% - odfiltrovanie pravidla s danou položkou φ – maximum support difference max {sup(i)} − min{sup(i)} ≤ φ 16
Sekvenčné pravidlá zohľadňujú poradie, v akom boli operácie vykonané 5% of customers buy bed first, then mattress and then pillows nevravia nič o medzikrokoch 17
Zhlukovanie 60% návštevníkov, ktorí navštívili stránku '/Hudba' má menej ako 20 rokov a je z Bratislavy. nutné poznať kontext 18
Filtrovanie Výstupom predchádzajúce kroku môže byť v závislosti od nastavenia minsup a minconf niekoľko desiatok tisíc pravidiel. Metódy: Klasifikátory zaujímavosti Multiple minimum support Šablóny 19
Šablóny Vytvorenie hierarchických kategórií Šablóny: inkluzívne reštriktívne Procedurálne programovanie, Algoritmy ⇒Any 20
Referencie Huan, X. , Peng, F. , An, A. and Shuurmans, D. (2004). Dynamic web log session identification with statistical language models. Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining association rules. Liu, B. , Hsu, W. and Ma, Y. (1999). Mining association rules with multiple minimum supports. Cooley, R. , Mobasher, B. and Srivastava, J. (1999). Data preparation for mining world wide web browsing patterns Klemettinen, M. , Mannila, H. , Ronkainen, P. , Toivonen, H. and Verkamo, A. I. (1994). Finding interesting rules from large sets of discovered association rules. 21