Скачать презентацию Tomáš Kramár Fakulta Informatiky a Informačných Techológií Introduction Скачать презентацию Tomáš Kramár Fakulta Informatiky a Informačných Techológií Introduction

adc03d5ba4df5587a79793826172df0a.ppt

  • Количество слайдов: 21

Tomáš Kramár Fakulta Informatiky a Informačných Techológií Introduction to Web Usage Mining Tomáš Kramár Fakulta Informatiky a Informačných Techológií Introduction to Web Usage Mining

Motivácia Objavenie spôsobov akým sa sídlo / stránka používa využitie preusporiadania navigácie/obsahu vstup pre Motivácia Objavenie spôsobov akým sa sídlo / stránka používa využitie preusporiadania navigácie/obsahu vstup pre reccommender systémy analýza obsahu nákupného košíku v e-shopoch 2

Vymedzenie pojmov vzory používania charakterizujú správanie používateľov akým spôsobom je stránka používaná asociácie medzi Vymedzenie pojmov vzory používania charakterizujú správanie používateľov akým spôsobom je stránka používaná asociácie medzi jednotlivými stránkami príklad: 80% návštevníkov stránky kliklo na odkaz '/dovolenka/Grecko' a '/dovolenka/Spanielsko' 80% zákazníkov, ktorí kúpili plienky, kúpili aj pivo 3

Dolovanie vzorov 4 Dolovanie vzorov 4

Príprava dát I. Pri dolovaní musíme rozlíšiť: kto (zákazník/používateľ) si čo (obsah nákupného košíka/obsah Príprava dát I. Pri dolovaní musíme rozlíšiť: kto (zákazník/používateľ) si čo (obsah nákupného košíka/obsah sedenia) kúpil/klikol. 5

Príprava dát II. Proces, ktorý sa skladá z čistenia dát identifikácie používateľov identifikácie sedení Príprava dát II. Proces, ktorý sa skladá z čistenia dát identifikácie používateľov identifikácie sedení doplnenia chýbajúcich dát Výstupom je User Session File 6

Čistenie dát roboti irelevantné záznamy whitelist, blacklist 7 Čistenie dát roboti irelevantné záznamy whitelist, blacklist 7

Identifikácia používateľov Problém: proxy server cache webového prehliadača a proxy servera Jedna IP adresa Identifikácia používateľov Problém: proxy server cache webového prehliadača a proxy servera Jedna IP adresa / Viacero používateľov Viac IP adries / Jedno sedenie Viac IP adries / Jeden používateľ Viac agentov / Jeden používateľ Riešenie: heuristické metódy s využitím poznatkov o štruktúre sídla a referrer logu, identifikácia pomocou OS a agenta topológia: A – B – C; E – D log: A, B, D 8

Identifikácia sedení Čo môžeme označiť za jedno sedenie? Metódy: Časová identifikácia Identifikácia na základe Identifikácia sedení Čo môžeme označiť za jedno sedenie? Metódy: Časová identifikácia Identifikácia na základe stráveného času Identifikácia maximálnym dopredným odkazom Identifikácia pomocou štatistického jazykového modelu 9

Identifikácia sedenia pomocou štatistických jazykových modelov Entropia – miera neporiadku, náhodnosti v systéme pracuje Identifikácia sedenia pomocou štatistických jazykových modelov Entropia – miera neporiadku, náhodnosti v systéme pracuje nad abecedou stránok hraničná entropia { C, Java, Lisp } - nízka entropia { C, Java, Lisp, Bryndzové halušky } - nárast entropie 10

Vzory Asociačné pravidlá Sekvenčné pravidlá Zhlukovanie 11 Vzory Asociačné pravidlá Sekvenčné pravidlá Zhlukovanie 11

Asociačné pravidlá /Hudba, /Noty → /Gitara [sup=80%, conf=20%] X → Y [sup > minsup, Asociačné pravidlá /Hudba, /Noty → /Gitara [sup=80%, conf=20%] X → Y [sup > minsup, conf > minconf] Support vyjadruje pravdepodobnosť, s akou sa X aj Y nachádzajú v jednej transakcii. Confidence je percentuálnym vyjadrením počtu transakcií, ktoré ak obsahujú X, tak zároveň obsahujú Y. 12

Príklad t 1: Beef, Chicken, Milk t 2: Beef, Cheese t 3: Cheese, Boots Príklad t 1: Beef, Chicken, Milk t 2: Beef, Cheese t 3: Cheese, Boots t 4: Beef, Chicken, Cheese t 5: Beef, Chicken, Clothes, Cheese, Milk t 6: Chicken, Clothes, Milk t 7: Chicken, Milk, Clothes O X X X Rule: Chicken, Milk -> Clothes [sup = 3/7, conf = 3/4] 13

Apriori vlastnosť Apriori: Ak množina položiek dosahuje minimálnu podporu, potom aj každá podmnožina tejto Apriori vlastnosť Apriori: Ak množina položiek dosahuje minimálnu podporu, potom aj každá podmnožina tejto množiny dosahuje minimálnu podporu. 14

Multiple minimum support I rare item problem menej frekventované položky sú zaujímavejšie rotavátor → Multiple minimum support I rare item problem menej frekventované položky sú zaujímavejšie rotavátor → kosačka [sup=0, 5%, conf=60%] chlieb, syr, mlieko → pivo [sup=0, 5%, conf=60%] chlieb, syr, kosačka → pivo [sup=0, 6%, conf=60%] 15

Multiple minimum support II. MIS(Chlieb) = 2% MIS(Tričko) = 0, 2% MIS(Topánky) = 0, Multiple minimum support II. MIS(Chlieb) = 2% MIS(Tričko) = 0, 2% MIS(Topánky) = 0, 1% Tričko → Chlieb [sup=0, 15%, conf = 70%] min(MIS(Tričko), MIS(Topánky)) = 0, 2% nastavenie MIS na viac ako 100% - odfiltrovanie pravidla s danou položkou φ – maximum support difference max {sup(i)} − min{sup(i)} ≤ φ 16

Sekvenčné pravidlá zohľadňujú poradie, v akom boli operácie vykonané 5% of customers buy bed Sekvenčné pravidlá zohľadňujú poradie, v akom boli operácie vykonané 5% of customers buy bed first, then mattress and then pillows nevravia nič o medzikrokoch 17

Zhlukovanie 60% návštevníkov, ktorí navštívili stránku '/Hudba' má menej ako 20 rokov a je Zhlukovanie 60% návštevníkov, ktorí navštívili stránku '/Hudba' má menej ako 20 rokov a je z Bratislavy. nutné poznať kontext 18

Filtrovanie Výstupom predchádzajúce kroku môže byť v závislosti od nastavenia minsup a minconf niekoľko Filtrovanie Výstupom predchádzajúce kroku môže byť v závislosti od nastavenia minsup a minconf niekoľko desiatok tisíc pravidiel. Metódy: Klasifikátory zaujímavosti Multiple minimum support Šablóny 19

Šablóny Vytvorenie hierarchických kategórií Šablóny: inkluzívne reštriktívne Procedurálne programovanie, Algoritmy ⇒Any 20 Šablóny Vytvorenie hierarchických kategórií Šablóny: inkluzívne reštriktívne Procedurálne programovanie, Algoritmy ⇒Any 20

Referencie Huan, X. , Peng, F. , An, A. and Shuurmans, D. (2004). Dynamic Referencie Huan, X. , Peng, F. , An, A. and Shuurmans, D. (2004). Dynamic web log session identification with statistical language models. Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining association rules. Liu, B. , Hsu, W. and Ma, Y. (1999). Mining association rules with multiple minimum supports. Cooley, R. , Mobasher, B. and Srivastava, J. (1999). Data preparation for mining world wide web browsing patterns Klemettinen, M. , Mannila, H. , Ronkainen, P. , Toivonen, H. and Verkamo, A. I. (1994). Finding interesting rules from large sets of discovered association rules. 21