451746cd10a4fb1843477a332da7c2b9.ppt
- Количество слайдов: 36
Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport
Miről lesz szó Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web spam: gép megtévesztése Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web Spam és E-mail Spam • Cél nem (feltétlenül) a végfelhasználó Pl. Javítsuk a Google pozícióját egy „ügyfél” oldalának • Szűrés nem a kliensnél Keresőrendszer központilag szűr Nem lehet letölteni és tesztelni a spam szűrőt • Spammer dolga nehezebb Eredmény megjelenése lassú folyamat (Robot megtalálja, index frissül) Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
A spammer célpontja a Google • Kereső top találat forgalmat, bevételt jelent • Manipuláció, “Search Engine Optimization” • Tartalom spam Kulcsszavak, népszerű kifejezések, elírások • Link spam „Farmok”: sűrűn linkelt, redirect-elt site-ok • Bevétel gyakran indirekt • „Affiliate” programok, Google Ad. Sense • Reklámok megjelenítése, forgalom továbbterelése Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
„spam industry had a revenue potential of $4. 5 billion in year 2004 if they had been able to completely fool all search engines on all commercially viable queries” [Amitay 2004] Találathoz érkezés ideje Találati pozíció nézésével töltött idő Keresési találati pozíció hatása [Granka, Joachims, Gay 2004] Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg • Jó rangsor – Search Engine Optimization célpontja • Mitől függ a rangsor? • Szóelőfordulás, HTML elemekkel (cím, fejléc, méret, stb. ) súlyozva • Hivatkozó (anchor) szöveg, domén, URL szavai – legjobb! • URL hossza, könyvtárszint mélysége • Rámutató hivatkozások száma, Page. Rank Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web spam • Spam szűrés nélkül egy keresőrendszer ma csak spamet találna Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web Spam Taxonómia 1. Tartalom spam
Kulcsszó értéke Google Ad. Words Competition 10 k 10 th wedding anniversary 128 mb, 1950 s, … abc, abercrombie, … b 2 b, baby, bad credit, … digital camera earn big money, easy, … f 1, family, flower, fantasy gameboy, gates, girl, … hair, harry potter, … ibiza, import car, … james bond, janet jackson karate, konica, kostenlose ladies, lesbian, lingerie, … … Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Tartalom modellezés példa Spam téma 7 Nemsp téma 4 Nemsp téma 10 loan (0. 080) club (0. 035) music (0. 022) unsecured (0. 026) team (0. 012) band (0. 012) credit (0. 024) league (0. 009) film (0. 011) home (0. 022) win (0. 009) festival (0. 009) Példa 20 spam és 50 nemspam generatív téma modellből [Bíró, Szabó, Benczúr 2008] Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Spammelt rangsor-elemek • Domén név adjustableloanmortgagemastersonline. compay. dahannusaprima. co. uk buy-canon-rebel-20 d-lens-case. camerasx. com • Anchor szöveg (title, H 1, stb) <a href=“target. html”>free, great deals, cheap, inexpensive, cheap, free</a> • Meta keywords – nem érdemes <meta name="keywords" content="UK Swingers, UK, swingers, swinging, genuine, adult contacts, connect 4 fun, sex, … > Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Parkoló domén <div style="position: absolute; top: 20 px; width: 600 px; height: 90 px; overflow: h offline atangledweb. co. uk back soon </font> <a href="http: // 1>atangledweb. co. uk</font></a> Soundbridge Home. Music Wi. Fi M href="http: //www. atangledweb. co. uk/index 01. html">-</a>>. . . San. Disk Sansa href="http: //www. atangledweb. co. uk/index 02. html">-</a>>. . . AIGO F 820+ 1 G href="http: //www. atangledweb. co. uk/index 03. html">-</a>>. . . Targus I-Pod M href="http: //www. atangledweb. co. uk/index 04. html">-</a>>. . . Sony NWA 806 F href="http: //www. atangledweb. co. uk/index 05. html">-</a>>. . . Ministry of Sou href="http: //www. mp 3 roze. co. uk/cat 7000. html">-</a>>. . . Nokia 6125 - Fold href="http: //www. mp 3 roze. co. uk/cat 7001. html">-</a>>. . . Samsung E 350 - Ca Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Kulcsszó zsúfolás, másolatok Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Google hirdetések Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web Spam Taxonómia 2. Hivatkozás spam
Hivatkozások: A Jó, a Rossz és a Csúf “hyperlink structure contains an enormous amount of latent human annotation that can be extremely valuable for automatically inferring notions of authority. ” (Chakrabarti et. al. ’ 99) • Becsületes, emberi ajánlást tartalmazó hivatkozás • Nem ajánló értékű, pl. „affiliate program”, vagy fórum, lista navigáció … • Szándékos, manipulatív link spam Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Link farmok WWW Becsületes Web kilépési pont: • Mézesmadzag: pl keresett tartalom másolata • Parkoló domén régi hivatkozása • Blog, vendégkönyv spam Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Link farmok Sok domén, sőt, sok IP Mézesmadzag: keresett tartalom 411 amusement. com 411 sites A-Z list 411 fashion. com 411 sites A-Z list 411 zoos. com 411 sites A-Z list target Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Page. Rank támogatók eloszlása ρ=0. 61 ρ=0. 97 alacsony magas Page. Rank Becsületes: fhh. hamburg. de Pereszlényi Attila alacsony Web Spam: radiopr. bildflirt. de (www. popdata. de farm része) [Benczúr, Csalogány, Sarlós, Uher 2005] Web Konferencia 2008. 04. 26
Web Spam Taxonómia 3. Rejtőzködés
Formázás • Egy-pixeles kép • Fehér alapon fehér • Stylesheet határozza meg a színt, elhelyezést • … Elv: robot HTML feldolgozó kódja egyszerűsített Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Java. Script alkalmazása <SCRIPT language=javascript> var 1=100; var 3=200; var 2=var 1 + var 3; var 4=var 1; var 5=var 4 + var 3; if(var 2==var 5) document. location="http: //umlander. info/ mega/free software downloads. html"; </SCRIPT> • window. location elemen keresztüli átirányítás • eval: véletlenszerűnek tűnő statikus adatokból való spam tartalom (szöveg, link) • document. write Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
HTTP szintű rejtőzködés • User agent, kliens host szerint • Más tartalom a felhasználónak, más a Google. Bot-nak Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web Spam Taxonómia 4. Közösségi tartalom spam
Új célpont: vendégkönyvek, blogok Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
„Fórumnak látszó tárgy” Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Spam vadászat
Jellemzők • Szóelőfordulások (szózsák modell) • Trust. Rank: becsületes oldalakból induló Page. Rank • Ki- és be-linkek száma, kölcsönösség • Szavak száma, hossza, HTML elemek (title, anchor) közötti eloszlása • Sikeresség népszerű kulcsszavakra spamszűrés nélküli teszt keresőrendszerben • Google hirdetések száma • Site felépítése, mélysége, belső hivatkozásszerkezete, dok formátumok, … Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Gráf-simítás: „know your neighbor” • Becsületes oldal ritkán mutat spamre • Spamre sok más spam hivatkozik 1. Spamség jóslat p(v) minden oldalra 2. Céloldal u, szomszéd p(v) aggregálásával új jellemző: f(u) 3. Újraklasszifikáció az új jellemzővel Pereszlényi Attila Web Spam v 7 v 1 ? v 2 u Web Konferencia 2008. 04. 26
A Web Spam Challenge • UK-WEBSPAM 2006 (Yahoo Research, 2007 -ben) • 9000 Web site, 500, 000 hivatkozás • 767 spam, 7472 becsületes • UK-WEBSPAM 2007 (verseny most) • 114, 000 Web site, 3 Md hivatkozás • 222 spam, 3776 becsületes • Teljes letöltés 3 TByte • UK-WEBSPAM 2008? Mi szervezzük? • Internet Archívummal együttműködve, időben folyamatos letöltés • Cél: spam időbeliségének, mozgásának vizsgálata Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Magunkról
Adatbányászat és Keresés Kutatócsoport Rónyai Lajos Informatika Labor vezető Benczúr András Kutatás-Fejlesztés 3 posztdoktor Lukács András 8 doktorandusz Kutatás, Ipari kapcsolatok 5 fejlesztő Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Adatbányászat és Keresés Kutatócsoport • Egyedi technológiák extrém adatméretekre • (web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés • viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű webszerver naplók hosszú időtartamú elemzése • lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok • ajánló rendszerek KDD Cup első helyezés Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Köszönöm a figyelmet! Pereszlényi Attila datamining. sztaki. hu/ peresz@ilab. sztaki. hu
451746cd10a4fb1843477a332da7c2b9.ppt