7bd7544ae71d98087008185646a36461.ppt
- Количество слайдов: 21
Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft
Informationswissenschaft Uni Düsseldorf • Eine der führenden Ausbildungsstätten im Bereich Informationswissenschaft. • Einzigartiger Studiengang „Informationswissenschaft und Sprachtechnologie“ (B. A. /M. A. ) – Elemente aus Informationswissenschaft, Sprachwissenschaft, Informatik – Praktika im Verlauf des Studiums • Forschung der Abteilung Informationswissenschaft u. a. : – Web Information Retrieval – Suchmaschinen-Marketing
Ziel des Vortrags • Darstellung der Qualität von Suchmaschinen aus „neutraler Sicht“. • Kurzer Überblick über aktuelle Forschungsergebnisse.
Inhalt 1. 2. 3. 4. Qualität der Treffer Qualität der Datenbestände Qualität der Suchfunktionen Fazit
1 Qualität der Treffer
Retrievaltests • Qualität von Suchmaschinen wird anhand von Testanfragen gemessen. • Errechnet wird die erreichte Präzision = Anteil der relevanten Treffer bis zu einem bestimmten Cut-Off-Wert. • Beispiel: – 50 zufällig ausgewählte Suchanfragen – berücksichtigt werden die ersten 20 Treffer – Jeder Treffer wird bewertet: für die Suchanfrage passend oder nicht?
Quelle: Griesbaum 2004
Quelle: Griesbaum 2004
Retrievaltests: Ergebnisse • Alle Suchmaschinen schneiden schlecht ab: Präzision <0, 6. D. h. nur max. 6 von 10 Treffern sind relevant. • Andersherum: Mindestens 4 von 10 Treffern sind irrelevant. • Die Suchmaschinen liegen nahe beieinander; Bestätigung durch Kurztests und eigene Erfahrungen. • Testberichte in Publikumszeitschriften genügen i. d. R. nicht den Ansprüchen an Retrievaltests.
2 Qualität der Datenbestände
Abdeckung des deutschen Web • Größe des deutschen Web ca. 4 Mio. Domains mit ca. 320 Mio. Seiten. • Abdeckung durch Suchmaschinen zwischen <50 Prozent und etwa 60 Prozent. • Bessere Abdeckung als in vergleichbaren älteren Studien; Tendenz aber ähnlich. Quelle: Pothe 2004
Country Bias • Seiten aus unterschiedlichen Ländern werden unterschiedlich häufig und unterschiedlich tief indexiert. • US-Sites werden zu >80 Prozent indexiert; andere teils nur zwischen 40 -60 Prozent. • Tiefe der Indexierung: US-Sites ca. 90 Prozent; andere teils <50 Prozent. • Vergleichende Untersuchungen für deutschsprachige Sites liegt noch nicht vor. Quelle: Vaughan u. Thelwall 2004
Index-Aktualität • • Aktualität schwankt erheblich. Keine Komplettaktualisierung alle 30 Tage! Aktuellster Index: Google, MSN, Yahoo. Oft keine klaren Intervalle erkennbar. Quelle: Informationswissenschaft Uni Düsseldorf, laufende Untersuchung
3 Qualität der Suchfunktionen
Suchfunktionen • Umfang der Suchmöglichkeiten variiert erheblich. • Alle großen Suchmaschinen bieten gewisse Kernfunktionen, z. B. : – – Beschränkung auf Titel Sprachauswahl Datumsbeschränkung Dateiformate • Es hat sich bisher keine einheitliche Abfragesprache herausgebildet. Quelle: Lewandowski 2004 a
Recherchefunktion: Datumsbeschränkung • Suchmaschinen können nur schwer erkennen, wie aktuell eine Seite ist. • Die Funktion „Datumsbeschränkung“ ordnet nur 4 -6 von zehn Dokumente richtig zu. • Am besten schneidet hier Google ab, danach Yahoo. • Datumsbeschränkung bei Teoma / Ask Jeeves lohnt sich nicht. Quelle: Lewandowski 2004 b
Quelle: Lewandowski 2004
Fazit
Fazit • Suchmaschinen sind (noch) nicht perfekt. • Suchmaschinen erfassen oft nur einen Teil von Websites. • Textanzeigen haben weiterhin Bedeutung, auch wenn die Homepage gut gerankt ist. • Für kurzfristige Kampagnen sollte man sich nicht auf die Indexierung durch Suchmaschinen verlassen.
Vielen Dank. www. durchdenken. de/lewandowski dirk. lewandowski@uni-duesseldorf. de
Quellen • • • Griesbaum, J. (2004): Evaluation of three German search engines: Altavista. de, Google. de and Lycos. de. Information Research 9(4) paper 189. http: //informationr. net/ir/9 -4/paper 189. html Lewandowski, D. (2004 a): Abfragesprachen und erweiterte Funktionen von WWW-Suchmaschinen. IWP - Information: Wissenschaft und Praxis 55(2), 97102 (2004). http: //www. durchdenken. de/lewandowski/doc/suchmaschinenfunktionen. php Lewandowski, D. (2004 b): Date-restricted queries in web search engines. Online Information Review 28(2004)6, 420 -427. http: //www. durchdenken. de/lewandowski/doc/oir 2004. php Vaughan, L. ; Thelwall, M. (2004): Search Engine Coverage Bias: Evidence and Possible Causes. In: Information Processing & Management, 40(4), 693 -707 Pothe, A. (2004): Nachgezählt: Wie groß ist das WWW? c‘t 26/2004, 164 -165
7bd7544ae71d98087008185646a36461.ppt