Скачать презентацию Search Retrieval de Googl ificatie van onze Скачать презентацию Search Retrieval de Googl ificatie van onze

314ad98b7366f53fb01af1f83e2eb113.ppt

  • Количество слайдов: 50

Search & Retrieval de Googl ificatie van onze samenleving Eric Sieverts Universiteitsbibliotheek Utrecht Instituut Search & Retrieval de Googl ificatie van onze samenleving Eric Sieverts Universiteitsbibliotheek Utrecht Instituut voor Media- en Informatie Management (Hogeschool van Amsterdam)

zoekmachines zijn er al lang lycos in 1994 de eerste zoekmachines zijn er al lang lycos in 1994 de eerste "echte", met bijna 1, 5 miljoen pagina's altavista in 1996 de nieuwste grootste, met ruim 30 miljoen pagina's maar geen van alle heeft ons gedrag én zelfs onze taal zo beïnvloed als

wat maakte anders ? • zijn wat maakte anders ? • zijn "kale" interface • zijn goede zoekresultaten (al geeft elke zoekmachine -bijna- exact wat je vraagt) – andere, betere relevantie-ordening – grote dekking (> 20 miljard) geeft vaker goed resultaat – goed voor simpele vragen van de grote massa • zijn PR en zijn timing – company motto: "Don't do evil“ – everyone loves Google (or don’t we? ) Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

het succes van google • zoeken is een “commodity” geworden – iedereen gebruikt thuis het succes van google • zoeken is een “commodity” geworden – iedereen gebruikt thuis een zoekmachine – iedereen gebruikt op het werk een zoekmachine – iedereen gebruikt onderweg een zoekmachine? • iedereen verwacht altijd overal te kunnen zoeken – “the ubiquitous search box” • iedereen verwacht er altijd alles mee te vinden – “ambient findability” • Google is daarbij de “maat der dingen” geworden – de usability benchmark? – de “Google experience” • kortom: Google is synoniem met zoeken Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

marktaandeel zoekmachines (schattingen medio 2006) USA UK NL marktaandeel zoekmachines (schattingen medio 2006) USA UK NL

search & retrieval door Google hooggespannen verwachtingen niet in elke situatie makkelijk daaraan te search & retrieval door Google hooggespannen verwachtingen niet in elke situatie makkelijk daaraan te voldoen – een intranet is iets anders dan internet – wat op internet werkt (methode van relevance ranking) hoeft nog niet te werken op een intranet en voor “enterprise search” – eisen aan relevantie en volledigheid van zoekresultaat in werkomgeving anders dan in consumenten-omgeving Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

"search" binnen organisaties uit onderzoek van de Delphi Group (april 2006): – 34% van medewerkers zoekt > 6 uur/week – 42% van medewerkers besteedt > 40% van die tijd aan doorploegen van irrelevante informatie – 67% heeft geen zoekfunctie of heeft vaak vind-problemen; slechts 3% zegt: "intranet search is great" – 52% is ontevreden met "search experience" daarom uitdaging voor elke organisaties te zorgen voor: – kwaliteit van zoekinterface en hele "user experience" Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

Google als meetlat • 10 redenen waarom Google wel een goed idee is • Google als meetlat • 10 redenen waarom Google wel een goed idee is • 10 redenen waarom Google GEEN goed idee is (vooral niet voor lokale toepassingen) Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

wat is zo goed aan Google ? 2. Google is de grootste (op internet) wat is zo goed aan Google ? 2. Google is de grootste (op internet) Google is zo eenvoudig in gebruik 3. uitstekend ranking mechanisme 4. 8. slimme automatische vraagverbetering vraagexpansie met synoniemen extra online tools veel offline tools & online diensten additionele zoekmachines voor andere media 9. automatische attenderingsdienst 10. bewaart desgewenst je zoekgeschiedenis 1. 5. 6. 7. Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

1: google is de grootste • hoewel Google zelf geen omvang meer opgeeft, • 1: google is de grootste • hoewel Google zelf geen omvang meer opgeeft, • hoewel Searchenginewatch geen groottes van zoekmachines meer vermeldt, blijkt uit vergelijken van zoekresultaten dat: • Google vaker meer oplevert dan runner-up Yahoo! • en Google flink groter is dan Ask, Live. Search, Exalead of Gigablast Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

2: google is eenvoudig in gebruik • het “kale” zoekscherm van Google is usability 2: google is eenvoudig in gebruik • het “kale” zoekscherm van Google is usability benchmark voor zoeksystemen geworden • iedereen kan met Google uit de voeten (en iets vinden) • als een zoeksysteem ingewikkelder lijkt dan Google, wordt het niet meer gebruikt (? ) maar: • Google kan ingewikkelder zijn dan het lijkt! Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

3: uitstekend ranking mechanisme • “pagerank” was eerste mechanisme waarin “democratisch bepaalde kwaliteit” van 3: uitstekend ranking mechanisme • “pagerank” was eerste mechanisme waarin “democratisch bepaalde kwaliteit” van gevonden informatie meespeelde PR(x) = (1 -d) + d* y{PR(y x) / C(y)} • dat jouw pagina niet altijd als eerste uit Google komt, ligt minder aan Google dan aan jouw pagina • pagerank vooral bepalend voor volgorde bij “one-word queries” maar: werkt niet als er geen links zijn (intranetten) ! • bij “intelligentere” queries ranking vooral op basis van andere parameters (waar zoekwoorden voorkomen, woordnabijheid, woordvolgorde - phrase) Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

4: ingebouwde vraagverbetering • Google zoekt automatisch op enkel- en meervoud en enkele standaard 4: ingebouwde vraagverbetering • Google zoekt automatisch op enkel- en meervoud en enkele standaard uitgangen voor Engelse woorden (op Engelstalige site) • Google doet dat met sommige Nederlandse woorden (op Nederlandstalige site), maar niet heel consistent • Google doet dat slim voor bepaalde vaste afkortingen (jfk, wwii) • Google doet dat ook voor bepaalde Nederlandse namen op de Nederlandstalige site maar: nogal onduidelijk wat wanneer wel of niet Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

5: vraagexpansie met synoniemen • door ~ voor een (Engelse) zoekterm te zetten, zoekt 5: vraagexpansie met synoniemen • door ~ voor een (Engelse) zoekterm te zetten, zoekt Google ook op (Engelse) synoniemen van dat woord maar: • levert vaak meer troep dan verbetering Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

6: extra online tools via gewone zoekvenster is Google ook: • rekenmachine ( 3*7/5 6: extra online tools via gewone zoekvenster is Google ook: • rekenmachine ( 3*7/5 ) • omrekenaar ( 87 F in C ) • valutahulp ( 27 USD in EUR ) • adreszoeker ( 650 Madison Avenue, Albany, NY ) • telefoonboek ( john smith, schenectady, ny ) • definitiezoeker ( define: relevance ) • enz. Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

7: offline tools & online diensten • • • Google toolbar Google desktop Picasa 7: offline tools & online diensten • • • Google toolbar Google desktop Picasa – foto’s beheren en uitwisselen Google mail online RSS reader tekstverwerker in je browser spreadsheet in je browser Blogger weblog host coop – custom search engine Google suggest enz. Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

8: zoeken in andere media • • • image search newsgroup search video search 8: zoeken in andere media • • • image search newsgroup search video search blog search news search (voor 10 talen) book search google scholar google maps / google earth shopping search finance search desktop search program code search zie ook Google “cheat sheet”: http: //www. adelaider. com/google/? cheatsheet Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

9: persoonlijke attenderingsdienst • regelmatige attendering via mail, op basis van eigen zoekvraag, uit: 9: persoonlijke attenderingsdienst • regelmatige attendering via mail, op basis van eigen zoekvraag, uit: – – web nieuwsgroepen blogs Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

10: bewaart je zoekgeschiedenis • als je een account hebt, kan je zoekgeschiedenis worden 10: bewaart je zoekgeschiedenis • als je een account hebt, kan je zoekgeschiedenis worden bewaard • zo kun je terugvinden hoe je eerder hebt gezocht • zo kun je terugvinden wat je eerder had gevonden (als je resultaten wel hebt aangeklikt, maar hebt vergeten te bookmarken) Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

wat is er mis met Google ? met Google vind je niet wat je wat is er mis met Google ? met Google vind je niet wat je zoekt 2. met Google vind je ook wat je niet zoekt 1. 3. in Google ontbreekt zoekfunctionaliteit 4. 8. Google biedt geen goede tijdinperking Google zoekt niet op metadata Google biedt geen reproduceerbare resultaten Google levert veel minder backlinks Google biedt geen hulp voor verfijnen van zoekvraag 9. voor andere media zijn er betere alternatieven 5. 6. 7. 10. Google is niet erg “web-2. 0 - aware” Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

1: je vindt niet wat je zoekt in 40 miljard items op internet vind 1: je vindt niet wat je zoekt in 40 miljard items op internet vind je (met Google) altijd wel iets dat een antwoord op je vraag is, maar vaak niet precies dat ene document waarnaar je op zoek bent in lokaal systeem met 20. 000 items is dat nog veel sterker – het gezochte document bleek toch net niet dat woord / die combinatie van woorden te bevatten waarop jij zocht, – het begrip waarnaar je zocht bleek in dat document alleen als werkwoordsvorm voor te komen, terwijl jij op een zelfstandig naamwoord zocht, – het woord bleek toch anders gespeld te zijn, –. . voor lokaal systeem is slimmere zoekmachine nodig Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

2: je vindt wat je niet zoekt • als volledige tekst van documenten doorzoekbaar 2: je vindt wat je niet zoekt • als volledige tekst van documenten doorzoekbaar is, vind je ook documenten waarin je zoekterm niet van belang is (ondanks “relevance ranking”) • als je spullen niet goed op orde hebt, vind je ook allerlei oude versies van documenten • als je naar meneer Bakker zoekt, vind je ook documenten over brood • . . voor lokaal systeem is slimmere zoekmachine nodig Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

3: ontbrekende functionaliteit • geen truncatie • niet zoeken op woorden in elkaars nabijheid 3: ontbrekende functionaliteit • geen truncatie • niet zoeken op woorden in elkaars nabijheid maar: – Google zoekt toch al op (Engels) enkel- + meervoud – woordnabijheid telt toch al flink mee bij ranking – meeste andere webzoekmachines bieden dat ook niet uitzondering: Exalead kies voor lokaal systeem software die dat wel kan Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

truncatie fuzzy proximity truncatie fuzzy proximity

4 : geen (goede) tijdinperking • alleen heel beperkte keuze: laatste 3 / 6 4 : geen (goede) tijdinperking • alleen heel beperkte keuze: laatste 3 / 6 / 12 maanden • en dat werkt bovendien NIET goed • wel ongedocumenteerde "daterange" optie met gebruik van juliaans datum format daterange: 2451910 -2452153 • maar dat werkt bovendien NIET goed • wel gedetailleerd en betrouwbaar mogelijk bij All. The. Web, Alta. Vista of Exalead Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

• Google" src="http://present5.com/presentation/314ad98b7366f53fb01af1f83e2eb113/image-33.jpg" alt="5: Google zoekt niet in metadata • Google" /> 5: Google zoekt niet in metadata • Google niet i. v. m. mogelijk misbruik van metadata • andere doen dat wel (weer): yahoo, alltheweb, altavista, ask, hotbot, gigablast (maar meestal niet meer dan eerste 16 of 24 keywords) • die vinden makkelijker pagina’s met weinig “eigen” tekst Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

6: geen betrouwbare aantallen • gevonden aantal van zelfde vraag vaak elke keer verschillend 6: geen betrouwbare aantallen • gevonden aantal van zelfde vraag vaak elke keer verschillend • bij bekijken van afzienbaar aantal resultaten zie je bij bekijken van hele lijst pas hoeveel echt is gevonden (meestal minder) • niet duidelijk wanneer op woordvarianten wordt gezocht • Booleaanse resultaten kloppen (daardoor? ) vaak niet • verschillen tussen NL en USA versie maar: • bij Ask en andere zoekmachines soms ook rare effecten Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

6: geen betrouwbare aantallen voorbeeld: • recept AND doornhaai 123 • recepten AND doornhaai 6: geen betrouwbare aantallen voorbeeld: • recept AND doornhaai 123 • recepten AND doornhaai 195 • (recept OR recepten) AND doornhaai Eric Sieverts | e. g. [email protected] nl (in resultaat ook “recepten”) (in resultaat geen “recept”) 123 | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

7: veel minder backlinks • met “link zoeken” vindt Google altijd vele malen minder 7: veel minder backlinks • met “link zoeken” vindt Google altijd vele malen minder webpagina’s die een link naar een opgegeven URL bevatten dan Yahoo, All. The. Web, Alta. Vista of Exalead maar: • het zijn de minst belangrijke (met laagste pagerank) die ontbreken Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

8: geen hulp bij verfijnen zoekvraag • omdat men vaak slecht zoekt en veel 8: geen hulp bij verfijnen zoekvraag • omdat men vaak slecht zoekt en veel te veel vindt, is het vaak nodig zoekvraag te verfijnen • sommige zoekmachines bieden daarbij hulp door statistische analyse van woorden uit zoekresultaat (Ask, Quintura/Yahoo, Clusty, . . . ) • sommige zoekmachines delen resultaat (ook) op naar meer formele kenmerken - “parametric search” (Exalead) Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

9: You. Tube & Blinkx beter voor video • Google video begon ooit met 9: You. Tube & Blinkx beter voor video • Google video begon ooit met publieke TV-programma’s, ondertitels voor slecht-horenden gebruikend om op te zoeken • halfslachtige switch naar uploads door gebruikers • You. Tube veel populairder voor uploaden, uitwisselen en via tagging karakteriseren (van slechte met mobieltjes opgenomen filmpjes) daarom [? ] opgekocht door Google • Blinkx bevat ook professioneel materiaal van o. a. nieuwsdiensten, door spraakherkenning “full-text” doorzoekbaar op gesproken tekst Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

9: You. Tube & Blinkx beter voor video uploaden webcrawler kwaliteit vaak slecht veel 9: You. Tube & Blinkx beter voor video uploaden webcrawler kwaliteit vaak slecht veel professioneel materiaal “metadata” (tagging) spraakherkenning browsen i. p. v. zoeken (“most popular”) full-text zoeken

9: blogsearch liever met Technorati • voor blog-posts is Technorati vaak completer (zeker voor 9: blogsearch liever met Technorati • voor blog-posts is Technorati vaak completer (zeker voor niet-Engelstalig) en wat sneller • aparte zoekmachines voor podcasts (audio & video van omroepen, amateurs en ook bedrijven) zelfs met “full-text” search via spraakherkenning en aanduiding na hoeveel minuten het zoekwoord voorkomt Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

10: Google weinig web-2. 0 aware • veel van Google's oplossingen berusten op software, 10: Google weinig web-2. 0 aware • veel van Google's oplossingen berusten op software, veel aspecten van web 2. 0 vooral op "peopleware" • nieuwe diensten en startups (en ook Yahoo!) leggen wel "de macht bij het volk" – – – – zelf publiceren (blogs, wiki's, foto's, video's, podcasts, …) zelf het nieuws bepalen (newsvine, digg, postgenomic, …) zelf bookmarken (del. icio. us, myweb, furl, connotea, …) zelf taggen (overal: flickr, del. icio. us, digg, technorati, …) zelf netwerken (hyves, myspace, orkut, facebook, …) zelf zoekmachien maken (rollyo, wink, yoono, google-coop) samenwerken en delen (overal)

10: Google weinig web-2. 0 aware bij Google zelf – geen tagging – geen 10: Google weinig web-2. 0 aware bij Google zelf – geen tagging – geen tagclouds – weinig sociale netwerken maar wel – – overnames van web 2. 0 successen op ajax-technologie in de browser gebaseerde toepassingen open API voor mash-ups met Google-Earth rss en blog ondersteuning Eric Sieverts | e. g. [email protected] nl | http: //www. library. uu. nl/medew/it/eric | e. g. [email protected] nl

web 2. 0 en zoeken vormt social software en tagging concurrentie voor het web 2. 0 en zoeken vormt social software en tagging concurrentie voor het "echte" zoeken? "most popular" tags tag cloud andermans advies notification (rss) amusement Flickr. com You. Tube zelf omschreven behoefte metadata zoekvenster zelf zoeken werk en studie klassieke image-search Blinkx

conclusies & trends • Google zette conclusies & trends • Google zette "search" op de kaart en maakte andere gerelateerde diensten zichtbaar • nieuwe technologieën sluiten aan op het "search" paradigma • Google niet automatisch de beste voor elke toepassing (toch heeft concurrentie het op consumenten-markt moeilijk) • Google zeker niet de beste voor enterprise search en BI • enterprise search is heel wat anders dan internet search • search is pas eerste puzzle-stukje om ongestructureerde informatie in BI uit te baten (het is nog geen text-mining) • trend naar integratie van diensten en technieken • trend naar verdergaande personalisatie (ook voor ranking) disclaimer: "mijn woorden geven geen garantie voor de toekomst"