Скачать презентацию Le rôle des mesures de similarité dans l algorithme Скачать презентацию Le rôle des mesures de similarité dans l algorithme

585850d68356ca45ed91e9c6e1cc84cd.ppt

  • Количество слайдов: 31

Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition Président de l’association SEOCamp

L'association SEO Camp Née d'une initiative d'Alexandre Villeneuve et David Degrelle en décembre 2007 L'association SEO Camp Née d'une initiative d'Alexandre Villeneuve et David Degrelle en décembre 2007 Constituée en mars 2008 Uniquement des membres personnes physiques 85 cotisants – 225 sympathisants

L'association SEO Camp : les membres Amateurs passionnés par le référencement Salariés d'agences spécialisées L'association SEO Camp : les membres Amateurs passionnés par le référencement Salariés d'agences spécialisées ou d'agences horizontales Indépendants – free lance Webmasters Référenceurs in house

L'association SEO Camp : les activités Organiser des rencontres conviviales ◦ L'association SEO Camp : les activités Organiser des rencontres conviviales ◦ "SEO Camp", Repas, Apéros SEO Camp

L'association SEO Camp : les activités ◦ Les évènements précédemment organisés ◦ ◦ Paris L'association SEO Camp : les activités ◦ Les évènements précédemment organisés ◦ ◦ Paris Toulouse Marseille Nantes

L'association SEO Camp : l'emploi et la formation Matinales de l’APEC Etude sur l’emploi L'association SEO Camp : l'emploi et la formation Matinales de l’APEC Etude sur l’emploi dans le référencement

L'association SEO Camp : promotion de la profession Interventions dans les évènements destinés aux L'association SEO Camp : promotion de la profession Interventions dans les évènements destinés aux webmasters (salons emarketing, ecommerce) Articles dans la presse économique Projet de certification et de formation SEO Campus

Algorithmes de classement : Les grands principes 1. La pertinence : notion fondamentale 2. Algorithmes de classement : Les grands principes 1. La pertinence : notion fondamentale 2. La recherche full text à l’aide des opérateurs booléens 3. Comment classer les pages ? 4. Comment mesurer le poids des termes 5. Utilisation d’une mesure de similarité : le poids des termes 6. L’apport et le rôle exact du pagerank 7. Conclusion

La question de la pertinence La question de la pertinence

La pertinence relative subjective Une notion intimement liée au jugement de l’utilisateur Il existe La pertinence relative subjective Une notion intimement liée au jugement de l’utilisateur Il existe un « socle commun » des critères d’appréciation de La pertinence

Focus sur l'indexation Focus sur l'indexation

La recherche La recherche "full text" RECHERCHE CLASSIQUE DANS UN INDEX INVERSE Chercher dans l’index inversé : “extraction” 1 1 1 2 2 2 3 0. 66611 0. 71866 1. 00000 0. 86409 0. 40147 0. 47467 0. 90061 0. 49718 0. 66983 1. 00000 0. 84247 0. 51141 report algebraic international preliminary language computers repeated digital roots subtractions extraction techniques Trouvé ici ! Document numéro 2

Comment classer les pages : première idée Nombre d’occurrences du terme dans la page Comment classer les pages : première idée Nombre d’occurrences du terme dans la page : Extraction Poids = 1 Poids = 3

Comment classer les pages : première idée AJOUT DE CRITERES POUR AMELIORER LA PERTINENCE Comment classer les pages : première idée AJOUT DE CRITERES POUR AMELIORER LA PERTINENCE . . . <H 1><H 2><strong>. . . <TABLE><DIV>. . . Alt, title, <a href>, anchor text proximité. . . </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Comment classer les pages : première idée Problème : les documents ne contiennent pas" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-15.jpg" alt="Comment classer les pages : première idée Problème : les documents ne contiennent pas" /> Comment classer les pages : première idée Problème : les documents ne contiennent pas le même nombre de mots Extraction 100 mots Extraction 1000 mots Poids = 0, 01 Poids = 0, 003 Poids du terme = fréquence = « densité du mot clé » Critère de poids retenu : nombre d’occurrences divisé par le nombre de mots du document </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Comment classer les pages : première idée Problème : les mots n’ont pas la" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-16.jpg" alt="Comment classer les pages : première idée Problème : les mots n’ont pas la" /> Comment classer les pages : première idée Problème : les mots n’ont pas la même fréquence d’apparition dans la langue Combien de pages contiennent le mot clé internet d’après Google ? 2 110 000 Combien de pages contiennent le mot clé globicéphale d’après Google ? 9 530 </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Vers un meilleur critère de poids tf*idf tf = fréquence des termes dans le" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-17.jpg" alt="Vers un meilleur critère de poids tf*idf tf = fréquence des termes dans le" /> Vers un meilleur critère de poids tf*idf tf = fréquence des termes dans le document idf = inverse du nombre de documents dans lequel le terme est présent </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Le principe du Cosinus de Salton CALCULER LE POIDS D’UN TERME DANS UN DOCUMENT" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-18.jpg" alt="Le principe du Cosinus de Salton CALCULER LE POIDS D’UN TERME DANS UN DOCUMENT" /> Le principe du Cosinus de Salton CALCULER LE POIDS D’UN TERME DANS UN DOCUMENT tf*idf Exemple de formule réellement utilisée </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Exemple de calcul sans et avec tf*idf Internet Globicéphale 1000 mots Densité 3 pour" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-19.jpg" alt="Exemple de calcul sans et avec tf*idf Internet Globicéphale 1000 mots Densité 3 pour" /> Exemple de calcul sans et avec tf*idf Internet Globicéphale 1000 mots Densité 3 pour mille Densité 1 pour mille </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Exemple de calcul sans et avec tf*idf Internet 1000 mots Index de Google 20" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-20.jpg" alt="Exemple de calcul sans et avec tf*idf Internet 1000 mots Index de Google 20" /> Exemple de calcul sans et avec tf*idf Internet 1000 mots Index de Google 20 milliards de pages (? ) Globicéphale 1000 mots 10^9 pages DF[internet] = DF[globicephale] = 2 x 10^9 / 20 x 10^9 = 0, 1 10^4 / 20 x 10^9 = 5 x 10^-7 </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Exemple de calcul sans et avec tf*idf (simplifié) Internet 1000 mots TF*i. DF[internet] =" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-21.jpg" alt="Exemple de calcul sans et avec tf*idf (simplifié) Internet 1000 mots TF*i. DF[internet] =" /> Exemple de calcul sans et avec tf*idf (simplifié) Internet 1000 mots TF*i. DF[internet] = 0, 003 / 0, 1 = 0, 03 Index de Google 20 milliards de pages (? ) Globicéphale 1000 mots 10^9 pages TF*i. DF[globicephale] = 0, 001/5 x 10^7= 2000 ! 2000 >>>> 0, 03 </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Pourquoi il faut abandonner la densité de mots clés C’est un critère qui n’est" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-22.jpg" alt="Pourquoi il faut abandonner la densité de mots clés C’est un critère qui n’est" /> Pourquoi il faut abandonner la densité de mots clés C’est un critère qui n’est plus utilisé par les outils de recherche Pertinent que pour les requêtes à un seul terme Induit le « keyword stuffing » facilement détectable </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Focus sur les critères de qualité d'un moteur Bruit et silence : mesurer la" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-23.jpg" alt="Focus sur les critères de qualité d'un moteur Bruit et silence : mesurer la" /> Focus sur les critères de qualité d'un moteur Bruit et silence : mesurer la qualité d’un moteur </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="La recherche booléenne et ses défauts " src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-24.jpg" alt="La recherche booléenne et ses défauts " /> La recherche booléenne et ses défauts </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Le principe du Cosinus de Salton Documents dans un espace à 3 dimensions :" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-25.jpg" alt="Le principe du Cosinus de Salton Documents dans un espace à 3 dimensions :" /> Le principe du Cosinus de Salton Documents dans un espace à 3 dimensions : Les documents proches dans l’espace ont un contenu similaire </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Le principe du Cosinus de Salton • Tout document peut être situé dans l’espace" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-26.jpg" alt="Le principe du Cosinus de Salton • Tout document peut être situé dans l’espace" /> Le principe du Cosinus de Salton • Tout document peut être situé dans l’espace vectoriel de Salton, par un vecteur de coordonnées sur les axes correspondant à chaque terme de l’index </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Le principe du Cosinus de Salton Une requête est un document composé de quelques" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-27.jpg" alt="Le principe du Cosinus de Salton Une requête est un document composé de quelques" /> Le principe du Cosinus de Salton Une requête est un document composé de quelques termes uniquement. Elle a donc aussi des coordonnées dans l’espace de Salton </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Le principe du Cosinus de Salton Un calcul de distance (cosinus) entre la requête" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-28.jpg" alt="Le principe du Cosinus de Salton Un calcul de distance (cosinus) entre la requête" /> Le principe du Cosinus de Salton Un calcul de distance (cosinus) entre la requête et les documents permet de classer les pages en fonction de leur proximité sémantique avec la requête… </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Le principe du Cosinus de Salton " src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-29.jpg" alt="Le principe du Cosinus de Salton " /> Le principe du Cosinus de Salton </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Le principe du Cosinus de Salton En réalité, il y’a autant de dimensions que" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-30.jpg" alt="Le principe du Cosinus de Salton En réalité, il y’a autant de dimensions que" /> Le principe du Cosinus de Salton En réalité, il y’a autant de dimensions que de “termes” C’est un espace à n dimensions </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="Les bases théoriques de l’alignement sémantique L’alignement sémantique consiste à changer le contenu textuel" src="https://present5.com/presentation/585850d68356ca45ed91e9c6e1cc84cd/image-31.jpg" alt="Les bases théoriques de l’alignement sémantique L’alignement sémantique consiste à changer le contenu textuel" /> Les bases théoriques de l’alignement sémantique L’alignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête Ali gn em en t sé ma nti qu e </p> </div> <div style="width: auto;" class="description columns twelve"><p><img class="imgdescription" title="" src="" alt="" /> </p> </div> </div> <div id="inputform"> <script>$("#inputform").load("https://present5.com/wp-content/plugins/report-content/inc/report-form-aj.php"); </script> </div> </p> <!--end entry-content--> </div> </article><!-- .post --> </section><!-- #content --> <div class="three columns"> <div class="widget-entry"> </div> </div> </div> </div> <!-- #content-wrapper --> <footer id="footer" style="padding: 5px 0 5px;"> <div class="container"> <div class="columns twelve"> <!--noindex--> <!--LiveInternet counter--><script type="text/javascript"><!-- document.write("<img src='//counter.yadro.ru/hit?t26.10;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+ ";"+Math.random()+ "' alt='' title='"+" ' "+ "border='0' width='1' height='1'><\/a>") //--></script><!--/LiveInternet--> <a href="https://slidetodoc.com/" alt="Наш международный проект SlideToDoc.com!" target="_blank"><img src="https://present5.com/SlideToDoc.png"></a> <script> $(window).load(function() { var owl = document.getElementsByClassName('owl-carousel owl-theme owl-loaded owl-drag')[0]; document.getElementById("owlheader").insertBefore(owl, null); $('#owlheader').css('display', 'inline-block'); }); </script> <script type="text/javascript"> var yaParams = {'typepage': '1000_top_300k', 'author': '1000_top_300k' }; </script> <!-- Yandex.Metrika counter --> <script type="text/javascript" > (function(m,e,t,r,i,k,a){m[i]=m[i]||function(){(m[i].a=m[i].a||[]).push(arguments)}; m[i].l=1*new Date(); for (var j = 0; j < document.scripts.length; j++) {if (document.scripts[j].src === r) { return; }} k=e.createElement(t),a=e.getElementsByTagName(t)[0],k.async=1,k.src=r,a.parentNode.insertBefore(k,a)}) (window, document, "script", "https://mc.yandex.ru/metrika/tag.js", "ym"); ym(32395810, "init", { clickmap:true, trackLinks:true, accurateTrackBounce:true, webvisor:true }); </script> <noscript><div><img src="https://mc.yandex.ru/watch/32395810" style="position:absolute; left:-9999px;" alt="" /></div></noscript> <!-- /Yandex.Metrika counter --> <!--/noindex--> <nav id="top-nav"> <ul id="menu-top" class="top-menu clearfix"> </ul> </nav> </div> </div><!--.container--> </footer> <script type='text/javascript'> /* <![CDATA[ */ var wpcf7 = {"apiSettings":{"root":"https:\/\/present5.com\/wp-json\/contact-form-7\/v1","namespace":"contact-form-7\/v1"}}; /* ]]> */ </script> <script type='text/javascript' src='https://present5.com/wp-content/plugins/contact-form-7/includes/js/scripts.js?ver=5.1.4'></script> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/jquery.shuffle.js?ver=4.9.26'></script> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/scripts.js?ver=1.13'></script> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/shuffle.js?ver=4.9.26'></script> <!--[if lt IE 9]> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/selectivizr.js?ver=1.0.2'></script> <![endif]--> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/notify.js?ver=1770854278'></script> <script type='text/javascript'> /* <![CDATA[ */ var my_ajax_object = {"ajax_url":"https:\/\/present5.com\/wp-admin\/admin-ajax.php","nonce":"ec79892d7b"}; /* ]]> */ </script> <script type='text/javascript' src='https://present5.com/wp-content/themes/sampression-lite/lib/js/filer.js?ver=1770854278'></script> </body> </html>