2-Robert Viseur

introduits, par exemple, par les disparités nationales ou les secrets ... littérature sur la wébométrie, et plus particulièrement l'utilisation des volumétries.
67KB taille 10 téléchargements 378 vues
Les moteurs de recherche commerciaux sont-ils des outils de webométrie fiables ?

Robert Viseur CETIC Bâtiment Éole Rue des Frères Wright, 29/3 B-6041 Charleroi

Université de Mons Faculté Polytechnique Place du Parc, 20 B-7000 Mons

[email protected]

[email protected]

RÉSUMÉ .

Les moteurs de recherche commerciaux (Google, Bing, Yahoo!, etc.) ont séduit de nombreux chercheurs pour la webométrie. Plusieurs études montrent les limites des moteurs en cette matière. Ces études deviennent cependant rapidement dépassées compte tenu de la rapidité des évolutions techniques des moteurs, de leur syntaxe et de leurs interfaces de programmation (APIs). Cette recherche s'attachera à confirmer les limites mises en évidence pour les moteurs de recherche Bing et Google, et identifiera de nouvelles limitations liées à l'utilisation d'opérateurs booléens et de critères géographiques.

ABSTRACT . The commercial search engines such as Google, Bing or Yahoo! attracted many researchers for webometrics. However several studies showed the limitations of the engines in this matter. These studies unfortunately become obsolete in view of rapid developments in the engines, their syntax and their programming interfaces (APIs). This research confirms the limitations identified for the search engines Google and Bing, and identifies new restrictions related to the use of Boolean operators and geographical criteria. MOTS-CLÉS

: webométrie, Google, bing, API, moteur de recherche.

KEYWORDS :

webometry, Google, bing, API, search engine, hit count.

1. Introduction La consultation de la messagerie et la recherche d'information restent les deux premiers cas d'utilisation de l'Internet (Berret, 2008). Les chercheurs font également un large usage des moteurs de recherche publics, que ce soit pour leurs recherches d'information, ou pour exploiter les listes de résultats et les informations associées. L'étude quantitative des phénomènes relatifs au Web fait l'objet d'une discipline particulière: la webométrie (Thelwall et al., 2005). Thelwall, Vaughan et Björneborn (2005) notent notamment un usage répandu des décomptes de pages de résultats. Les principaux moteurs de recherche publics (Google, Yahoo!, Bing) donnent en effet accès à des index de très grande taille. Les auteurs insistent cependant sur la couverture partielle du Web par ces outils ainsi que sur les biais potentiels introduits, par exemple, par les disparités nationales ou les secrets commerciaux. Notre recherche concerne les implications pour le chercheur de l'exploitation des volumétries des résultats de recherche renvoyés ( hit count) par les moteurs de recherche. Elle sera organisée comme suit. Nous commencerons par une revue de la littérature sur la wébométrie, et plus particulièrement l'utilisation des volumétries des moteurs de recherche commerciaux. Nous présenterons ensuite nos hypothèses et la méthodologie mise en œuvre pour les tester. Nous présenterons enfin les résultats, puis les discuterons.

2. Revue de la littérature Les domaines d'utilisation de la volumétrie des listes de résultats dans les moteurs de recherche commerciaux sont diversifiés. Nous pouvons notamment citer le traitement de la langue (Cimiano et al., 2003; Grefenstette, 1999; Turney, 2001), l'analyse de sentiments dans les textes (Turney, 2002), l'analyse des performances des entreprises (Romero-Frias, 2009), l'étude de la diffusion des publications académiques (Thelwall, 2004), ou encore l'évaluation automatique d'articles ou de revues scientifiques (Thelwall, 2004; Chena et al., 2007; Moussa et Touzani, 2009). Les moteurs de recherche interdisent l'extraction de données par l'exécution de requêtes automatiques (McCown et Nelson, 2007; Thelwall et Sud, 2012). En contrepartie, les moteurs de recherches proposent parfois des API ( Application Programming Interface), en complément de la WUI (Web User Interface), permettant à un logiciel externe d'automatiquement interroger le moteur. Ces APIs connaissent des évolutions régulières (api.bing.net; code.google.com; Foster, 2007; Kilgarriff, 2007; Mayr et Tosques, 2005; Thelwall et Sud, 2012). L'API Google a ainsi connu trois versions successives, de 2002 (avec une première version, gratuite, basée sur le protocole SOAP) à 2010 (avec une troisième version, payante au delà de 100 requêtes par jour, basée sur JSON). Microsoft a également proposé des versions successives d'API pour son moteur Live Search puis pour

Bing. Après une première version REST gratuite, Yahoo! propose aujourd'hui une API payante baptisée Yahoo! Search BOSS. Par ailleurs, dans le cadre de l'Alliance Search (www.searchalliance.com), Yahoo! bascule progressivement sur la technologie de recherche Bing de Microsoft (developer.yahoo.com; Andrieu, 2011). Depuis quelques années, les chercheurs s'intéressent aux limitations liées à l'utilisation des données quantitatives issues des moteurs de recherche, et plus spécifiquement aux volumétries associées aux listes de résultats, dans les APIs et les WUIs. Mayr et Tosques (2005) ont étudié les résultats renvoyés par l'API SOAP de Google. En comparant les résultats provenant de l'API et de la WUI, ils ont constaté de fortes différences dans le classement des pages Web mais aussi dans le nombre de résultats renvoyés par requête. McCown et Nelson (2007) ont comparé le fonctionnement des APIs de Google, Yahoo et MSN. Le nombre de résultats issus de MSN est apparu sensiblement le même pour l'API et la WUI, au contraire de Yahoo! et de Google. Dans une première étude du moteur de recherche Bing (successeur de MSN Search), Thelwall et Sud (2012) ont noté l'apparente consistance du nombre de résultats renvoyés. Funahashi et Yamana (2010) ont confirmé l'instabilité des résultats dans le temps, et découvert une influence de l'offset (déplacement par rapport à la première page de résultat) sur le nombre de résultats affiché. Ils estiment plus fiable les « hit counts » affichés dès lors que leur stabilité est constatée sur au moins une semaine. Plusieurs requêtes successives sur un moteur de recherche ne donnent pas forcément le même résultat. Cela pourrait s'expliquer par le caractère distribué des moteurs de recherche (Kilgarriff, 2007). Kilgarriff (2007) regrette le temps passé à apprendre les subtilités des moteurs de recherche commerciaux et, compte tenu de leurs inconvénients, rappelle la possibilité de créer son propre index. Reste que les moteurs de recherche commerciaux sont intéressants pour les chercheurs, si pas pour la qualité des résultats, en tout cas pour la taille de leurs bases de données (index). Compte tenu de l'évolution rapide des moteurs et de leurs APIs, la plupart des études évoquées dans la revue de la littérature sont aujourd'hui obsolètes. Leur fonctionnement a pu être amélioré ou dégradé. Par ailleurs, certains facteurs n'ont pas été pris en compte, comme le comportement en fonction du type de requête -requête simple, composée ou complexe- et la qualité des ciblages géographiques.

3. Hypothèses Nous proposons de tester les quatre hypothèses suivantes: 1. La volumétrie des moteurs de recherche n'est pas stable dans le temps. 2. Les requêtes complexes, ou booléennes, donnent des résultats conformes à la théorie des ensembles.

3. La volumétrie donnée par l'API est différente de la volumétrie donnée par la WUI. 4. La volumétrie donnée par l'API n'est pas proportionnelle à la volumétrie donnée par la WUI. 4. Méthodologie Cette recherche a été initiée dans le cadre d'une étude sur la popularité des marques automobiles sur Internet. Dans ce cadre, des incohérences entre résultats de recherche ont été découvertes. L'existence de problèmes a été confirmée par un état de l'art sur le sujet. Nous réaliserons donc notre expérimentation en utilisant comme mots-clefs de noms de marque, parfois associée à un nom de modèle. Les hypothèses seront testées sur Google (WUI), Google Ajax API ( deprecated, noté APId), Google Custom Search API, Bing (WUI) et Bing API. Yahoo! BOSS ne sera pas évalué ici (son infrastructure de recherche bascule sur la technologie Bing). Les données collectées sont automatiquement mises en forme dans des tableaux, exploitables dans un tableur. Elles sont associées à la date d'exécution et aux URLs générées pour interroger les moteurs. Des vérifications peuvent ainsi être faites quant au bon déroulement de la collecte de données. Hypothèse n°1: Une requête, à savoir une marque, est répétée, de manière à obtenir 5 séries de 100 requêtes. Hypothèse n°2: Deux séries de requêtes sont exécutées. La première série est composée de 20 ensembles de requêtes obéissant à la forme suivante: 'marque', 'modèle', 'marque modèle' et 'marque -modèle' (soit 80 requêtes). La seconde série est composé de 20 ensembles de requêtes obéissant à la forme suivante: 'marque', 'modèle', 'marque AND modèle' et 'marque OR modèle' (soit 80 requêtes). La première hypothèse sera testée en calculant les rapports q1 et q2 (cf. [1] et [2]). En cas de vérification de l'hypothèse, ces rapports devront tendre vers 1. q1 = [ card ('marque modele') + card ('marque -modèle') ] / [ card ('marque') ]

[1]

q2 = [ card ('marque AND modèle') + card ('marque OR modele') ] / [ ( card ('marque') + card ('modèle') ]

[2]

Hypothèse n°3: Vingt cinq marques automobiles sont utilisées comme requêtes simples. Ces requêtes sont exécutées sur le Web mondial et sur le Web français. Les requêtes seront exécutées avec les paramètres par défaut (Web mondial), puis en ciblant le Web français. Le ciblage géographique sera appliqué avec l'opérateur « loc:FR » sur Bing et avec le paramètre « cr=countryFR » pour Google. Hypothèse n°4: Idem n°3.

5. Résultats expérimentaux Hypothèse n°1: Des écarts sont constatés d'une série à l'autre mais aussi d'une requête à l'autre au sein d'une même série (cf. Table 1). Les écarts peuvent être considérés comme faibles. Des variations ponctuelles donnant lieu à des valeurs apparemment aberrantes ont par contre été observées à plusieurs reprises avec la WUI de Google (ex. : 108.000.000 sur une série donnant une estimation récurrente de 604.000.000). Bing WUI Bing API Google WUI Google APId Google API

Par série 5,70% 5,10% 0,17% 0,00% 0,00%

Toutes les séries 5,79% 8,34% 0,17% 0,00% 1,16%

Table 1. Écart maximum ([max.-min.]/moy.). Un test réalisé sur une plus longue période donnerait probablement des écarts plus importants entre les valeurs extrêmes (pour tous les séries), du fait notamment de l'augmentation constante de la taille de l'index. L'instabilité des volumétries renvoyées par les moteurs est donc confirmée, et tout particulièrement pour Google. Hypothèse n°2: La première série donne un résultat conforme aux attentes pour Bing, avec une valeur q1 proche de 1 (cf. Table 2). Google affiche par contre un comportement surprenant. Les valeurs s'expliquent par les résultats renvoyés par la requête de type 'marque -modèle', indiquant systématiquement plus de résultats que la requête 'marque'. Le signe '-' est bien confirmé comme opérateur d'exclusion par Bing (2012) et Google (2012). Bing WUI Bing API Google WUI Google APId Google API

q1 0,98 0,97 4,11 1,52 1,55

q2 1,00 0,99 1,70 0,94 0,97

Table 2. Rapport entre résultat obtenu et résultat attendu. La seconde série permet de constater un comportement cohérent pour Bing, avec une valeur de q2 est proche de 1. La WUI Google donne à nouveau un résultat non conforme aux attentes avec un q2 largement supérieur à 1. Les APIs ont par contre un comportement plus conforme à ce qui était attendu. L'analyse complexe du sens des requêtes mise en œuvre par Google pourraient, peut-être, expliquer certains écarts observés. Nous constatons par ailleurs que les deux moteurs sont sensibles à la casse pour l'opérateur 'OR'. La même requête avec 'or' ou 'OR' sera donc interprétée

différemment. Vérification faite, Google insiste sur l'utilisateur des majuscules pour l'opérateur 'OR' (Google, 2012). De même, une requête à deux termes avec ou sans 'AND' donnera des résultats fort différents chez Google. La requêtes avec 'AND' renverra généralement plus de résultats (en moyenne plus de 5 fois plus) que la requête sans le 'AND'. Google informe pourtant que « dans la mesure où l'opérateur AND est utilisé par défaut, il n'est pas nécessaire de l'ajouter » (Google, 2012). Bing semble donc donner des résultats conformes à la théorie des ensembles (logique booléenne), au contraire de Google. Hypothèse n°3 : Les APIs et les WUIs de Google donnent des résultats sensiblement différents, au contraire de celles de Bing (cf. Table 3). Bing WUI / Google WUI Google WUI Google WUI

Bing API / Google APId / Google API / Bing WUI

Monde 1,04 12,44 12,86 3,44

France 1,00 77,17 75,90 10,07

Table 3. Rapport entre les nombres de résultats de la WUI et de l'API. D'une requête à une autre, d'importants écarts apparaissent également chez Google. Ainsi, pour les requêtes ciblées sur le Web français, les valeurs extrêmes de rapport de volumétrie entre la WUI et l'API sont de 16,30 et de 204,88. La WUI de Google donne sur ces requêtes en moyenne 3,44 fois plus de résultats que la WUI Bing (Web mondial). Ce chiffre est à comparer avec le rapport de 5 à 6 donné par Thelwall et Sud (2012). Des changements de comportements ont été constatés tout au long des tests. Lors d'une première série de tests, l'API de Bing renvoyait systématiquement moins de résultats que la WUI, avec ponctuellement, pour les requêtes exécutées sur le Web mondial, le renvoi d'une valeur comparable à la WUI. Les résultats se sont progressivement alignés. Des tests complémentaires sur plusieurs pays (France, Belgique, Allemagne, etc.) ont confirmé la similarité des résultats pour Bing. Le phénomènes observé pourrait s'apparenter à une « danse », similaire à ce que l'on pouvait observer jadis lors des mises à jour de l'index de Google. La différence de volumétrie entre WUI et API est donc confirmée pour Google, mais pas pour Bing, dont l'API et la WUI affichent des résultats fort proches. Hypothèse n°4: La corrélation entre les moteurs et leur API varie suivant le cas d'utilisation (cf. Table 4). Pour Bing, la relation apparaît forte dans tous les cas testés. La situation est différente pour Google, avec relation modérée dans le cas des requêtes ciblées sur le Web mondial et faible (et négative) sur le Web français. Les valeurs renvoyées par les API de Google sont fortement liées (sans être identiques) pour les requêtes faites sur le Web français et sur le Web mondial.

Bing WUI , Bing API Google WUI, Bing WUI Google WUI, Google APId Google WUI, Google API Google APId, Google API

Monde 1,00 0,46 0,63 0,62 1,00

France 1,00 0,85 -0,36 -0,42 0,81

Table 4. Corrélations. Les corrélations entre la volumétrie des WUIs de Google et Bing montrent une relation forte entre les deux séries de données pour le Web français et ce, malgré des différences importantes de volumétrie entre les deux moteurs. La proportionnalité entre les volumétries de l'API et de la WUI est donc confirmée pour Bing (à la réserve près du possible phénomène de « danse ») mais pas pour Google. Google présente par ailleurs un comportement différent suivant le ciblage géographique.

6. Discussion Les expérimentations ont montré l'actualité de deux constatations. D'une part, le nombre estimé de résultats renvoyés par les moteurs de recherche n'est pas stable d'une requête à l'autre. D'autre part, la volumétrie indiquée par les interfaces de programmation d'application (APIs) peut différer de la volumétrie indiquée par les interfaces Web pour utilisateur (WUIs). Les expérimentations ont aussi permis d'identifier de nouveaux problèmes dans les volumétries renvoyées par les requêtes utilisant implicitement (requête composée de deux termes) ou explicitement (utilisation des opérateurs 'OR' et 'AND') des opérateurs booléens. De plus, l'influence de la localisation des résultats a été mise en évidence. Un usage prudent des volumétries de Bing paraît envisageable. Cependant, une vérification préalable (par comparaison à des requêtes similaires, par exécutions successives de la requête, etc.) des valeurs obtenues est fortement recommandée. Le comportement difficilement prévisible de Google limite par contre les usages recourant à la volumétrie renvoyée. Dans le cas d'expérimentations sur un ensemble limité de sites, la création d'un index personnel apparaît comme une option réaliste, dès lors que des outils de crawl et d'indexation, notamment Open Source (wget, Lucene, Xapian, etc.), existent et qu'un traitement documenté peut être mis en place.

7. Bibliographie Andrieu O., « Yahoo! France commencera sa migration sur Bing ce mercredi 3 août », Abondance, actu.abondance.com, 01 août 2011 (consulté le 25/01/2012). Berret P., « Diffusion et utilisation des TIC en France et en Europe », Culture chiffres, 2008, n°2, p. 1-15.

Bing, « Advanced Operator Reference », Bing Query Language, msdn.microsoft.com (consulté le 3 février 2012). Chena P., Xieb H., Maslovc S., Rednera S., « Finding scientific gems with Google’s PageRank algorithm », Journal of Informetrics, 1, 2007, p. 8–15. Cimiano P., Pivk A., Schmidt-Thieme L., Staab S., Learning Taxonomic Relations from Heterogeneous Sources of Evidence, IOS Press, 2003. Foster J.C., « Automating Google searching ». In Long J., Google Hacking for Penetration Testers, Syngress, 2007. Funahashi T., Yamana H., « Reliability Verification of Search Engines’ Hit Counts: How to Select a Reliable Hit Count for a Query », Computer Science, 2010, Vol. 6385, p. 114125. Google, « Aide supplémentaire pour la recherche », Centre d'aide Recherche sur le Web, support.google.com (consulté le 29 janvier 2012). Grefenstette G., « The World Wide Web as a resource for example-based machine translation tasks », Translating and the Computer (Proceedings), November 10-11, 1999. Kilgarriff A., « Googleology is Bad Science », Computational Linguistics, 33(1), 2007, p. 147-151. Mayr P., Tosques F., « Google Web APIs - an instrument for Webometric analyses? ». ISSI 2005 conference (Proceedings), 2005. McCown F., Nelson M.L., « Agreeing to disagree: search engine and their public interface », Joint Conference on Digital Libraries (Proceedings), June 18-23, 2007. Moussa S., Touzani M., « Ranking marketing journals using the Google Scholar-based hgindex », Journal of Informetrics, 4, 2010, p. 107–117. Romero-Frias E., « Googling Companies - A Webometric Approach to Business Studies », Electronic Journal of Business Research Methods, 7(1), 2009, p. 93-106. Taboada M., Anthony C., Voll K., « Methods for creating semantic orientation dictionaries », Fifth International Conference on Language Resources and Evaluation (Proceedings), Genoa, Italy, 2006, p. 427-432. Thelwall M., « Can the web give useful information about commercial uses of scientific research? », Online Information Review, 28(2), 2004, p. 120-130. Thelwall M., Vaughan L., Björneborn L., « Webometrics ». In: Annual Review of Information Science and Technology, 39, 2005, p. 81-135. Thelwall M., Sud, P., « Webometric research with the Bing Search API 2.0 », Journal of Informetrics, 6(1), 2012, p. 44-52. Turney P.D., « Mining the Web for synonyms: PMI-IR versus LSA on TOEFL », Twelfth European Conference on Machine Learning, Freiburg, Germany, 2001, p. 491-502. Turney P.D., « Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews », 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, Pennsylvania, 2002, p. 417-424.