Avec Google qui domine la recherche, Internet a besoin d'une neutralité d'exploration

Avec Google qui domine la recherche, Internet a besoin d’une neutralité d’exploration

 

Aujourd’hui, une seule entreprise, Google, contrôle la quasi-totalité de l’accès mondial à l’information sur Internet. Leur monopole dans la recherche signifie pour des milliards de personnes, leur passerelle vers la connaissance, vers les produits, et leur exploration du Web est entre les mains d’une seule entreprise. La plupart conviennent que ce manque de concurrence dans la recherche est mauvais pour les individus, les communautés et la démocratie.

À l’insu de beaucoup, l’un des plus grands obstacles à la concurrence dans la recherche est le manque de neutralité en matière d’exploration. La seule façon de créer un moteur de recherche indépendant et d’avoir la possibilité de concurrencer équitablement Big Tech est d’abord d’explorer Internet de manière efficace et efficiente. Cependant, le Web est un environnement activement hostile pour les robots d’exploration des moteurs de recherche débutants, la plupart des sites Web n’autorisant que le robot d’exploration de Google et discriminant les autres robots d’exploration des moteurs de recherche comme celui de Neeva.

Ce problème d’une importance cruciale, mais souvent négligé, a un impact énorme sur le fait d’empêcher les moteurs de recherche émergents comme Neeva de fournir aux utilisateurs de véritables alternatives, réduisant encore la concurrence dans la recherche. Semblable à la neutralité du net, nous avons aujourd’hui besoin d’une approche de la neutralité du crawl. Sans changement de politique et de comportement, les concurrents de la recherche continueront de se battre avec une main liée dans le dos.

Commençons par le début. Construire un index complet du Web est une condition préalable à la concurrence dans la recherche. En d’autres termes, la première étape de la construction du moteur de recherche Neeva consiste à “télécharger Internet” via le robot d’exploration de Neeva, appelé Neevabot.

C’est ici que les ennuis commencent. Pour la plupart, les sites Web n’autorisent qu’un accès sans entrave aux robots d’exploration de Google et de Bing tout en discriminant les autres robots d’exploration comme celui de Neeva. Ces sites interdisent tout le reste dans leurs fichiers robots.txt ou (plus communément) ne disent rien dans robots.txt, mais renvoient des erreurs au lieu du contenu aux autres robots d’exploration. L’intention peut être de filtrer les acteurs malveillants, mais la conséquence est de jeter le bébé avec l’eau du bain. Et vous ne pouvez pas fournir de résultats de recherche si vous ne pouvez pas explorer le Web.

Cela oblige les startups à consacrer un temps et des ressources démesurés à trouver des solutions de contournement. Par exemple, Neeva met en œuvre une politique consistant à “explorer un site tant que le fichier robots.txt autorise GoogleBot et n’interdit pas spécifiquement Neevabot”. Même après une solution de contournement comme celle-ci, des parties du Web contenant des résultats de recherche utiles restent inaccessibles à de nombreux moteurs de recherche.

Comme deuxième exemple, de nombreux sites Web autorisent souvent un robot d’exploration non Google via robots.txt et le bloquent d’autres manières, soit en lançant divers types d’erreurs (503, 429, …) ou en limitant le débit. Pour explorer ces sites, il faut déployer des solutions de contournement telles que “obscurcir en explorant à l’aide d’une banque d’adresses IP proxy qui tournent périodiquement”. Les moteurs de recherche légitimes comme Neeva répugnent à déployer des solutions de contournement contradictoires comme celle-ci.

Ces barrages routiers sont souvent destinés aux robots malveillants, mais ont pour effet d’étouffer la concurrence légitime en matière de recherche. Chez Neeva, nous avons déployé beaucoup d’efforts pour créer un robot d’exploration qui se comporte bien, qui respecte les limites de débit et qui explore au débit minimum nécessaire pour créer un excellent moteur de recherche. En attendant, Google a carte blanche. Il explore les pages Web 50B par jour. Il visite chaque page du Web une fois tous les trois jours et taxe la bande passante du réseau sur tous les sites Web. C’est la taxe du monopoleur sur Internet.

Pour les robots chanceux parmi nous, un ensemble de sympathisants, de webmasters et d’éditeurs bien intentionnés peut vous aider à placer votre bot sur la liste blanche. Grâce à eux, l’exploration de Neeva s’exécute désormais sur des centaines de millions de pages par jour, en bonne voie pour atteindre bientôt des milliards de pages par jour. Même ainsi, cela nécessite toujours d’identifier les bonnes personnes dans ces entreprises avec lesquelles vous pouvez parler, d’envoyer des e-mails et d’appeler à froid, et d’espérer la bonne volonté des webmasters sur des alias de webmaster qui sont généralement ignorés. Un correctif temporaire qui n’est pas évolutif.

L’obtention de la permission d’explorer ne devrait pas dépendre de qui vous connaissez. Il devrait y avoir un terrain de jeu égal pour tous ceux qui participent et respectent les règles. Google est un monopole de la recherche. Les sites Web et les webmasters sont confrontés à un choix impossible. Laissez Google les explorer ou n’apparaissez pas en bonne place dans les résultats de Google. En conséquence, le monopole de recherche de Google amène l’Internet dans son ensemble à renforcer le monopole en donnant un accès préférentiel à Googlebot.

Internet ne devrait pas être autorisé à faire la distinction entre les robots des moteurs de recherche en fonction de qui ils sont. Le robot d’exploration de Neeva est capable d’explorer le Web à la vitesse et à la profondeur de Google. Il n’y a pas de limites techniques, juste des forces de marché anticoncurrentielles qui rendent plus difficile une concurrence loyale. Et si c’est trop de travail supplémentaire pour les webmasters de distinguer les bad bots qui ralentissent leurs sites web des moteurs de recherche légitimes, alors ceux qui ont carte blanche comme GoogleBot devraient être tenus de partager leurs données avec des acteurs responsables.

Les régulateurs et les décideurs doivent intervenir s’ils se soucient de la concurrence dans la recherche. Le marché a besoin d’une neutralité de crawl, similaire à la neutralité du net.

Vivek Raghunathan est cofondateur de Neeva, un moteur de recherche privé sans publicité. Asim Shankar est le directeur de la technologie de Neeva.


#Avec #Google #qui #domine #recherche #Internet #besoin #dune #neutralité #dexploration