L'IA en langage open source défie les modèles des grandes technologies

L’IA en langage open source défie les modèles des grandes technologies

 


Les chercheurs ont mis en garde contre les dommages possibles de l’IA qui traite et génère du texte.Crédit : Getty

Une équipe internationale d’environ 1 000 bénévoles, en grande partie universitaires, a tenté de briser l’emprise des grandes technologies sur le traitement du langage naturel et de réduire ses méfaits. Formé avec 7 millions de dollars de temps de calcul financé par l’État, le modèle de langage BLOOM rivalisera en taille avec ceux des entreprises Google et OpenAI, mais sera open source. BLOOM sera également le premier modèle de sa gamme à être multilingue.

La collaboration, appelée BigScience, a lancé une première version du modèle le 17 juin et espère qu’elle contribuera à terme à réduire les sorties nocives des systèmes linguistiques d’intelligence artificielle (IA). Les modèles qui reconnaissent et génèrent le langage sont de plus en plus utilisés par les grandes entreprises technologiques dans des applications allant des robots de discussion aux traducteurs, et peuvent sembler si étrangement humains qu’un ingénieur de Google a affirmé ce mois-ci que le modèle d’IA de l’entreprise était sensible (Google nie fermement que l’IA possède la sensibilité ). Mais ces modèles souffrent également de graves défauts pratiques et éthiques, tels que la répétition des préjugés humains. Ceux-ci sont difficiles à aborder car le fonctionnement interne de la plupart de ces modèles est fermé aux chercheurs.

En plus d’être un outil pour explorer l’IA, BLOOM sera ouvert à une gamme d’utilisations de recherche, telles que l’extraction d’informations à partir de textes historiques et la réalisation de classifications en biologie. “Nous pensons que l’accès au modèle est une étape essentielle pour faire un apprentissage automatique responsable”, déclare Thomas Wolf, co-fondateur de Hugging Face, une société qui héberge une plate-forme open source pour les modèles d’IA et les ensembles de données, et a contribué à fer de lance de l’initiative.

“Il était attendu depuis longtemps que cette technologie se diffuse dans le monde open source, et c’est une façon assez intéressante pour que cela se produise”, déclare Connor Leahy, co-fondateur d’EleutherAI, qui crée son propre grand langage open source. modèle en anglais et n’a pas participé au projet.

Machines d’apprentissage

Les grands modèles de langage sont des algorithmes qui apprennent des associations statistiques entre des milliards de mots et de phrases pour effectuer des tâches telles que la génération de résumés, la traduction, la réponse aux questions et la classification de texte. Construits à l’aide d’architectures inspirées du cerveau appelées réseaux de neurones, les modèles s’entraînent en ajustant des valeurs, appelées paramètres, en supprimant des mots et en comparant leurs prédictions avec la réalité. BLOOM compte 176 milliards de paramètres, à égalité avec GPT-3, l’un des modèles de ce type les plus connus, qui a été créé par la société à but non lucratif OpenAI et sous licence de Microsoft.

Bien que de tels modèles soient parfois impressionnants – générant de la poésie ou répondant correctement à des questions triviales – ils n’ont aucun sens de la signification du langage, ce qui les amène également à créer du charabia. Plus inquiétant encore, ils peuvent également promouvoir les abus ou l’automutilation, et faire écho aux associations racistes ou sexistes existantes qui sont cousues tout au long du texte écrit par des humains sur lequel ils apprennent, comme le lien entre «l’islam» et le terrorisme. Les modèles coûtent généralement des millions de dollars à former et ont une énorme empreinte carbone (BigScience prévoit à terme de révéler ses émissions de carbone).

Alors que la plupart des modèles de langage naturel sont construits par de petites équipes internes, BLOOM était l’œuvre de centaines de chercheurs – pour la plupart universitaires – dont des éthiciens, des juristes et des philosophes, mais aussi des employés de Facebook et Google, travaillant à titre personnel. Pour former BLOOM, BigScience a obtenu un accès gratuit au supercalculateur national français Jean Zay en dehors de Paris. Le modèle est actuellement dans les dernières semaines de sa formation de trois mois.

Texte trié sur le volet

Les modèles ne sont aussi bons que les ensembles de données sur lesquels ils sont basés, donc une tâche majeure consistait à sélectionner les textes dont le modèle devrait apprendre, explique Yacine Jernite, chercheur en apprentissage automatique chez Hugging Face. La plupart des principaux modèles extraient le langage directement du Web, y compris des sites tels que Reddit. Au lieu de cela, les chercheurs de BigScience ont sélectionné près des deux tiers de leur ensemble de données de 341 milliards de mots à partir de 500 sources. Parmi eux se trouvait Semantic Scholar, un moteur de recherche soutenu par l’IA pour les publications universitaires qui comprend également des contenus tels que La nature articles de presse. Les sources ont été suggérées lors d’une série d’ateliers, notamment avec des groupes communautaires, tels que la communauté africaine de traitement du langage naturel Masakhane, LatinX in AI et Machine Learning Tokyo. « Nous voulions nous assurer que les personnes proches des données, leur pays, la langue qu’elles parlent, aient leur mot à dire dans le choix de la langue utilisée pour la formation du modèle », explique Jernite.

Pour tirer pleinement parti de la puissance de calcul disponible, l’équipe a complété la mine de données à l’aide d’une analyse Web multilingue, filtrée pour la qualité et avec une certaine rédaction pour la confidentialité. La collaboration a également tenté de réduire la surreprésentation habituelle des sites pornographiques (qui peut conduire à des associations sexistes dans le modèle) mais sans exclure les mots-clés qui supprimeraient le contenu associé à une discussion franche sur la sexualité au sein de communautés souvent sous-représentées.

Jernite reconnaît que BLOOM ne sera pas exempt de préjugés. Mais en lui fournissant des sources multiculturelles et de qualité, l’équipe espère améliorer les modèles existants. Surtout, parce que le code et l’ensemble de données derrière le modèle sont ouverts, les chercheurs peuvent essayer de comprendre les racines des comportements nuisibles, ce qui pourrait améliorer les futures itérations, dit Wolf.

L’évaluation du modèle différera également des critères de référence habituels, explique Ellie Pavlick, chercheuse en apprentissage du langage naturel à l’Université Brown de Providence, Rhode Island. En plus de comparer BLOOM à d’autres modèles dans ses capacités à, par exemple, répondre à des questions, les chercheurs souhaitent également examiner des mesures plus diverses, telles que la force avec laquelle il crée certaines associations stéréotypées ou le biais de ses capacités envers une langue spécifique. Pavlick espère que parce que le modèle a été formé pour être multilingue, il pourrait avoir une compréhension plus profonde de la langue, ce qui pourrait aider dans sa capacité à généraliser à une diversité de tâches.

Leahy prédit que le modèle pourrait fonctionner légèrement moins bien que d’autres grands modèles en anglais, compte tenu de son ensemble de données plus petit dans la langue, mais cela devrait être contrebalancé par des performances nettement meilleures ailleurs.

Utilisation gratuite

Le modèle BLOOM entièrement formé sera disponible en téléchargement pour les chercheurs qui souhaitent l’expérimenter ou le former sur de nouvelles données pour des applications spécifiques. Mais son téléchargement et son exécution nécessitent une capacité matérielle importante. Parce que cela est disponible pour si peu d’équipes de recherche, BigScience publiera également des versions plus petites et moins gourmandes en matériel et créera un système distribué qui permet aux laboratoires de partager le modèle sur leurs serveurs. De plus, Hugging Face lancera une application Web qui permettra à quiconque d’interroger BLOOM sans la télécharger. Une application similaire sera disponible pour la version anticipée plus tard cette semaine.

BLOOM pourrait trouver des utilisations dans la recherche en dehors de l’IA. Francesco de Toni, linguiste à l’Université d’Australie-Occidentale à Perth, dirige conjointement un groupe de travail BigScience qui envisage d’utiliser des modèles pour extraire des informations de collections de textes historiques trop volumineuses pour être parcourues à la main. Les modèles peuvent, par exemple, extraire tous les noms ou biens mentionnés dans un recueil de lettres de marchands de la Renaissance, informations impossibles à trouver à l’aide d’un moteur de recherche.

BLOOM est livré avec une documentation décrivant ses capacités et ses limites. Son utilisation nécessite également la signature d’une licence légale évolutive qui engage les chercheurs à ne pas utiliser le modèle à des fins malveillantes ou inappropriées, telles que la génération de fausses nouvelles. La collaboration surveillera la façon dont le modèle est appliqué et ajustera la licence et la documentation si nécessaire, explique Giada Pistilli, éthicienne à Hugging Face et philosophe à l’Université de la Sorbonne à Paris qui a coprésidé le groupe de travail éthique et juridique de BigScience. « Il est vraiment difficile d’imaginer et de prévoir toutes les utilisations », dit-elle.

#LIA #langage #open #source #défie #les #modèles #des #grandes #technologies