Traitement du langage naturel (NLP) : 5 tendances à suivre

Le NLP pour Natural Language Processing ou traitement du langage naturel (TLN) est un des domaines de l’intelligence artificielle qui progresse le plus. Le NLP a déjà donné naissance à des technologies telles que les assistants vocaux, les chatbots et de nombreux autres outils intelligents que nous utilisons quotidiennement. L’année 2021 a également été marquée par le lancement du GPT-3, un modèle de deep learning capable de générer du texte et même de programmer !

À l’heure du big data et de l’automatisation, ces évolutions du NLP concernent tous les secteurs d’activité et représentent d’importantes opportunités pour les professionnels de l’IT. Découvrez dans cet article, les 5 tendances clé du traitement du langage naturel.

1 - L’apprentissage par transfert ou Transfer learning

L’apprentissage par transfert ou transfert learning est une technique d’apprentissage automatique dans laquelle un modèle est formé pour une tâche puis réutilisé pour exécuter une deuxième tâche proche de la première.

Ainsi, au lieu de créer et d’entraîner un modèle à partir de zéro, il « suffit » d’affiner le modèle existant préentraîné. L’objectif est de réduire les coûts, le temps et les volumes de données nécessaires à l’entraînement des algorithmes d’IA.

Cette technique d’apprentissage n’est pas nouvelle dans le monde de l’IT. Elle a d’abord été exploitée dans le domaine de la vision par ordinateur (computer vision), une autre discipline de l’IA qui a pour objectif de permettre aux ordinateurs d’interpréter des données visuelles. Ce procédé requiert d’importantes puissances de calculs et l’accès à des composants matériels (comme le GPU) pour générer des modèles efficaces. Dans ce domaine, il est donc courant de réutiliser des modèles de machine learning déjà entraînés pour des projets présentant des similitudes.

Ces prochaines années, l’apprentissage par transfert devrait se généraliser dans la NLP notamment pour les tâches :

de classification d’intentions (avec par exemple la détection automatique de fake news) ;
d’analyse des sentiments ;
de reconnaissance d’entités nommées ;
de classification de textes.

2 - Des modèles de NLP multilingues

La plupart des progrès et évolutions du traitement du langage naturel sont pour l’instant centrés sur la langue anglaise. Cependant, de grands groupes, Google et Facebook en tête, fournissent des modèles multilingues préformés fonctionnant aussi bien (voire mieux) que les modèles unilingues. Là aussi, cette tendance n’est pas vraiment « nouvelle » puisque dès 2019, Facebook avait publié un modèle baptisé XLM-R, qui utilisait des techniques de formation autosupervisées pour atteindre de hautes performances en matière de compréhension interlinguistique.

Cette tendance va cependant fortement s’accentuer dans les prochaines années grâce au progrès dans :

l’incorporation de phrases indépendantes de la langue ;
la modélisation du langage de traduction (TLM) ;
les modèles de langage masqué (MLM), comme celui utilisé par BERT, le modèle de langage développé par Google ;
l’apprentissage zéro coup ou Zero Shot Learning (ZSL), un sous-domaine de l’apprentissage par transfert où les caractéristiques et étiquettes sont disparates.

Les bibliothèques open source suivent également les traces de Google et Facebook, ce qui devrait augmenter les modèles de NLP multilingues disponibles ces prochaines années. Parmi ces outils de NLP multilingues open source, on peut déjà citer le Natural Language Toolkit (NLTK) de Python ou spaCy.

3 - Des modèles de NLP no-code

Le NLP, et l’ensemble des disciplines d’IA sont considérés comme des domaines complexes qui demandent de solides compétences en programmation, apprentissage automatique, statistiques, sciences des données, etc.

Mais, dans les prochaines années, des outils no-code pourraient bien venir simplifier la construction de modèles NLP.

Les outils low-code et no-code existent depuis plusieurs années et deviennent très populaires à cause, entre autres, de la pénurie de développeurs et autres experts IT. Mais, leurs cas d’utilisation restent limités à des sites ou applications sans grande complexité. Du moins jusqu’à présent, car de nombreuses entreprises cherchent à démocratiser le traitement du langage naturel afin de permettre aux utilisateurs non initiés d’effectuer des tâches autrefois uniquement réservées aux scientifiques, data scientist, analyst, etc.

Parmi ces outils de NLP no-code on peut citer :

Dydu, un logiciel de NLP permettant de créer et gérer facilement des robots conversationnels intelligents.
Alteryx, une solution de data analytics automation, orientée no code qui intègre également des fonctionnalités d’analyse des données dans différents langages.
MonkeyLearn qui propose une suite d’outils puissants d’apprentissage automatique et d’IA sans code.

4 - L’apprentissage multimodal dans le PNL

Le traitement du langage naturel était jusqu’à présent une technologie autonome de l’IA basée sur l’analyse et le tri des données textuelles. Mais c’est aussi une de ces limites. À l’ère du big data et de la digitalisation croissante des sociétés, les documents textuels sont numérisés (PDF) ou liés à d’autres contenus plus visuels. C’est ici que l’apprentissage multimodal entre en jeu.

L’apprentissage machine multimodal a pour objectif de construire des modèles capables de traiter et relier des informations provenant de multiples capteurs et surtout de natures différentes. Cette discipline de l’IA est en plein essor et pourra venir en soutien de la PNL pour aider les organisations à exploiter efficacement des ensembles de données hétérogènes.

L’apprentissage par renforcement devrait aussi se développer dans le traitement du langage naturel. Cette méthode de machine learning qui consiste à laisser les machines apprendre de leurs expériences grâce à un système de récompenses ou de pénalités permettrait notamment d’accélérer les tâches :

de réponse aux questions ;
de traduction automatique ;
de synthèse de documents.

5 - L’arrivée du GPT-4 ?

Sam Altman, PDG d’OpenAI, a déclaré il y a quelques mois que l’arrivée de GPT- 4 était imminente. Les estimations actuelles prévoient une date de sortie probable en juillet ou août 2022. Bien que son lancement soit proche, il y a encore peu de communications autour de cette nouvelle version du modèle de langage. Cependant, les tendances, progrès et cas d’utilisation de l’IA pourraient bien donner des indices sur les contours du GPT-4.

Les améliorations devraient notamment être axées davantage sur l’utilité que sur la capacité. Altman a en effet déclaré que son équipe ne se concentrait plus sur le développement de modèles extrêmement grands, mais plutôt sur l’optimisation des modèles plus petits. GPT-4 ne devrait donc pas être beaucoup plus grand que son prédécesseur. En revanche, il utilisera beaucoup plus de calculs et mettra en œuvre de nouvelles idées d’optimalité sur le paramétrage (comme des hyperparamètres optimaux).

Le traitement du langage naturel évolue rapidement et des tendances vont donc apparaître et se renforcer ces prochaines années. Avec l’augmentation exponentielle des volumes de données traitées, il est crucial de surveiller et de comprendre ces évolutions.

Et vous, en tant que professionnel de l’IT avez-vous identifié d’autres évolutions en NLP ou plus globalement dans l’IA ? N’hésitez pas à nous partager vos expériences en commentaires ou sur le forum Free-Work !

Sources et liens utiles :

Le modèle XLM-R de Facebook

SpaCy et NLTK

GPT-4 (en version Beta privée)