Les CNN

Le machine learning doit une part importante de son évolution aux réseaux de neurones convolutifs, ou CNN. Ces derniers ont surgi comme une solution à la reconnaissance des formes durant l'essor de l'apprentissage automatique, dans les années 1980 et 1990. En reproduisant le fonctionnement du cortex visuel humain, ils ont permis aux machines de « comprendre » le monde d'une manière semblable à celle des humains. L'article qui suit aborde en détail les principes, applications, avantages et défis des CNN.

Le fonctionnement des réseaux de neurones convolutifs

Les CNN se basent sur un ensemble de concepts primordiaux qui déterminent leur fonctionnement.

Le rôle central de la convolution

Le premier concept, la « convolution », fait référence à une opération mathématique déterminante dans les CNN. Cette opération est souvent comparée à une exploration minutieuse d'une image par une IA, pixel par pixel, pour y distinguer les composantes les plus pertinentes.

Une architecture méthodiquement structurée

Le second concept renvoie à l'architecture typique des CNN. Elle résulte de l'organisation rigoureuse de multiples couches spécifiques. Une image soumise à cette architecture la traverse en passant successivement par différentes couches : d'abord, les couches de convolution où l'extraction des caractéristiques s'effectue, ensuite, les couches de pooling qui opèrent une réduction de la dimensionnalité, et enfin, les couches intégralement connectées qui se consacrent à une analyse finale.

Filtres et caractéristiques

Le dernier maillon de l’architecture type d’un CNN porte sur les filtres et les caractéristiques. Les filtres, au cours de leur exploration de l'image, détectent les traits pertinents. Ces traits, qui peuvent varier de simples lignes ou contours à des motifs plus sophistiqués, sont reconnus par les CNN et contribuent à leur capacité à « comprendre » efficacement les images.

Comparaison des CNN avec d'autres types de réseaux neuronaux

Différenciation structurelle

Les réseaux neuronaux traditionnels, également dénommés réseaux neuronaux entièrement connectés, établissent des liaisons entre chaque neurone et tous les autres neurones de la couche suivante. Cette approche génère un nombre considérable de paramètres à apprendre pour le modèle, conduisant à une consommation substantielle de ressources et une possible tendance au surajustement (overfitting).

À l'opposé, les CNN érigent une architecture plus économique en termes de paramètres grâce à l'opération de convolution. Ce processus réduit le nombre de connexions en se concentrant uniquement sur les régions locales des pixels de l'image, permettant ainsi une gestion des ressources plus efficace.

Avantages des CNN dans la reconnaissance des formes

Les CNN démontrent un certain nombre d'avantages lors de la reconnaissance des formes comparativement aux autres types de réseaux neuronaux :

Invariance à la translation. Les CNN conservent la capacité de reconnaître un objet, peu importe sa position dans l'image, une compétence qui n'est pas universellement partagée parmi tous les types de réseaux.
Extraction automatique de caractéristiques. Alors que d'autres types de réseaux requièrent une extraction manuelle de caractéristiques, les CNN se chargent de cette tâche de manière autonome.
Excellence en traitement d'image. Les CNN tendent à surpasser les autres réseaux pour des tâches comme la classification d'images, la détection d'objets ou la segmentation sémantique.
Robustesse face à la distorsion et à l'échelle. Les CNN maintiennent des performances élevées même lorsque les images subissent des distorsions ou des variations d'échelle.

Principaux cas d'usage des CNN

Les CNN s'illustrent à travers une variété d'applications dans différents secteurs industriels, manifestant ainsi leur grande versatilité.

Classification d'image : le domaine de prédilection des CNN

On l’a vu, l'un des domaines d'application majeur des CNN correspond à la classification d'images. En analysant ces dernières, les CNN parviennent à en distinguer les caractéristiques importantes et à identifier les objets qu'elles contiennent. Ce principe s'applique dans divers contextes, allant du secteur médical, où les CNN aident à analyser des imageries médicales comme les IRM, jusqu'à la reconnaissance de chiffres manuscrits, une des premières applications des CNN dans le domaine de la vision par ordinateur.

Détection d'objets

La capacité des CNN à détecter, à étiqueter et à classer les objets dans des images en temps réel trouve des applications dans plusieurs secteurs. Par exemple, dans l'industrie automobile, les véhicules autonomes utilisent cette fonctionnalité des CNN pour reconnaître les obstacles et adapter leur conduite. Cette technologie facilite aussi la reconnaissance faciale dans les maisons intelligentes ou par les piétons.

Correspondance audiovisuelle

La contribution des CNN à la correspondance audiovisuelle a amélioré les plateformes de streaming vidéo comme Netflix ou YouTube. Grâce aux CNN, ces plateformes peuvent répondre à des requêtes spécifiques des utilisateurs, comme la recherche de « chansons d'amour d'Elton John ».

Reconnaissance vocale : quand le langage devient une image

Les CNN ont également des applications dans le traitement du langage naturel (NLP) et la reconnaissance vocale. Un exemple concret de cette application est Google qui utilise les CNN pour son système de reconnaissance vocale (Hey Google !).

Reconstruction d'objets : du monde réel au monde numérique

Les CNN autorisent aussi la modélisation 3D d'objets réels dans un environnement numérique. Ainsi, un modèle de visage 3D peut être créé à partir d'une simple image. Cette technologie sert également à la construction de jumeaux numériques dans les domaines de la biotechnologie, de la fabrication et de l'architecture.

Les défis liés à l'application des CNN

Malgré leur potentiel et leur efficacité, l'application des réseaux de neurones convolutifs n'est pas sans poser des défis.

Le casse-tête de l'annotation des données

L'un des défis majeurs en lien avec l'utilisation des CNN est le besoin en grandes quantités de données annotées pour l'entraînement. Il s'agit d'un processus qui peut se révéler extrêmement chronophage et coûteux, particulièrement lorsqu'il nécessite l'intervention d'experts (métiers) pour l'annotation.

L'effet néfaste du surajustement

Un autre défi couramment rencontré lors de l'utilisation des CNN est le surajustement, aussi appelé « overfitting ». Il s'agit d'une situation où le modèle s'adapte trop bien aux données d'entraînement au point de perdre en généralité, et donc de ne pas bien fonctionner avec de nouvelles données. Le surajustement survient notamment lorsque le modèle est trop complexe par rapport à la quantité de données disponibles.

La bête noire du déplacement de domaine

Le déplacement de domaine représente un autre obstacle à l'efficacité des CNN. Dans certains cas, un modèle entraîné sur un certain type de données peut ne pas bien fonctionner lorsqu'il est confronté à des données légèrement différentes. Par exemple, un CNN formé à reconnaître des animaux à partir d'images prises en plein jour peut avoir du mal à accomplir la même tâche si les images sont prises de nuit.

En définitive, les CNN constituent un champ d'investigation prometteur pour le futur de l'intelligence artificielle. Malgré les défis qu'ils présentent, ces obstacles représentent des opportunités d'amélioration qui, une fois relevées, rendront ces outils encore plus performants et plus polyvalents. À travers un effort concerté de recherche et de développement, le potentiel des CNN pour transformer notre monde ne fait que commencer.

Article rédigé par Romain Frutos, rédacteur passionné par l’IT et les nouvelles technologies