Réseaux de neurones convolutifs (CNN)
Les réseaux de neurones convolutifs (CNN pour l'abréviation de l'anglicisme Convolutional Neural Networks) sont une classe de modèles d'apprentissage profond conçus spécifiquement pour traiter des données structurées en grille, comme les images. Leur architecture est composée de couches appliquant des filtres de convolution pour extraire automatiquement les caractéristiques visuelles importantes (bords, textures, formes,...) sans intervention humaine. À la différence des réseaux classiques entièrement connectés, les CNN exploitent la localité spatiale des pixels, ce qui réduit drastiquement le nombre de paramètres. Chaque couche convolutive est généralement suivie d'une fonction d'activation (comme ReLU) et parfois d'une couche de sous-échantillonnage (pooling), compressant l'information tout en conservant l'essentiel. Ces réseaux sont particulièrement performants pour les tâches de reconnaissance d'image, détection d'objet, segmentation sémantique,...
Les CNN apprennent les filtres eux-mêmes pendant l'entraînement, ce qui permet au modèle d'optimiser ses représentations internes pour une tâche précise. Au fil des couches, les représentations deviennent de plus en plus abstraites et hiérarchiques, passant de simples motifs visuels à des concepts complexes (exemple : visage, voiture). L'entraînement se fait souvent à l'aide de la descente de gradient stochastique et de techniques comme la rétropropagation. Afin d'éviter le surapprentissage, des techniques comme le dropout, la normalisation ou la régularisation L2 sont fréquemment utilisées. Les CNN modernes comme ResNet, VGG, Inception ou EfficientNet ont permis des percées majeures dans la vision artificielle. Leur efficacité repose à la fois sur des architectures bien conçues et sur des ensembles de données massifs comme ImageNet.
Aujourd'hui, les CNN ne sont pas limités aux images statiques. Ils sont utilisés dans des domaines aussi variés que la vidéosurveillance, la conduite autonome, le médical, ou la réalité augmentée. Des variantes comme les 3D CNN permettent d'analyser des volumes (IRM, vidéos), tandis que les CNN récurrents peuvent combiner les avantages des CNN et des RNN pour des séquences d'images. Ils sont aussi souvent combinés avec des transformers visuels dans des architectures hybrides modernes. Bien que l'apparition des modèles comme ViT (Vision Transformer) ait challengé leur domination, les CNN restent à ce jour l'un des outils les plus puissants et répandus pour traiter efficacement des données visuelles.