| Fiche technique | |
|---|---|
| Type de produit : | Modèle |
| Auteur : | Shounak Paul, Arpan Mandal, Pawan Goyal et Saptarshi Ghosh |
| Site Web : | https://huggingface.co/law-ai/InLegalBERT |
InLegalBERT : Un modèle avancé pour le Droit Indien
Ce modèle InLegalBERT et ses fichiers de jetons associés, sont le résultat d'une recherche approfondie présentée dans l'article «Pre-training Transformers on Indian Legal Text». Ce modèle représente une avancée significative dans le domaine du traitement automatique du langage naturel (TALN) appliqué au contexte juridique indien, offrant des outils spécifiquement adaptés aux subtilités de la législation et de la jurisprudence du pays.
Constitution des données d'entraînement
La robustesse et la pertinence d'un modèle de langage dépendent crucialement de la qualité et de la quantité des données sur lesquelles il a été entraîné. Pour le modèle InLegalBERT, un corpus d'entraînement exceptionnellement vaste a été méticuleusement assemblé. Ce corpus est exclusivement composé de documents judiciaires provenant de sources fiables et autoritaires : la Cour suprême indienne et de nombreuses Hautes Cours indiennes. Cette collecte exhaustive garantit que le modèle est exposé à un large éventail de cas réels et de terminologies juridiques utilisées au sein du système judiciaire indien.
La période couverte par ces documents est également remarquable, s'étendant de 1950 à 2019, ce qui permet d'intégrer l'évolution de la jurisprudence sur plusieurs décennies. De plus, le corpus englobe tous les domaines juridiques imaginables, incluant, sans s'y limiter, le droit civil, le droit pénal, le droit constitutionnel, et bien d'autres branches spécialisées. En termes de volume, cet ensemble de données contient environ 5,4 millions de documents juridiques indiens, tous rédigés en anglais, qui est la langue prédominante dans les tribunaux supérieurs indiens. Le volume total de texte brut dans ce corpus atteint approximativement 27 Go, témoignant de l'ampleur des informations utilisées pour forger les capacités d'InLegalBERT.
Stratégie de configuration et d'entraînement
Le processus d'entraînement d'InLegalBERT n'a pas commencé à partir de zéro. Ce modèle a été astucieusement initialisé avec le modèle LEGAL-BERT-SC, un modèle pré-entraîné ayant été présenté dans l'article "LEGAL-BERT : The Muppets straight out of Law School". Les créateurs d'InLegalBERT désignent ce modèle initial sous le nom simple de "LegalBERT" dans leur travail, tandis que leur propre version réentraînée est appelée InLegalBERT. Cette approche de "fine-tuning" ou de réentraînement sur un modèle déjà spécialisé dans le domaine juridique permet d'optimiser l'efficacité de l'apprentissage et de concentrer les ressources sur l'acquisition de connaissances spécifiques au contexte indien.
Une fois initialisé, InLegalBERT a été soumis à un entraînement intensif sur le corpus de données juridiques indiennes mentionné précédemment. Cet entraînement a duré 300 000 étapes et a ciblé deux tâches fondamentales de modélisation du langage : la modélisation du langage masqué (MLM) et la prédiction de la phrase suivante (NSP). La tâche MLM aide le modèle à comprendre le contexte et la relation entre les mots en devinant des mots masqués dans une phrase, tandis que la tâche NSP lui permet d'apprendre les relations entre les phrases, crucial pour la compréhension de documents longs comme les jugements.
Caractéristiques et architecture du modèle
En ce qui concerne son architecture et ses spécifications techniques, le modèle InLegalBERT partage des similitudes clés avec des modèles bien établis. Il utilise le même jeton que LegalBERT, ce qui assure une cohérence dans la manière dont le texte est divisé en unités de traitement pour le modèle. De plus, sa configuration générale est identique à celle du modèle bert-base-uncased, une architecture largement reconnue et performante.
Spécifiquement, InLegalBERT est doté de 12 couches cachées, ce qui lui confère une profondeur suffisante pour capturer des relations complexes dans le langage. Chaque couche dispose de 768 dimensionalités cachées, permettant une représentation riche et détaillée des informations. Le mécanisme d'attention est géré par 12 têtes d'attention, améliorant la capacité du modèle à se concentrer sur différentes parties du texte pertinentes pour une tâche donnée. Au total, le modèle InLegalBERT comprend environ 110 millions de paramètres, un nombre significatif qui lui permet d'apprendre des motifs complexes et de généraliser efficacement à de nouvelles données juridiques.
Utilisation
Utilisation du modèle pour obtenir des représentations vectorielles continues d'un texte :
- from transformers import AutoTokenizer, AutoModel
- tokenizer = AutoTokenizer.from_pretrained("law-ai/InLegalBERT")
- text = "Remplacez cette chaîne par la vôtre"
- encoded_input = tokenizer(text, return_tensors="pt")
- model = AutoModel.from_pretrained("law-ai/InLegalBERT")
- output = model(**encoded_input)
- last_hidden_state = output.last_hidden_state
À propos de l'auteur
Ils sont un groupe de chercheurs du Département d'informatique et de technologie de l'Institut indien de technologie de Kharagpur. Leurs recherches portent principalement sur les applications de l'apprentissage automatique et du traitement automatique du langage naturel (TALN) dans le domaine juridique, avec une attention particulière portée aux défis et aux opportunités du contexte juridique indien. Ils ont travaillé et travaillent actuellement sur plusieurs projets juridiques, tels que :
- reconnaissance d'entités nommées, résumé de documents juridiques,
- segmentation sémantique de documents juridiques,
- identification de textes juridiques à partir de faits, prédiction de décisions de justice,
- recherche de correspondance de documents juridiques.