Section courante

A propos

Section administrative du site

Fiche technique
Type de produit : Modèle
Auteur : Ilias Chalkidis (Cornel University)
Site Web : https://aclanthology.org/2020.findings-emnlp.261/

LEGAL-BERT

Le LEGAL-BERT est une famille de modèles BERT pour le domaine juridique, destinés à aider la recherche juridique en PNL, le droit informatique et les applications de technologie juridique. Pour pré-former les différentes variantes de LEGAL-BERT, ils ont collecté 12 Go de textes juridiques anglais divers provenant de plusieurs domaines (par exemple, la législation, les affaires judiciaires, les contrats) extraits de ressources accessibles au public. Les variantes de sous-domaines (CONTRACTS-, EURLEX-, ECHR-) et/ou LEGAL-BERT général fonctionnent mieux que l'utilisation de BERT prête à l'emploi pour des tâches spécifiques à un domaine. Un modèle léger (33% de la taille de BERT-BASE) pré-formé à partir de zéro sur des données juridiques avec des performances compétitives est également disponible.

Abstraction

BERT a obtenu des performances impressionnantes dans plusieurs tâches de TALN. Cependant, ses recommandations d'adaptation dans des domaines spécialisés ont été peu étudiées. Ils se sont concentré ici sur le domaine juridique, où ils explorent plusieurs approches pour appliquer les modèles BERT à des tâches juridiques en aval, en les évaluant sur plusieurs ensembles de données. Leurs résultats indiquent que les recommandations précédentes en matière de pré-entraînement et de réglage fin, souvent suivies aveuglément, ne se généralisent pas toujours bien dans le domaine juridique. Ils proposent donc une étude systématique des stratégies disponibles pour l'application de BERT dans des domaines spécialisés. Ces stratégies sont : (a) utiliser le BERT original tel quel ; (b) adapter BERT par un pré-entraînement supplémentaire sur des corpus spécifiques au domaine ; et (c) pré-entraîner BERT de A à Z sur des corpus spécifiques au domaine. Ils proposent également un espace de recherche d'hyperparamètres plus large pour le réglage fin des tâches en aval et ils publient LEGAL-BERT, une famille de modèles BERT destinée à soutenir la recherche en TALN juridique, le droit informatique et les applications des technologies juridiques.

Une mise en contexte

Les modèles de langage pré-entraînés basés sur Transformers (Vaswani et al., 2017), tels que BERT (Devlin et al., 2019) et ses variantes (Liu et al., 2019 ; Yang et al., 2019 ; Lan et al., 2019), ont obtenu des résultats de pointe dans plusieurs tâches de traitement du langage naturel en aval sur des ensembles de données de référence génériques, tels que GLUE (Wang et al., 2018), SQUAD (Rajpurkar et al., 2016) et RACE (Lai et al., 2017). En règle générale, l'apprentissage par transfert avec des modèles de langage nécessite une étape de calcul lourde où le modèle de langage est pré-entraîné sur un corpus volumineux et une étape moins coûteuse où le modèle est affiné pour les tâches en aval. Avec BERT, la première étape peut être omise car les modèles pré-entraînés sont accessibles au public. Étant pré-entraîné sur des corpus énergétiques (par exemple, Wikipédia, livres pour enfants,...), BERT s'est révélé moins performant dans des domaines spécialisés, tels que les textes biomédicaux ou scientifiques (Lee et al., 2019 ; Beltagy et al., 2019). Pour surmonter cette limitation, deux stratégies sont possibles : soit pré-entraîner BERT sur des corpus spécifiques au domaine, soit pré-entraîner BERT de A à Z sur des corpus spécifiques au domaine. Par conséquent, pour utiliser BERT dans des domaines spécialisés, trois stratégies alternatives peuvent être envisagées avant d'affiner la tâche en aval :

Ils explorent les stratégies (a) à (c) dans le domaine juridique, où l'adaptation BERT n'a pas encore été explorée. Comme pour d'autres domaines spécialisés, le texte juridique (par exemple, les lois, les actes de procédure, les contrats) présente des caractéristiques distinctes par rapport aux corpus génériques, telles qu'un vocabulaire spécialisé, en particulier une syntaxe formelle, une sémantique basée sur des connaissances approfondies spécifiques au domaine,.., à tel point que le langage juridique est souvent classé comme un «sous-langage» (Tiersma, 1999 ; Williams, 2007 ; Haigh, 2018). Il convient toutefois de noter que nos travaux contribuent plus largement à une meilleure compréhension de l'adaptation du domaine aux domaines spécialisés. Nos principales conclusions sont les suivantes : (i) Un pré-entraînement supplémentaire (FP) ou un pré-entraînement BERT à partir de zéro (SC) sur des corpus spécifiques au domaine est plus performant que l'utilisation de BERT prêt à l'emploi pour des tâches spécifiques au domaine ; les deux stratégies sont pour la plupart comparables dans trois ensembles de données juridiques. (ii) L'exploration d'une gamme d'hyperparamètres plus large, par rapport aux lignes directrices de Devlin et al. (2019), peut conduire à des performances nettement meilleures. (iii) Les modèles BERT plus petits peuvent être compétitifs par rapport à des modèles plus grands et plus lourds en calcul dans des domaines spécialisés. Plus important encore, (iv) ils publient LEGAL-BERT, une famille de modèles BERT pour le domaine juridique, destinée à aider la recherche en PNL juridique, le droit informatique et les applications de technologie juridique. Cette famille comprend LEGAL-BERT-SMALL, un modèle léger pré-entraîné à partir de zéro sur des données juridiques, qui atteint des performances comparables à celles des modèles plus grands, tout en étant beaucoup plus efficace (environ 4 fois plus rapide) avec une empreinte environnementale plus faible (Strubell et al., 2019).

Travaux connexes

La plupart des travaux antérieurs sur l'adaptation au domaine de BERT et de ses variantes n'explorent pas systématiquement l'ensemble des stratégies mentionnées ci-dessus et ciblent principalement le domaine biomédical ou des domaines scientifiques plus larges. (2019) ils ont étudié l'effet d'un pré-entraînement supplémentaire de BERT-BASE sur des articles biomédicaux pendant 470 000 étapes. Le modèle résultant (BIOBERT) a été évalué sur des ensembles de données biomédicales et a constaté des améliorations de performance par rapport à BERT-BASE. Cependant, l'augmentation du pré-entraînement spécifique au domaine à 1 million d'étapes n'a pas entraîné d'améliorations significatives. (2019) ils ont publié Clinical BERT et Clinical BIOBERT en pré-entraînant BERT-BASE et BIOBERT, respectivement, sur des notes cliniques pendant 150 000 étapes. Les deux modèles se sont révélés plus performants que BERT-BASE. Dans d'autres travaux connexes, Beltagy et al. (2019) ont publié SCIBERT, une famille de modèles BERT pour les textes scientifiques, axée sur le domaine biomédical. Leurs modèles ont été obtenus soit par un pré-entraînement supplémentaire (FP) de BERT-BASE, soit par un pré-entraînement de BERT-BASE à partir de zéro (SC) sur un corpus spécifique au domaine, c'est-à-dire que le modèle est initialisé aléatoirement et le vocabulaire a été créé à partir de zéro. Des améliorations ont été signalées dans les tâches en aval dans les deux cas. Sung et al. (2019) ont en outre pré-entraîné BERT-BASE sur des manuels et des paires de questions-réponses afin d'améliorer la notation des réponses courtes pour les systèmes de tutorat intelligents. Une lacune est que tous les travaux antérieurs n'étudient pas l'effet de la variation du nombre d'étapes de pré-entraînement, à l'exception de Lee et al. (2019). Plus important encore, lors du réglage fin de la tâche en aval, tous les travaux antérieurs adoptent aveuglément les directives de sélection d'hyper-paramètres de Devlin et al. (2019) sans autre investigation. Enfin, aucun travail antérieur ne considère l'efficacité et l'efficience de modèles plus petits (par exemple, moins de couches) dans des domaines spécialisés. La pleine capacité de modèles plus grands et plus coûteux en termes de calcul peut être inutile dans des domaines spécialisés, où la syntaxe peut être plus standardisée, l'éventail des sujets abordés peut être plus restreint, les termes peuvent avoir moins de sens,... Ils ont noté également que bien que BERT soit l'état actuel de l'art dans de nombreuses tâches de PNL juridiques (Chalkidis et al., 2019c,a,d), aucun travail antérieur n'a envisagé son adaptation au domaine juridique.

LEGAL-BERT : Une nouvelle famille de modèles BERT pour le domaine juridique

Corporés d'entraînement : Pour pré-entraîner les différentes variantes de LEGAL-BERT, ils ont collecté 12 Go de textes juridiques anglais variés, issus de divers domaines (par exemple, législation, jurisprudence, contrats), issus de ressources accessibles au public :

Corpus Nombre de documents Taille totale en Go Dépôt
Législation de l'Union Européenne 61 826 1,9 (16,5%) EURLEX (eur-lex.europa.eu)
Législation britannique 19 867 1,4 (12,2%) LEGISLATION.GOV.UK (http://www.legislation.gov.uk)
Affaires de la Cour de justice de l'Union européenne (CJUE) 19 867 0,6 ( 5,2%) EURLEX (eur-lex.europa.eu)
Affaires de la Cour européenne des droits de l'homme (CEDH) 12 554 0,5 ( 4,3%) HUDOC (http://hudoc.echr.coe.int)
Affaires judiciaires américaines 164 141 3,2 (27,8%) CASE LAW ACCESS PROJECT (https://case.law)
Contrats américains 76 366 3,9 (34,0%) SEC-EDGAR (https://www.sec.gov/edgar.shtml)

LEGAL-BERT-FP : Suivant Devlin et al. (2019), ils ont effectués des étapes de pré-entraînement supplémentaires de BERT-BASE sur des corpus spécifiques à un domaine. Bien que Devlin et al. (2019) aient suggéré des étapes supplémentaires allant jusqu'à 100 000, ils pré-entraînent également des modèles jusqu'à 500 000 afin d'examiner l'effet d'un pré-entraînement prolongé dans le domaine lors du réglage fin des tâches en aval. BERT-BASE a été pré-entraîné pour un nombre significativement plus élevé d'étapes dans des corpus génériques (par exemple, Wikipédia, livres pour enfants). Il est donc fortement orienté vers le langage générique, utilisant un vocabulaire de 30 000 sous-mots mieux adapté à ces corpus génériques. Néanmoins, ils pensent qu'un pré-entraînement prolongé dans le domaine sera bénéfique. LEGAL-BERT-SC possède la même architecture que BERT-BASE, avec 12 couches, 768 unités cachées et 12 têtes d'attention (110 millions de paramètres). Ils utilisent cette architecture dans toutes nos expériences, sauf indication contraire. Ils utilisent un vocabulaire nouvellement créé, de taille égale à celui de BERT.2 Ils expérimentent également LEGAL-BERT-SMALL, un modèle sensiblement plus petit, avec 6 couches, 512 unités cachées et 8 têtes d'attention (35 millions de paramètres, 32 % de la taille de BERT-BASE). Ce modèle léger s'entraîne environ 4 fois plus vite, tout en nécessitant moins de ressources matérielles. Leur hypothèse est qu'un tel modèle BERT spécialisé peut bien performer par rapport aux modèles BERT génériques, malgré ses paramètres moins nombreux.

Détails de pré-entraînement : Pour être comparable à BERT, ils entraînent LEGAL-BERT pendant 1 million d'étapes (environ 40 époques) sur l'ensemble des corpus (section 3), par lots de 256 échantillons, incluant jusqu'à 512 jetons de phrases. Ils ont utilisé Adam avec un taux d'apprentissage de 1e?4, comme dans l'implémentation originale. Ils ont entraîné tous les modèles avec le code BERT officiel4, en utilisant des TPU v3 à 8 coeurs de Google Cloud Compute Services. Tâches de TALN juridique : Ils ont évalué leurs modèles sur la classification de texte et le balisage de séquences à l'aide de trois ensembles de données. EURLEX57K (Chalkidis et al., 2019b) est un ensemble de données de classification de texte multi-étiquettes à grande échelle de lois de l'UE, également adapté à l'apprentissage en mode «peu et zéro shot». ECHR-CASES (Chalkidis et al., 2019a) contient des affaires de la Cour européenne des droits de l'homme (Aletras et al., 2016) et peut être utilisé pour la classification de textes binaires et multi-étiquettes. Enfin, CONTRACTS-NER (Chalkidis et al., 2017, 2019d) est un ensemble de données pour la reconnaissance d'entités nommées sur les contrats américains composé de trois sous-ensembles, l'en-tête du contrat, la résolution des litiges et les détails du bail. Ils reproduisent les expériences de Chalkidis et al. (2019c, a, d) lors du réglage fin de BERT pour tous les ensembles de données. Réglez vos marionnettes ! En règle générale, pour affiner BERT pour les tâches en aval, Devlin et al. (2019) ont suggéré une stratégie de réglage minimal des hyper-paramètres s'appuyant sur une recherche par grille sur les intervalles suivantes : taux d'apprentissage ∈ {2e?5, 3e?5, 4e?5, 5e?5}, nombre d'époques d'apprentissage ∈ {3, 4}, taille du lot ∈ {16, 32} et taux d'abandon fixe de 0,1. Ces suggestions, peu justifiées, sont suivies aveuglément dans la littérature (Lee et al., 2019 ; Alsentzer et al., 2019 ; Beltagy et al., 2019 ; Sung et al., 2019). Étant donné la taille relativement petite des ensembles de données, ils utilisent des tailles de lot ∈ {4, 8, 16, 32}. Il est intéressant de noter que dans des expériences préliminaires, ils ont constaté que certains modèles sont toujours sous-ajustés après 4 époques, le maximum suggéré, ils utilisent donc un arrêt précoce basé sur la perte de validation, sans nombre maximal fixe d'époques d'entraînement. Ils considèrent également un taux d'apprentissage supplémentaire plus faible (1e-5) pour éviter de dépasser les minima locaux, et un taux d'abandon supplémentaire plus élevé (0,2) pour améliorer la régularisation. Ils adoptent cette stratégie pour LEGAL-BERT.

Résultats expérimentaux

Résultats du pré-entraînement : La perte d'apprentissage entre les étapes de pré-entraînement pour toutes les versions de LEGAL-BERT. LEGAL-BERT-SC obtient de bien meilleurs résultats que LEGAL-BERT-SMALL sur les objectifs de pré-entraînement, ce qui était largement attendu compte tenu des tailles différentes des deux modèles. À la fin de son pré-entraînement, LEGAL-BERT-SMALL présente une perte similaire à celle de BERT-BASE pré-entraîné sur des corpus génériques. Si l'on considère le pré-entraînement supplémentaire de BERT sur des corpus juridiques (LEGAL-BERT-FP), on observe une adaptation plus rapide et plus efficace dans des sous-domaines spécifiques (notamment les affaires CEDH et les contrats américains), comparativement à l'utilisation de l'ensemble des corpus juridiques, où la perte d'apprentissage n'atteint pas celle de LEGAL-BERT-SC.

Résultats de la tâche finale : Les résultats de toutes les variantes de LEGAL-BERT-FP sur des données de développement. La stratégie optimale pour un pré-entraînement ultérieur varie selon les ensembles de données. Ainsi, lors des expériences ultérieures sur des données de test, ils conservent pour chaque tâche finale la variante de LEGAL-BERT-FP présentant les meilleurs résultats de développement.

La perplexité indique dans quelle mesure une variante de BERT prédit le langage d'une tâche finale. Ils s'attendent à ce que les modèles présentant des perplexités similaires aient également des performances similaires. Dans les trois ensembles de données, une variante de LEGAL-BERT produit presque toujours de meilleurs résultats que la variante BERT-BASE optimisée. Dans EURLEX57K, les améliorations sont moins importantes pour toutes les étiquettes, les étiquettes fréquentes et les étiquettes peu nombreuses (0,2 %), ce qui concorde également avec la légère baisse de la perplexité (2,7). Dans ECHR-CASES, ils observent à nouveau de légères différences dans les perplexités (baisse de 1,1) et dans les performances à la tâche de classification binaire (amélioration de 0,8 %). Au contraire, ils observent une amélioration plus substantielle dans la tâche multi-étiquettes, plus difficile (2,5 %), ce qui indique que les variations de LEGAL-BERT bénéficient des connaissances du domaine. Sur CONTRACTS-NER, la baisse de perplexité est plus importante (5,6), ce qui se reflète dans l'augmentation de F 1 sur les sous-ensembles d'en-tête de contrat (1,8 %) et de résolution de litiges (1,6 %). Dans le sous-ensemble des détails du bail, ils observent également une amélioration (1,1 %). De manière impressionnante, LEGAL-BERT-SMALL est comparable à LEGAL-BERT sur la plupart des ensembles de données, tout en pouvant s'adapter à la plupart des cartes GPU modernes. Ceci est important pour les chercheurs et les praticiens ayant un accès limité à de grandes ressources de calcul. Cela fournit également une base plus conviviale en termes de mémoire pour les architectures BERT plus complexes. Par exemple, le déploiement d'une version hiérarchique de BERT pour ECHR-CASES (Chalkidis et al., 2019a) conduit à une augmentation de la mémoire de 4×.

Conclusions et travaux futurs

Ils ont montré que la meilleure stratégie pour porter BERT vers un nouveau domaine peut varier, et qu'il est possible d'envisager un pré-entraînement supplémentaire ou un pré-entraînement complet. Ainsi, ils publient LEGAL-BERT, une famille de modèles BERT pour le domaine juridique, obtenant des résultats de pointe dans trois tâches finales. Les gains de performance sont notamment plus importants dans les tâches finales les plus complexes (classification multi-étiquettes dans ECHR-CASES et en-tête de contrat, détails de bail dans CONTRACTS-NER), où la connaissance du domaine est plus importante. Ils publient également LEGAL-BERT-SMALL, trois fois plus petit mais très compétitif par rapport aux autres versions de LEGAL-BERT. Il est donc plus facile à adopter dans les bancs d'essai à faibles ressources. Enfin, ils montrent qu'une recherche par grille étendue lors du réglage fin de BERT pour les tâches finales a un impact considérable sur les performances et devrait donc être systématiquement adoptée. Dans le cadre de travaux futurs, ils prévoient d'explorer les performances de LEGAL-BERT dans davantage d'ensembles de données et de tâches juridiques. Ils avons également l'intention d'explorer l'impact d'une formation préalable supplémentaire LEGAL-BERT-SC et LEGAL-BERT-SMALL sur des sous-domaines juridiques spécifiques (par exemple, la législation de l'Union Européenne).




Dernière mise à jour : Jeudi, le 10 septembre 2020