Section courante

A propos

Section administrative du site

Fiche technique
Type de produit : Bibliothèque
Langage de programmation : Python, C++
Auteur : Google
Licence : Apache License 2.0
Date de publication : 2016
Site Web : https://github.com/google/sentencepiece

Introduction

La bibliothèque SentencePiece est un analyse lexicale (tokenizer et detokenizer) de texte non supervisé principalement pour les systèmes de génération de texte basés sur un réseau neuronal (ANN) où la taille du vocabulaire est prédéterminée avant l'entraînement du modèle neuronal. Le SentencePiece met en oeuvre des unités de sous-mots (par exemple, le codage par paires d'octets (BPE). Le modèle de langage unigramme avec l'extension de l'apprentissage direct à partir de phrases brutes. Le SentencePiece permet de créer un système purement de bout en bout ne dépendant pas du pré/post-traitement spécifique à la langue. Il est utilisable en C++ et Python et utilise TensorFlow pour ses traitements.

Voici les caractéristiques les plus intéressantes :



Dernière mise à jour : Jeudi, le 22 octobre 2020