TO_CODE_POINTS |
A points de code |
| BigQuery |
Syntaxe
Paramètres
| Nom |
Description |
| value |
Ce paramètre permet de spécifier la chaîne de caractères (STRING) que vous souhaitez convertir en une série de points de code Unicode. La fonction TO_CODE_POINTS analyse chaque caractère de la chaîne et retourne un tableau (ARRAY) d'entiers (INT64), où chaque entier représente le point de code Unicode correspondant à un caractère de la chaîne d'entrée. |
Description
Cette fonction permet de convertir une valeur en point de code.
Remarques
- Permet d'analyser les chaînes au niveau binaire Unicode : La fonction TO_CODE_POINTS est particulièrement utile lorsqu'on veut examiner les caractères
d'une chaîne à un niveau très bas. Elle retourne un tableau d'entiers (ARRAY<INT64>) représentant les points de code Unicode de chaque caractère, ce qui est
indispensable pour des traitements textuels avancés ou multilingues.
- Utile pour gérer des alphabets non latins et des symboles spéciaux : Grâce à cette fonction, il devient possible de différencier des caractères identiques
visuellement mais qui n'ont pas le même point de code (ex. lettres accentuées ou caractères asiatiques). Cela améliore la précision des comparaisons et du traitement
linguistique dans des contextes internationaux.
- Les points de code permettent de détecter les caractères invisibles ou spéciaux : Certaines chaînes peuvent contenir des caractères non imprimables, comme
des espaces insécables ou des sauts de ligne spéciaux. TO_CODE_POINTS permet de détecter ces caractères en affichant directement leur valeur Unicode, ce qui est utile
pour le nettoyage de texte.
- Les résultats peuvent être utilisés pour des filtres personnalisés : En accédant aux points de code, il est possible de créer des filtres personnalisés
pour exclure certains caractères (par exemple, tous les caractères de ponctuation ou tous les emojis) en fonction de leurs plages de code Unicode.
- Fonction inverse disponible avec CODE_POINTS_TO_STRING : BigQuery propose également une fonction complémentaire nommée CODE_POINTS_TO_STRING, permettant
de reconstruire la chaîne initiale à partir d'un tableau de points de code. L'utilisation combinée des deux permet des transformations bidirectionnelles sûres et
contrôlées.
- Permet des opérations fines comme le tri ou l'indexation Unicode : En transformant une chaîne en tableau de points de code, il devient possible de trier,
comparer ou indexer les caractères selon leur valeur numérique Unicode. Ceci peut s'avérer plus fiable qu'un tri alphabétique classique dans certains systèmes
multilingues.
- Chaque caractère n'a pas toujours un seul octet : Les chaînes UTF-8 peuvent contenir des caractères composés sur plusieurs octets (jusqu'à 4).
TO_CODE_POINTS permet de contourner cette complexité en représentant chaque caractère par une seule valeur entière, abstraite du codage sous-jacent.
- Peut être utilisé pour des diagnostics ou du débogage textuel : Lorsqu'une chaîne provoque des erreurs inattendues (comparaisons échouant, affichage
incorrect), TO_CODE_POINTS est un outil de diagnostic précieux. Il permet de repérer les différences invisibles à l'oil nu, comme les variantes de guillemets ou
d'espaces.
Dernière mise à jour : Jeudi, le 18 Juin 2020