Langage de programmation - BigQuery - Références des fonctions

TO_CODE_POINTS	A points de code
BigQuery

Syntaxe

TO_CODE_POINTS(value)

Paramètres

Nom	Description
value	Ce paramètre permet de spécifier la chaîne de caractères (STRING) que vous souhaitez convertir en une série de points de code Unicode. La fonction TO_CODE_POINTS analyse chaque caractère de la chaîne et retourne un tableau (ARRAY) d'entiers (INT64), où chaque entier représente le point de code Unicode correspondant à un caractère de la chaîne d'entrée.

Description

Cette fonction permet de convertir une valeur en point de code.

Remarques

Permet d'analyser les chaînes au niveau binaire Unicode : La fonction TO_CODE_POINTS est particulièrement utile lorsqu'on veut examiner les caractères d'une chaîne à un niveau très bas. Elle retourne un tableau d'entiers (ARRAY<INT64>) représentant les points de code Unicode de chaque caractère, ce qui est indispensable pour des traitements textuels avancés ou multilingues.
Utile pour gérer des alphabets non latins et des symboles spéciaux : Grâce à cette fonction, il devient possible de différencier des caractères identiques visuellement mais qui n'ont pas le même point de code (ex. lettres accentuées ou caractères asiatiques). Cela améliore la précision des comparaisons et du traitement linguistique dans des contextes internationaux.
Les points de code permettent de détecter les caractères invisibles ou spéciaux : Certaines chaînes peuvent contenir des caractères non imprimables, comme des espaces insécables ou des sauts de ligne spéciaux. TO_CODE_POINTS permet de détecter ces caractères en affichant directement leur valeur Unicode, ce qui est utile pour le nettoyage de texte.
Les résultats peuvent être utilisés pour des filtres personnalisés : En accédant aux points de code, il est possible de créer des filtres personnalisés pour exclure certains caractères (par exemple, tous les caractères de ponctuation ou tous les emojis) en fonction de leurs plages de code Unicode.
Fonction inverse disponible avec CODE_POINTS_TO_STRING : BigQuery propose également une fonction complémentaire nommée CODE_POINTS_TO_STRING, permettant de reconstruire la chaîne initiale à partir d'un tableau de points de code. L'utilisation combinée des deux permet des transformations bidirectionnelles sûres et contrôlées.
Permet des opérations fines comme le tri ou l'indexation Unicode : En transformant une chaîne en tableau de points de code, il devient possible de trier, comparer ou indexer les caractères selon leur valeur numérique Unicode. Ceci peut s'avérer plus fiable qu'un tri alphabétique classique dans certains systèmes multilingues.
Chaque caractère n'a pas toujours un seul octet : Les chaînes UTF-8 peuvent contenir des caractères composés sur plusieurs octets (jusqu'à 4). TO_CODE_POINTS permet de contourner cette complexité en représentant chaque caractère par une seule valeur entière, abstraite du codage sous-jacent.
Peut être utilisé pour des diagnostics ou du débogage textuel : Lorsqu'une chaîne provoque des erreurs inattendues (comparaisons échouant, affichage incorrect), TO_CODE_POINTS est un outil de diagnostic précieux. Il permet de repérer les différences invisibles à l'oil nu, comme les variantes de guillemets ou d'espaces.

Dernière mise à jour : Jeudi, le 18 Juin 2020

Section courante

A propos

Section administrative du site

TO_CODE_POINTS

Syntaxe

Paramètres

Description

Remarques