NORMALIZE |
Normalise |
| BigQuery |
Syntaxe
|
NORMALIZE(value[, normalization_mode])
|
Paramètres
| Nom |
Description |
| value |
Ce paramètre permet de spécifier la chaîne de caractères de type STRING que vous souhaitez normaliser. La normalisation ajuste la représentation de caractères Unicode pour qu'ils aient une forme canonique unique, ce qui est utile pour les comparaisons et les traitements de texte. |
| normalization_mode |
Ce paramètre facultatif permet de définir le mode de normalisation Unicode à appliquer. BigQuery prend en charge plusieurs formes de normalisation (NFC, NFD, NFKC, NFKD). Si ce paramètre n'est pas spécifié, le mode de normalisation par défaut est NFC. |
Description
Cette fonction permet de normaliser en chaîne de caractères.
Remarques
- Fonction essentielle pour la gestion des caractères Unicode : La fonction NORMALIZE standardise une chaîne de caractères Unicode en appliquant une forme
canonique unique. Cela permet d'éviter les problèmes liés aux différentes représentations d'un même caractère, notamment dans les langues comportant des accents ou
des symboles combinés.
- Améliore la fiabilité des comparaisons de chaînes : En normalisant les chaînes avant comparaison, on s'assure que des caractères visuellement identiques
mais encodés différemment (par exemple un "é" avec un accent combiné ou précomposé) seront traités comme égaux, ce qui réduit les erreurs dans les requêtes SQL.
- Supporte plusieurs formes de normalisation Unicode : La fonction permet de choisir parmi plusieurs modes : NFC, NFD, NFKC et NFKD. Chaque mode
répond à un besoin spécifique de normalisation, allant de la composition canonique (NFC) à la décomposition compatibilité (NFKD), offrant ainsi une grande flexibilité.
- NFC comme mode par défaut pour la plupart des usages courants : Si aucun mode n'est spécifié, BigQuery applique la normalisation NFC, étant généralement
la plus adaptée car elle compose les caractères combinés en une forme unique, simplifiant les traitements tout en conservant la lisibilité.
- Utile pour le nettoyage et la préparation des données textuelles : Avant d'effectuer des analyses, des jointures ou des recherches textuelles, normaliser
les chaînes garantit que les données sont dans un format cohérent, ce qui facilite la détection de doublons ou la fusion de données issues de sources différentes.
- Permet d'éviter les erreurs liées aux encodages multiples : Dans des systèmes où des données textuelles proviennent de diverses sources ou systèmes,
la fonction NORMALIZE prévient les incohérences provoquées par des encodages hétérogènes, améliorant ainsi la qualité globale des données.
- Facilite les opérations de tri et de regroupement : En standardisant les chaînes de caractères, les opérations de tri et de regroupement (GROUP BY) en
SQL deviennent plus fiables, car elles ne sont plus perturbées par des différences subtiles d'encodage entre les caractères.
- Intégrable dans des pipelines complexes de traitement de texte : La fonction peut être combinée avec d'autres transformations textuelles dans BigQuery,
comme la conversion en minuscules (LOWER), la suppression d'espaces ou le filtrage, permettant de construire des flux de travaux de nettoyage avancés et robustes.
Dernière mise à jour : Jeudi, le 18 Juin 2020