NORMALIZE_AND_CASEFOLD |
Normalise et case |
| BigQuery |
Syntaxe
|
NORMALIZE_AND_CASEFOLD(value[, normalization_mode])
|
Paramètres
| Nom |
Description |
| value |
Ce paramètre permet de spécifier la chaîne de caractères (STRING) que vous souhaitez normaliser et mettre en casse unique. La fonction traitera cette chaîne pour la conformer à une forme Unicode standardisée, puis la transformera de manière à ce que les distinctions majuscules/minuscules ne soient plus pertinentes pour les comparaisons. |
| normalization_mode |
Ce paramètre facultatif permet de définir le mode de normalisation Unicode à appliquer avant le repli de casse. BigQuery prend en charge plusieurs formes de normalisation (NFC, NFD, NFKC, NFKD). Si ce paramètre n'est pas spécifié, le mode de normalisation par défaut est NFC. |
Description
Cette fonction permet de normaliser et les minuscules et majuscules de la chaîne de caractères.
Remarques
- Combine normalisation Unicode et insensibilité à la casse : La fonction NORMALIZE_AND_CASEFOLD permet de rendre les chaînes standardisées et insensibles
aux majuscules/minuscules. Elle est idéale pour des comparaisons où l'on souhaite que "École", "ecole", et "ÉCOLE" soient traités comme identiques.
- Utile pour les recherches textuelles robustes : En appliquant à la fois une normalisation Unicode et une mise en casse uniforme, cette fonction
améliore la pertinence des recherches, notamment dans des systèmes multilingues ou dans des bases avec des données saisies de manière incohérente.
- Assure la cohérence des comparaisons de chaînes : Sans cette fonction, deux chaînes peuvent sembler identiques visuellement mais échouer à un test
d'égalité à cause d'accents, de casses ou de formes Unicode différentes. NORMALIZE_AND_CASEFOLD élimine ces problèmes en les ramenant à une forme commune.
- Mode de normalisation personnalisable : Le second paramètre permet de spécifier le mode Unicode (NFC, NFD, NFKC, NFKD) utilisé pour la normalisation.
Cela offre une flexibilité adaptée à différents besoins linguistiques ou techniques, selon le niveau de compatibilité ou de décomposition souhaité.
- Par défaut, adopte une normalisation NFC pratique : Si aucun mode n'est fourni, le mode NFC est appliqué. Ce mode est souvent suffisant pour les cas
courants et permet une composition canonique stable, ce qui garantit une grande compatibilité avec d'autres systèmes Unicode.
- Précieuse dans le traitement multilingue : Pour des chaînes contenant des caractères spéciaux ou accentués de diverses langues, cette fonction évite
les problèmes de casse et de codage, rendant possible une gestion multilingue cohérente et fiable dans les bases de données BigQuery.
- Adaptée aux opérations de nettoyage ou de regroupement : Lors de la préparation de données pour des analyses (par exemple, un GROUP BY sur des noms
d'utilisateurs ou d'entreprises), NORMALIZE_AND_CASEFOLD permet d'uniformiser les chaînes, réduisant les doublons artificiels dus aux variations de casse ou
d'accents.
- Complète parfaitement les fonctions LOWER et NORMALIZE seules : Alors que LOWER convertit seulement les majuscules en minuscules, et que NORMALIZE ne
s'occupe pas de la casse, cette fonction fusionne les deux comportements, en produisant une version stable et insensible de la chaîne pour toute comparaison ou
regroupement.
Dernière mise à jour : Jeudi, le 18 Juin 2020