HLL_COUNT.MERGE |
Fusion du compteur |
| BigQuery |
Syntaxe
Paramètres
| Nom |
Description |
| sketch |
Ce paramètre permet de spécifier les "sketches" (esquisses) HyperLogLog++ que vous souhaitez fusionner. Cette fonction agrège plusieurs "sketches" en un seul "sketch" combiné, ce qui permet d'obtenir une estimation de la cardinalité (nombre d'éléments distincts) de l'union des ensembles de données représentés par les "sketches" individuels. |
Description
Cette fonction permet d'effectuer la cardinalité de résumés HyperLogLog++.
Remarques
- Fusion de plusieurs ensembles pour estimer une cardinalité globale : La fonction HLL_COUNT.MERGE permet de combiner plusieurs "sketches" HyperLogLog++
générés par HLL_COUNT.INIT. Elle est utile lorsque les données sont réparties en plusieurs segments ou partitions et qu'on souhaite obtenir une estimation du nombre
d'éléments distincts sur l'ensemble global.
- Optimisée pour les calculs distribués et les architectures en pipeline : Grâce à sa capacité à fusionner plusieurs sketches, HLL_COUNT.MERGE s'intègre
parfaitement dans des architectures analytiques distribuées. On peut, par exemple, créer des sketches journaliers ou régionaux, les stocker séparément, puis les
fusionner pour des rapports mensuels ou globaux.
- Assure l'évitement de doublons sans nécessiter les données originales : La force du sketch HyperLogLog++ réside dans sa capacité à résumer les
données de manière compacte. En fusionnant les sketches via MERGE, on peut estimer correctement la cardinalité sans avoir à revérifier les doublons manuellement ni
à recharger les données sources.
- Utilisation typique avec GROUP BY ou agrégations multi-niveaux : Dans les requêtes SQL avec des regroupements, on peut appliquer HLL_COUNT.INIT au
niveau local (par groupe), entreposer les résultats, puis utiliser HLL_COUNT.MERGE à un niveau supérieur pour consolider les estimations. Cela permet une estimation souple,
rapide et progressive.
- La fusion ne double pas la taille des sketches : Contrairement à une concaténation classique de données, fusionner des sketches HyperLogLog++ ne crée pas
un sketch deux fois plus grand. Le résultat reste compact, car la fusion ne fait qu'agréger les estimations selon les règles de l'algorithme HLL++.
- Compatible uniquement avec des sketches bien formés : Les sketches transmis à HLL_COUNT.MERGE doivent avoir été produits par HLL_COUNT.INIT ou MERGE
eux-mêmes. Des erreurs apparaîtront si l'on tente de fusionner des données qui ne respectent pas le format attendu, ce qui impose de suivre une discipline stricte dans
la préparation des données.
- Doit être suivi de HLL_COUNT.EXTRACT pour obtenir un résultat lisible : Tout comme INIT, MERGE retourne un sketch compressé et non une valeur numérique
directement exploitable. Il est donc nécessaire d'utiliser HLL_COUNT.EXTRACT ensuite pour obtenir l'estimation du nombre total d'éléments distincts représentés.
- Adaptée aux systèmes de reporting et de monitoring à grande échelle : HLL_COUNT.MERGE est particulièrement utile dans des systèmes où les statistiques
doivent être consolidées à partir de multiples sources, comme des rapports d'usage, des journaux de bords d'activité ou des données de capteurs. Elle permet une estimation
efficace, sans réanalyse complète des données sources.
Dernière mise à jour : Jeudi, le 18 Juin 2020