VAR_POP |
Variance d'une population |
| BigQuery |
Syntaxe
|
VAR_POP([DISTINCT] expression) [OVER (...)]
|
Paramètres
| Nom |
Description |
| DISTINCT |
Ce paramètre facultatif permet de spécifier que le calcul de la variance de la population doit être effectué uniquement sur les valeurs uniques de l'expression. Si DISTINCT est utilisé, les valeurs dupliquées sont ignorées avant d'être incluses dans le calcul. |
| expression |
Ce paramètre permet de spécifier l'expression numérique (colonne ou calcul) dont vous souhaitez calculer la variance de la population. La variance de la population mesure la dispersion des points de données autour de la moyenne, en supposant que l'ensemble de données représente la population entière. |
| OVER (...) |
Ce paramètre facultatif permet de définir la fenêtre d'analyse pour la fonction. Lorsque OVER est utilisé, VAR_POP agit comme une fonction de fenêtre, calculant la variance de la population pour chaque ligne par rapport à un ensemble de lignes défini par la clause OVER. Cette clause peut inclure des spécifications de partitionnement (PARTITION BY), d'ordonnancement (ORDER BY), et de cadrage de fenêtre (ROWS ou RANGE). Si OVER est omis, la fonction agit comme une fonction d'agrégation standard sur toutes les lignes du groupe ou de la table. |
Description
Cette fonction permet de demander la variance d'une population des valeurs spécifiées.
Remarques
- Mesure de la variance pour une population entière : La fonction VAR_POP calcule la variance sur l'ensemble complet de la population, ce qui suppose que
les données représentent la totalité des cas possibles, et non un simple échantillon. Le dénominateur est donc n, et non n - 1, contrairement à VAR_SAMP.
- Utilité dans des analyses globales : Elle est particulièrement utile dans des contextes où les données couvrent l'ensemble des individus concernés, comme
des relevés comptables complets ou des jeux de données exhaustifs issus de capteurs ou de journaux de bords système.
- Option DISTINCT pour épurer les doublons : Le mot clef DISTINCT permet d'éliminer les doublons avant de calculer la variance. Cela peut être essentiel
pour éviter un biais dû à la répétition fréquente de certaines valeurs, surtout si elles ne sont pas significatives pour l'analyse.
- Comportement avec la clause OVER : Grâce à OVER (...), la fonction peut être utilisée en tant que fonction de fenêtre, ce qui permet de calculer
dynamiquement la variance sur des sous-ensembles de lignes, tout en conservant la granularité ligne par ligne.
- Sensibilité aux valeurs aberrantes : Comme toute mesure basée sur les carrés des écarts, VAR_POP est sensible aux outliers. Une seule valeur très éloignée
de la moyenne peut gonfler considérablement la variance, faussant ainsi l'interprétation.
- Inadéquate pour les petits sous-échantillons : Lorsque les données ne représentent qu'un échantillon, l'utilisation de VAR_POP est statistiquement moins
appropriée : il vaut alors mieux utiliser VAR_SAMP pour compenser le biais dû à la petite taille de l'échantillon.
- Comportement avec les NULL : Les valeurs NULL sont automatiquement ignorées dans le calcul. Toutefois, un grand nombre de valeurs manquantes peut réduire
la représentativité de la population et affaiblir la signification de la variance calculée.
- Compatible uniquement avec les types numériques : La fonction ne peut être utilisée qu'avec des types numériques comme INT64 ou FLOAT64. Tenter de
l'utiliser avec des types non numériques, comme STRING ou BOOLEAN, générera une erreur de type dans BigQuery.
Dernière mise à jour : Jeudi, le 18 Juin 2020