COVAR_POP |
Covariance de population |
| BigQuery |
Syntaxe
|
COVAR_POP(X1, X2) [OVER (...)]
|
Paramètres
| Nom |
Description |
| X1 |
Ce paramètre permet de spécifier la première expression numérique (par exemple, une colonne) pour laquelle la covariance de population doit être calculée. |
| X2 |
Ce paramètre permet de spécifier la deuxième expression numérique (par exemple, une colonne) pour laquelle la covariance de population doit être calculée, en association avec X1. |
| OVER (...) |
Ce paramètre facultatif permet de spécifier une fenêtre d'analyse pour la fonction COVAR_POP, la transformant ainsi en une fonction de fenêtre analytique. Cela permet de calculer la covariance sur des sous-ensembles de données (partitions) plutôt que sur l'ensemble du jeu de données. |
Description
Cette fonction permet de demander la covariance de population pour un ensemble de paires de nombres spécifiés.
Remarques
- Mesure la variation conjointe entre deux variables : La fonction COVAR_POP permet de quantifier comment deux variables numériques évoluent ensemble
dans une population complète. Une covariance positive indique que les variables tendent à augmenter ensemble, tandis qu'une covariance négative indique qu'elles évoluent
en sens opposé.
- Représente la covariance sur l'ensemble de la population : Contrairement à COVAR_SAMP appliquant une correction pour l'échantillonnage, COVAR_POP considère
que les données disponibles représentent la population complète, et donc divise par n au lieu de (n-1) dans le calcul.
- Les entrées NULL sont ignorées : Si une des deux expressions (X1 ou X2) est NULL pour une ligne, alors cette ligne est exclue du calcul. Cela garantit que
seules les paires de valeurs valides sont prises en compte, ce qui évite de fausser le résultat.
- Utile pour des analyses statistiques exploratoires : La covariance permet de détecter des relations linéaires potentielles entre deux variables
numériques. Bien que moins normalisée que la corrélation, elle fournit un indice précieux pour étudier la structure des données avant des modèles plus avancés.
- Peut être utilisée avec la clause OVER(...) : Avec OVER(...), COVAR_POP devient une fonction analytique, ce qui permet de calculer la covariance sur des
groupes dynamiques ou des fenêtres glissantes, sans agrégation complète, par exemple par utilisateur ou par période temporelle.
- Les unités dépendent de celles des entrées : Le résultat de COVAR_POP est une valeur numérique dont les unités résultent du produit des unités de X1 et X2.
Cela signifie que la covariance est difficile à interpréter directement, sauf si les deux variables ont des unités comparables.
- N'est pas normalisée comme une corrélation : Contrairement à CORR, la covariance peut prendre n'importe quelle valeur (positive ou négative, avec de
grandes amplitudes). Il est donc important de la contextualiser et d'éviter de comparer des covariances issues de variables de natures ou d'échelles très différentes.
- Compatible avec d'autres fonctions statistiques de BigQuery : COVAR_POP s'intègre bien dans des requêtes plus larges combinant des fonctions comme
AVG, VAR_POP, ou STDDEV_POP, ce qui permet de construire des profils statistiques détaillés
d'un ensemble de données sans avoir recours à des outils externes.
Dernière mise à jour : Jeudi, le 18 Juin 2020