COVAR_SAMP |
Covariance d'échantillon |
| BigQuery |
Syntaxe
|
COVAR_SAMP(X1, X2) [OVER (...)]
|
Paramètres
| Nom |
Description |
| X1 |
Ce paramètre permet de spécifier la première expression numérique (par exemple, une colonne) pour laquelle la covariance d'échantillon doit être calculée. |
| X2 |
Ce paramètre permet de spécifier la deuxième expression numérique (par exemple, une colonne) pour laquelle la covariance d'échantillon doit être calculée, en association avec X1. |
| OVER (...) |
Ce paramètre facultatif permet de spécifier une fenêtre d'analyse pour la fonction COVAR_SAMP, la transformant ainsi en une fonction de fenêtre analytique. Cela permet de calculer la covariance sur des sous-ensembles de données (partitions) plutôt que sur l'ensemble du jeu de données. |
Description
Cette fonction permet de demander la covariance d'échantillon pour un ensemble de paires de nombres spécifiés.
Remarques
- Fonction conçue pour les échantillons et non pour la population : Contrairement à COVAR_POP, la fonction COVAR_SAMP applique une correction statistique
(divise par n-1 au lieu de n) pour tenir compte de l'erreur d'estimation dans un échantillon de la population. Cela la rend plus fiable pour des analyses statistiques lorsque
l'ensemble de données n'est qu'un sous-ensemble du total.
- Mesure la dépendance linéaire entre deux variables : La covariance d'échantillon permet de quantifier la tendance des variations conjointes de deux
colonnes numériques. Une covariance positive indique une relation directe, et une covariance négative, une relation inverse entre les variables.
- Les lignes contenant NULL sont exclues : Si une ligne contient une valeur NULL dans l'une des colonnes (X1 ou X2), elle est ignorée du calcul. Ce
comportement protège l'intégrité statistique du résultat, mais il faut en tenir compte si les données contiennent de nombreuses valeurs manquantes.
- Les valeurs calculées dépendent de l'échelle des variables : Le résultat de COVAR_SAMP est sensible aux unités utilisées dans X1 et X2. Par conséquent, les
covariances entre variables de nature différente ne peuvent pas être comparées sans mise à l'échelle ou normalisation.
- Peut être utilisée dans un contexte analytique avec OVER(...) : Grâce à la clause OVER(...), COVAR_SAMP peut être appliquée sur des fenêtres ou partitions,
permettant d'étudier les relations entre deux variables dans différents segments des données, comme par période, par utilisateur ou par région.
- Utile pour construire des matrices de covariance : Dans des analyses multivariées ou statistiques exploratoires, COVAR_SAMP peut être utilisée pour calculer
des matrices de covariance entre toutes les paires de variables numériques, en préparation de méthodes comme l'analyse en composantes principales (PCA).
- Composante clef de la formule de corrélation : Le coefficient de corrélation de Pearson (CORR) repose en partie sur la covariance d'échantillon, normalisée
par les écarts-types des deux variables. Cela signifie que COVAR_SAMP est une étape intermédiaire essentielle dans l'étude de dépendances linéaires.
- Complémentaire à d'autres fonctions statistiques : COVAR_SAMP s'intègre parfaitement dans des requêtes BigQuery combinant des fonctions comme
AVG, VAR_SAMP, STDDEV_SAMP ou COUNT. Cela permet de construire
des indicateurs robustes de dispersion et de dépendance dans un échantillon de données.
Dernière mise à jour : Jeudi, le 18 Juin 2020