CORR |
Corrélation |
| BigQuery |
Syntaxe
|
CORR(X1, X2) [OVER (...)]
|
Paramètres
| Nom |
Description |
| X1 |
Ce paramètre permet de spécifier la première expression numérique (par exemple, une colonne) pour laquelle le coefficient de corrélation de Pearson doit être calculé. |
| X2 |
Ce paramètre permet de spécifier la deuxième expression numérique (par exemple, une colonne) pour laquelle le coefficient de corrélation de Pearson doit être calculé, en association avec X1. |
| OVER (...) |
Ce paramètre facultatif permet de spécifier une fenêtre d'analyse pour la fonction CORR, la transformant ainsi en une fonction de fenêtre analytique. Cela permet de calculer le coefficient de corrélation sur des sous-ensembles de données (partitions) plutôt que sur l'ensemble du jeu de données. |
Description
Cette fonction permet de demander le coefficient de corrélation de Pearson pour un ensemble de paires de nombres spécifiés.
Remarques
- Calcule la corrélation linéaire de Pearson : La fonction CORR(X1, X2) retourne le coefficient de corrélation de Pearson, mesurant la relation linéaire
entre deux variables numériques. Sa valeur est comprise entre -1 et 1, où -1 indique une corrélation négative parfaite, 0 une absence de corrélation, et 1 une corrélation
positive parfaite.
- Nécessite que les deux colonnes soient numériques : Les paramètres X1 et X2 doivent représenter des expressions numériques compatibles, typiquement de type
INT64, FLOAT64, ou NUMERIC. Si l'un des deux contient des valeurs non numériques, une erreur sera générée ou la valeur sera ignorée dans le calcul.
- Ignore les lignes contenant des valeurs NULL : Lors du calcul de la corrélation, CORR ignore toutes les lignes où X1 ou X2 est NULL. Cela permet d'éviter les
erreurs, mais peut aussi fausser le résultat si les valeurs nulles sont nombreuses ou non réparties uniformément.
- Particulièrement utile pour les analyses statistiques : Cette fonction est essentielle pour détecter les relations entre variables, comme entre une variable
dépendante et une variable explicative dans une analyse exploratoire de données. Elle est souvent utilisée dans des requêtes analytiques ou de visualisation.
- Supporte l'analyse par fenêtres (analytic function) : Grâce au paramètre OVER (...), CORR peut être appliqué par groupe ou partition (par exemple, par
utilisateur, par région, ou par période). Cela permet d'évaluer comment la corrélation varie à travers différents sous-ensembles de données.
- Peut être sensible aux valeurs extrêmes (outliers) : Le coefficient de corrélation de Pearson est une mesure sensible aux valeurs aberrantes, pouvant
artificiellement augmenter ou diminuer la corrélation observée. Il est donc recommandé de vérifier la distribution des données avant d'interpréter les résultats.
- Ne détecte pas les relations non linéaires : Une corrélation proche de 0 ne signifie pas nécessairement qu'il n'existe aucune relation entre les
variables; cela signifie simplement qu'il n'y a pas de relation linéaire. Pour les dépendances non linéaires, d'autres techniques doivent être utilisées (exemple corrélation
de Spearman, régression non linéaire...).
- Utilisable dans des contextes variés de modélisation ou de détection : CORR est très utilisé pour des analyses prédictives, le filtrage de variables
corrélées, ou encore dans le dépistage de relations cachées dans les données (par exemple, identifier des co-mouvements de séries temporelles ou des comportements
similaires entre entités).
Dernière mise à jour : Jeudi, le 18 Juin 2020