VARIANCE |
Variance |
| BigQuery |
Syntaxe
|
VARIANCE([DISTINCT] expression) [OVER (...)]
|
Paramètres
| Nom |
Description |
| DISTINCT |
Ce paramètre facultatif permet de spécifier que le calcul de la variance doit être effectué uniquement sur les valeurs uniques de l'expression. Si DISTINCT est utilisé, les valeurs dupliquées sont ignorées avant le calcul. |
| expression |
Ce paramètre permet de spécifier l'expression numérique (colonne ou calcul) dont vous souhaitez calculer la variance d'échantillon. La variance mesure la dispersion des points de données autour de la moyenne. |
| OVER (...) |
Ce paramètre facultatif permet de définir la fenêtre d'analyse pour la fonction. Quand OVER est utilisé, VARIANCE agit comme une fonction de fenêtre, calculant la variance pour chaque ligne par rapport à un ensemble de lignes défini par la clause OVER. Cette clause peut inclure des spécifications de partitionnement (PARTITION BY), d'ordonnancement (ORDER BY), et de cadrage de fenêtre (ROWS ou RANGE). Si OVER est omis, la fonction agit comme une fonction d'agrégation standard sur toutes les lignes du groupe ou de la table. |
Description
Cette fonction permet de demander la variance d'une échantillon des valeurs spécifiées. Cette fonction est un alias de la fonction VAR_SAMP.
Remarques
- Mesure de la dispersion statistique : La fonction VARIANCE permet de quantifier la variabilité d'un ensemble de données numériques autour de leur moyenne.
Une variance élevée signifie une plus grande dispersion, tandis qu'une faible variance indique que les valeurs sont proches de la moyenne.
- Alias de VAR_SAMP : VARIANCE est équivalente à VAR_SAMP, c'est-à-dire qu'elle calcule la variance d'un échantillon (et non d'une population complète).
Cela signifie que le dénominateur du calcul est n - 1, ce qui est important dans les analyses statistiques.
- Supporte l'option DISTINCT : En ajoutant le mot clef DISTINCT, la fonction ignore les doublons avant de calculer la variance. Cela est utile lorsque
l'on souhaite mesurer la dispersion des valeurs uniques sans être influencé par leur fréquence.
- Fonction de fenêtre grâce à OVER : VARIANCE peut aussi être utilisée comme fonction analytique via la clause OVER (...). Elle permet alors de calculer
la variance ligne par ligne, selon des groupes (avec PARTITION BY) ou des plages temporelles (avec ROWS BETWEEN...).
- Comportement sensible aux valeurs extrêmes : Étant basé sur les carrés des écarts à la moyenne, le résultat peut être fortement influencé par les
outliers. Il est recommandé d'examiner les données avant d'interpréter la variance, surtout si l'échantillon est petit.
- Incompatible avec les types non numériques : La fonction VARIANCE ne peut être utilisée qu'avec des types numériques. Toute tentative d'utiliser des
chaînes de caractères, des booléens ou des types géographiques générera une erreur de type.
- Utilisation en combinaison avec d'autres fonctions statistiques : VARIANCE est souvent utilisée avec AVG, STDDEV,
COUNT ou SUM pour obtenir un aperçu statistique complet d'un jeu de données. Cela permet d'interpréter les résultats de manière
plus nuancée.
- Comportement avec les valeurs NULL : Les valeurs NULL sont ignorées automatiquement dans le calcul. Cela signifie qu'un grand nombre de valeurs
manquantes peut réduire artificiellement la taille de l'échantillon, ce qui affecte la précision statistique.
Dernière mise à jour : Jeudi, le 18 Juin 2020