VAR_SAMP |
Variance d'une échantillon |
| BigQuery |
Syntaxe
|
VAR_SAMP([DISTINCT] expression) [OVER (...)]
|
Paramètres
| Nom |
Description |
| DISTINCT |
Ce paramètre facultatif permet de spécifier que le calcul de la variance de l'échantillon doit être effectué uniquement sur les valeurs uniques de l'expression. Si DISTINCT est utilisé, les valeurs dupliquées sont ignorées avant d'être incluses dans le calcul. |
| expression |
Ce paramètre permet de spécifier l'expression numérique (colonne ou calcul) dont vous souhaitez calculer la variance de l'échantillon. La variance d'échantillon est une mesure de la dispersion des points de données autour de la moyenne, estimée à partir d'un sous-ensemble (échantillon) d'une population plus large. |
| OVER (...) |
Ce paramètre facultatif permet de définir la fenêtre d'analyse pour la fonction. Lorsque OVER est utilisé, VAR_SAMP agit comme une fonction de fenêtre, calculant la variance de l'échantillon pour chaque ligne par rapport à un ensemble de lignes défini par la clause OVER. Cette clause peut inclure des spécifications de partitionnement (PARTITION BY), d'ordonnancement (ORDER BY), et de cadrage de fenêtre (ROWS ou RANGE). Si OVER est omis, la fonction agit comme une fonction d'agrégation standard sur toutes les lignes du groupe ou de la table. |
Description
Cette fonction permet de demander la variance d'une échantillon des valeurs spécifiées.
Remarques
- Estimation de la variance à partir d'un échantillon : La fonction VAR_SAMP est utilisée pour estimer la variance d'une population à partir d'un
échantillon de données. Contrairement à VAR_POP, le dénominateur utilisé est n - 1, ce qui corrige le biais d'estimation.
- Utile quand les données ne couvrent pas toute la population : Cette fonction est particulièrement adaptée lorsque les données analysées ne représentent
qu'une partie (un sous-ensemble) de l'ensemble complet. Elle permet une estimation plus fiable de la variance dans les situations de données incomplètes ou partielles.
- DISTINCT pour ignorer les doublons : L'option DISTINCT permet de filtrer les doublons dans les données avant le calcul. Cela peut être utile dans le
cas où certaines valeurs sont répétées inutilement et pourraient fausser la dispersion apparente de l'échantillon.
- Utilisation possible en fonction de fenêtre : Avec OVER (...), VAR_SAMP peut être utilisée comme fonction analytique, permettant de calculer la variance
dans des fenêtres dynamiques (par partition, par ordre,...), tout en conservant la structure ligne par ligne des résultats.
- Valeurs NULL ignorées automatiquement : Lorsqu'un champ contient des valeurs NULL, celles-ci sont exclues du calcul de la variance. Il est donc important
de vérifier la qualité et la complétude des données, pour garantir une analyse pertinente.
- Sensible aux valeurs extrêmes : Comme toute mesure de dispersion basée sur les carrés des écarts, VAR_SAMP est très sensible aux valeurs aberrantes
(outliers). Quelques points de données éloignés de la moyenne peuvent augmenter fortement la variance calculée.
- Différence importante avec VAR_POP : VAR_SAMP et VAR_POP ne doivent pas être confondues. VAR_SAMP donne une estimation corrigée de la variance pour un
échantillon, tandis que VAR_POP mesure la variance réelle si toute la population est présente. Choisir la bonne fonction dépend du contexte d'analyse.
- Compatible uniquement avec les données numériques : Cette fonction nécessite que l'expression soit de type numérique (INT64, FLOAT64,...). Si un type non
numérique est utilisé, BigQuery générera une erreur. Il est donc essentiel de s'assurer de la nature des données avant d'appliquer cette fonction.
Dernière mise à jour : Jeudi, le 18 Juin 2020