STDDEV |
Déviation standard |
| BigQuery |
Syntaxe
|
STDDEV([DISTINCT] expression) [OVER (...)]
|
Paramètres
| Nom |
Description |
| [DISTINCT] |
Ce paramètre facultatif permet de spécifier que le calcul de l'écart type doit être effectué uniquement sur les valeurs distinctes de l'expression. Si DISTINCT est utilisé, les valeurs dupliquées sont ignorées. |
| expression |
Ce paramètre permet de spécifier l'expression numérique (colonne ou calcul) pour laquelle vous souhaitez calculer l'écart type de l'échantillon. |
| [OVER (...)] |
Ce paramètre facultatif permet de définir la fenêtre d'analyse pour la fonction. Quand OVER est utilisé, STDDEV agit comme une fonction de fenêtre, calculant l'écart type pour chaque ligne par rapport à un ensemble de lignes défini par la clause OVER. Cette clause peut inclure des spécifications de partitionnement (PARTITION BY), d'ordonnancement (ORDER BY), et de cadrage de fenêtre (ROWS ou RANGE). Si OVER est omis, la fonction agit comme une fonction d'agrégation standard sur toutes les lignes du groupe ou de la table. |
Description
Cette fonction permet de demander l'écart type d'une échantillon des valeurs spécifiées. Cette fonction est un alias de la fonction STDDEV_SAMP.
Remarques
- Écart type basé sur un échantillon : La fonction STDDEV calcule l'écart type à partir d'un échantillon, et non de toute la population. Cela signifie
qu'elle applique une correction de Bessel (division par n - 1), ce qui donne une estimation plus fiable lorsque toutes les données ne sont pas disponibles.
- Alias de STDDEV_SAMP : STDDEV est simplement un alias de la fonction STDDEV_SAMP. Il est donc interchangeable avec cette dernière et produit exactement
les mêmes résultats. Cela peut éviter de devoir se souvenir du suffixe "_SAMP".
- Utilisation de DISTINCT pour ignorer les doublons : L'option DISTINCT permet d'ignorer les valeurs répétées dans le calcul de l'écart type. Cela peut
être utile pour ne considérer qu'une seule fois chaque valeur unique, mais cela modifie considérablement le résultat statistique.
- Compatible avec les fonctions analytiques : Grâce à la clause OVER, STDDEV peut être utilisée comme fonction analytique. Elle peut ainsi calculer un
écart type pour chaque ligne d'une partition, ce qui est pratique pour les analyses glissantes, par groupe ou par catégorie.
- Particulièrement utile en data science : Cette fonction est couramment utilisée pour mesurer la dispersion d'une variable numérique dans des analyses
statistiques, des détections d'anomalies ou des études de corrélation.
- Sensibilité aux valeurs aberrantes : Comme toute mesure de dispersion, l'écart type est sensible aux outliers (valeurs extrêmes). Une valeur très
élevée ou très faible par rapport aux autres peut fausser le calcul de façon significative.
- N'accepte que des valeurs numériques : Le paramètre expression doit être de type numérique (INT64, FLOAT64,...). Si vous appliquez la fonction sur
des colonnes contenant du texte ou des dates, une erreur sera levée, sauf si une conversion explicite est faite.
- Retourne NULL si l'entrée est vide ou non valide : Si l'ensemble de données est vide, ou si toutes les valeurs sont NULL, la fonction STDDEV retourne
également NULL. Il est donc recommandé de combiner cette fonction avec un filtre préalable (WHERE IS NOT NULL) pour éviter les résultats inattendus.
Dernière mise à jour : Jeudi, le 18 Juin 2020