STDDEV_SAMP |
Déviation standard d'un échantillon |
| BigQuery |
Syntaxe
|
STDDEV_SAMP([DISTINCT] expression) [OVER (...)]
|
Paramètres
| Nom |
Description |
| DISTINCT |
Ce paramètre facultatif permet de spécifier que le calcul de l'écart type de l'échantillon doit être effectué uniquement sur les valeurs uniques de l'expression. Si DISTINCT est inclus, les doublons sont ignorés dans le calcul. |
| expression |
Ce paramètre permet de spécifier l'expression numérique (qui peut être une colonne ou un calcul) pour laquelle vous souhaitez calculer l'écart type de l'échantillon. |
| OVER (...) |
Ce paramètre facultatif permet de définir la fenêtre d'analyse pour la fonction. Lorsque OVER est utilisé, STDDEV_SAMP fonctionne comme une fonction de fenêtre, calculant l'écart type de l'échantillon pour chaque ligne en fonction d'un ensemble de lignes défini par la clause OVER. Cette clause peut inclure des spécifications pour le partitionnement (PARTITION BY), l'ordonnancement (ORDER BY), et le cadrage de la fenêtre (ROWS ou RANGE). Si OVER est omis, la fonction agit comme une fonction d'agrégation standard, calculant l'écart type sur toutes les lignes du groupe ou de la table. |
Description
Cette fonction permet de demander l'écart type d'une échantillon des valeurs spécifiées.
Remarques
- Utilisée pour des échantillons, pas pour la population entière : La fonction STDDEV_SAMP calcule l'écart type d'un échantillon statistique, ce qui
signifie qu'elle estime la dispersion à partir d'un sous-ensemble de données. Pour cela, elle utilise la formule corrigée de l'écart type, en divisant par n - 1 au lieu
de n, afin d'éviter une sous-estimation de la variance.
- Correction de biais incluse dans la formule : Grâce à la division par n - 1, cette fonction intègre ce que l'on appelle une correction de Bessel,
utilisée pour compenser le biais dans l'estimation de la variance d'un échantillon. Cela est essentiel lorsqu'on souhaite faire des inférences sur une population
à partir de données partielles.
- Idéale pour l'analyse exploratoire ou les tests statistiques : STDDEV_SAMP est souvent utilisée dans des contextes analytiques où les données
disponibles ne représentent qu'une fraction des cas possibles, comme des sondages, des tests A/B ou des mesures expérimentales.
- Peut s'appliquer à des partitions grâce à OVER(...) : En combinant avec la clause OVER(...), vous pouvez utiliser STDDEV_SAMP comme une fonction de
fenêtre, permettant d'obtenir l'écart type de l'échantillon dans chaque partition ou groupe défini (par exemple, par client, par mois,...).
- Retourne NULL pour moins de deux valeurs valides : Pour que STDDEV_SAMP fonctionne, au minimum deux valeurs numériques non nulles sont nécessaires. Si
l'expression n'est renseignée qu'une seule fois ou si toutes les lignes sont NULL, le résultat sera NULL.
- L'option DISTINCT filtre les doublons avant le calcul : Si vous utilisez DISTINCT, seules les valeurs uniques sont prises en compte. Cela peut modifier
radicalement l'écart type si les données contiennent de nombreuses répétitions.
- Différente de STDDEV_POP même avec de nombreuses lignes : Même avec un grand nombre de lignes, STDDEV_SAMP et STDDEV_POP ne donnent pas toujours les
mêmes résultats, car la correction par n - 1 peut avoir un impact notable, surtout avec des tailles d'échantillons modestes.
- Compatible avec tous les types numériques : Vous pouvez l'utiliser avec des champs de type INT64, FLOAT64 ou des résultats d'expressions
arithmétiques. En revanche, elle ne s'applique pas directement à des chaînes ou des dates, sauf conversion explicite en type numérique.
Dernière mise à jour : Jeudi, le 18 Juin 2020