PERCENTILE_CONT |
Centile |
| BigQuery |
Syntaxe
|
PERCENTILE_CONT(value_expression, percentile [{RESPECT | IGNORE} NULLS])
|
Paramètres
| Nom |
Description |
| value_expression |
Ce paramètre permet de spécifier l'expression numérique (colonne ou calcul) pour laquelle vous souhaitez calculer le centile. |
| percentile |
Ce paramètre permet de définir la valeur du centile à calculer. Il doit s'agir d'une valeur numérique comprise entre 0.0 et 1.0 (inclus), où 0.0 représente le 0e centile (la valeur minimale) et 1.0 représente le 100e centile (la valeur maximale). |
| RESPECT NULLS |
Ce paramètre permet de spécifier que la fonction PERCENTILE_CONT doit inclure les valeurs NULL dans l'ensemble des données sur lequel le centile est calculé. |
| IGNORE NULLS |
Ce paramètre permet de spécifier que la fonction PERCENTILE_CONT doit exclure toutes les valeurs NULL de l'ensemble des données avant de procéder au calcul du centile. |
Description
Cette fonction permet de demander le centile, en appliquant une interpolation linéaire, de l'expression spécifié.
Remarques
- Calcul d'un centile avec interpolation continue : La fonction PERCENTILE_CONT calcule le centile de manière continue, en utilisant une interpolation
linéaire entre les valeurs adjacentes si le rang exact n'existe pas. Cela permet d'obtenir un résultat plus précis que les centiles discrets.
- Utile pour analyser la répartition d'une variable : Elle est couramment utilisée en statistiques descriptives, notamment pour identifier les seuils de
distribution comme les médianes (0.5), les quartiles (0.25, 0.75), ou tout autre percentile entre 0 et 1.
- Le paramètre percentile doit être compris entre 0.0 et 1.0 : La valeur du centile doit être spécifiée comme un nombre décimal entre 0 et 1, et non comme
un pourcentage (exemple : utiliser 0.9 pour le 90e centile, et non 90).
- Ignore ou respecte les NULL selon le choix explicite : Grâce à RESPECT NULLS ou IGNORE NULLS, l'utilisateur peut choisir si les valeurs NULL doivent affecter
le calcul. Par défaut, il est préférable d'ignorer les NULL pour des résultats représentatifs.
- Fonction d'agrégation non-discrète : Contrairement à PERCENTILE_DISC, retournant une valeur réellement présente dans les données, PERCENTILE_CONT peut
retourner une valeur interpolée ne figurant pas directement dans l'ensemble de données.
- Peut être utilisée avec une clause OVER() : Elle est compatible avec les fonctions analytiques, ce qui permet d'obtenir des centiles sur des partitions de
données, comme par groupe d'utilisateur, de date ou de région.
- Nécessite un tri implicite des données : La fonction trie les données numériques en interne, ce qui peut affecter les performances sur de très grands
ensembles, mais garantit un résultat mathématiquement exact pour l'interpolation.
- Outil précieux en data science et business intelligence : En analysant des seuils comme le 95e centile des temps de réponse ou des revenus, PERCENTILE_CONT
permet de détecter des valeurs extrêmes ou de segmenter les populations selon des distributions naturelles.
Dernière mise à jour : Jeudi, le 18 Juin 2020