PERCENTILE_DISC |
Centile |
| BigQuery |
Syntaxe
|
PERCENTILE_DISC(value_expression, percentile [{RESPECT | IGNORE} NULLS])
|
Paramètres
| Nom |
Description |
| value_expression |
Ce paramètre permet de spécifier l'expression (colonne ou calcul) pour laquelle vous souhaitez calculer le centile discret. La fonction recherchera une valeur existante dans l'ensemble de données. |
| percentile |
Ce paramètre permet de définir la valeur du centile à calculer. Il doit s'agir d'une valeur numérique comprise entre 0.0 et 1.0 (inclus), où 0.0 représente le 0e centile (la valeur minimale) et 1.0 représente le 100e centile (la valeur maximale). |
| RESPECT NULLS |
Ce paramètre permet de spécifier que la fonction doit inclure les valeurs NULL dans le calcul ou le positionnement des lignes au sein de la fenêtre ou du groupe. |
| IGNORE NULLS |
Ce paramètre permet de spécifier que la fonction doit exclure (ignorer) toutes les valeurs NULL de l'ensemble des données avant d'effectuer son opération (tri, comptage, calcul). |
Description
Cette fonction permet de demander le centile discret de l'expression spécifié.
Remarques
- Centile basé sur des valeurs réelles uniquement : Contrairement à PERCENTILE_CONT, la fonction PERCENTILE_DISC retourne une valeur existant réellement dans
l'ensemble des données, sans interpolation. Cela garantit que le résultat est une observation authentique, utile dans les analyses où seules les valeurs concrètes sont
pertinentes.
- Sélection de la première valeur qui atteint ou dépasse le centile : La fonction trie les valeurs par ordre croissant et sélectionne la première valeur dont
le rang cumulé atteint ou dépasse le centile demandé. Par exemple, un centile à 0.7 renverra la première valeur telle que 70 % des lignes soient inférieures ou égales.
- Utile pour la catégorisation ou segmentation : PERCENTILE_DISC est idéal pour déterminer des seuils de classement ou de seuils d'attribution dans des études
statistiques, car elle s'appuie sur des valeurs tangibles issues des données.
- Requiert un pourcentage exprimé entre 0.0 et 1.0 : Le paramètre percentile doit être un nombre décimal entre 0 et 1, et non un pourcentage entier. Une erreur
fréquente est de passer "90" au lieu de "0.9", ce qui produit une erreur ou un comportement inattendu.
- Fonction compatible avec RESPECT NULLS et IGNORE NULLS : L'utilisateur peut décider d'inclure ou non les valeurs NULL dans l'ordre de tri et le calcul. En
général, IGNORE NULLS est utilisé pour éviter que des valeurs manquantes ne biaisent le calcul.
- Fonction d'agrégation et de fenêtre : PERCENTILE_DISC peut être utilisée soit comme fonction d'agrégation classique, soit comme fonction analytique avec la
clause OVER(...), ce qui permet de calculer des centiles au sein de partitions (par exemple, par groupe de produit ou de région).
- Plus rapide à évaluer que PERCENTILE_CONT dans certains cas : Comme elle ne nécessite pas d'interpolation, PERCENTILE_DISC peut être plus performante sur de
grands volumes de données, en particulier si l'ensemble de valeurs est limité (exemple : scores entiers).
- Particulièrement adaptée aux données ordinales : Cette fonction convient parfaitement à l'analyse de données ordonnées mais discrètes, comme les niveaux
de satisfaction (1 à 5), les catégories de produits, ou des rangs prédéfinis, car elle ne crée pas de valeurs intermédiaires artificielles.
Dernière mise à jour : Jeudi, le 18 Juin 2020