REGR_SXX |
Somme de régression |
| Oracle Database SQL |
Oracle 10g Release 1 (10.1) ou supérieure |
Syntaxe
|
REGR_SXX(expr1, expr2) [ OVER (analytic_clause) ]
|
Paramètres
| Nom |
Description |
| expr1 |
Ce paramètre permet de spécifier l'expression numérique représentant la variable dépendante (Y) dans la régression linéaire, bien qu'elle ne soit pas utilisée directement dans le calcul de SXX, elle est requise pour maintenir la cohérence syntaxique avec les autres fonctions REGR_*. |
| expr2 |
Ce paramètre permet de spécifier l'expression numérique représentant la variable indépendante (X), dont on calcule la somme des carrés des écarts par rapport à sa moyenne dans la régression linéaire. |
| analytic_clause |
Ce paramètre permet, lorsqu'il est utilisé, de définir une clause analytique qui partitionne et ordonne les données sur lesquelles la somme des carrés des écarts de X est calculée, sans regrouper physiquement les lignes. |
Description
Cette fonction permet de calculer la somme des carrés des écarts des valeurs X par rapport à leur moyenne dans la régression.
Remarques
- Nature statistique de la fonction : La fonction REGR_SXX fait partie de la famille des fonctions de régression linéaire d'Oracle. Elle calcule un indicateur
statistique clef : la somme des carrés des écarts de la variable indépendante XX par rapport à sa moyenne. Cette mesure est essentielle pour déterminer la dispersion
des valeurs de XX et intervient dans le calcul de la pente de la droite de régression.
- Différence avec une simple variance : Bien que REGR_SXX ressemble à une variance, elle ne divise pas la somme des carrés par le nombre d'observations ou par
n?1n?1. Il s'agit d'une somme brute pouvant être directement utilisée dans d'autres calculs de régression sans ajustement par un facteur de normalisation.
- Utilisation obligatoire de deux expressions : Même si expr1 (Y) n'est pas utilisé pour calculer la somme des carrés de XX, il reste obligatoire dans la
syntaxe. Cela garantit que la fonction reste compatible avec l'API des autres fonctions REGR_*, qui prennent toutes deux arguments représentant les variables de la
régression.
- Compatibilité analytique : Grâce à l'option [OVER (analytic_clause)], la fonction peut être utilisée comme fonction analytique. Cela permet d'obtenir la somme des
carrés de XX pour des sous-ensembles logiques de données (partitionnement) tout en conservant toutes les lignes du jeu de résultats, contrairement à un GROUP BY classique.
- Influence des valeurs NULL : Les lignes où expr1 ou expr2 sont NULL sont ignorées dans le calcul. Cela garantit que seules les paires complètes (X, Y)
contribuent au résultat, ce qui est crucial pour maintenir la cohérence statistique.
- Lien avec REGR_SYY et REGR_SXY : REGR_SXX est le pendant horizontal de REGR_SYY (qui calcule la somme des carrés pour Y) et est souvent utilisé conjointement
avec REGR_SXY (somme des produits croisés). Ces trois valeurs permettent de calculer la pente et l'ordonnée à l'origine d'une régression linéaire manuellement si nécessaire.
- Impact sur le calcul de la pente : Dans une régression linéaire, la pente (Β1Β1?) se calcule comme REGR_SXY/REGR_SXXREGR_SXY/REGR_SXX. Sans
REGR_SXX, il est impossible de déterminer la pente directement, car cette fonction fournit le dénominateur statistique essentiel.
- Optimisation en base de données : Puisque la fonction est native dans Oracle depuis la version 10gR1, elle est optimisée au niveau du moteur SQL. Cela
permet d'éviter d'implémenter manuellement la somme des carrés via des sous-requêtes ou des calculs dans le client, ce qui serait plus coûteux en performance.
- Utilisation possible en corrélation : REGR_SXX est également utile pour calculer le coefficient de corrélation r lorsqu'on dispose de REGR_SYY et
REGR_SXY, car ces trois valeurs permettent d'obtenir toutes les métriques nécessaires à la corrélation linéaire de Pearson.
- Aucune normalisation automatique : Contrairement aux fonctions statistiques comme VAR_POP ou VAR_SAMP, REGR_SXX ne réalise pas de division pour obtenir une
variance. Cela le rend particulièrement adapté lorsque l'on souhaite contrôler manuellement les étapes de calcul de régression.
- Sensibilité aux valeurs extrêmes : Comme toute somme des carrés, REGR_SXX est sensible aux valeurs extrêmes (outliers) de XX. Une valeur très éloignée de
la moyenne peut avoir un impact disproportionné sur le résultat, ce qui peut fausser les calculs de régression si les données ne sont pas filtrées ou traitées au
préalable.
- Application dans le diagnostic de modèle : REGR_SXX n'est pas seulement utile pour calculer la régression, mais aussi pour analyser la variabilité de XX et
diagnostiquer la qualité du modèle. Une valeur très faible de REGR_SXX peut indiquer une faible variabilité de XX, rendant difficile une estimation fiable de la
pente.
Dernière mise à jour : Dimanche, le 29 Juin 2025