FEATURE_SET |
Ensemble de fourniture |
|---|---|
| Oracle Database SQL | Oracle 10g Release?2 (10.2) |
Syntaxe
| FEATURE_SET ( [ schema . ] model [, topN [, cutoff ] ] mining_attribute_clause ) |
| FEATURE_SET ( INTO n [, topN [, cutoff ] ] mining_attribute_clause ) OVER ( mining_analytic_clause ) |
Paramètres
| Nom | Description |
|---|---|
| schema | Ce paramètre permet d'indiquer le nom du schéma dans lequel se trouve le modèle de data mining utilisé. Il est optionnel si le modèle est situé dans le schéma actif. |
| model | Ce paramètre permet de spécifier le nom du modèle de data mining ou de machine learning à utiliser pour déterminer l'ensemble des caractéristiques pertinentes. |
| topN | Ce paramètre permet d'indiquer le nombre maximal de caractéristiques à retourner, en fonction de leur importance ou de leur poids. Il aide à filtrer les plus significatives. |
| cutoff | Ce paramètre permet de fixer un seuil minimal de contribution ou de pertinence pour qu'une caractéristique soit incluse dans l'ensemble retourné. |
| mining_attribute_clause | Ce paramètre permet de définir les attributs (features) à analyser ou à appliquer au modèle. Il peut inclure des colonnes, des expressions ou des constantes. |
| INTO n | Ce paramètre permet d'indiquer que les résultats doivent être répartis sur n lignes, ce qui est utile dans un contexte analytique pour gérer des jeux de résultats volumineux. |
| OVER(mining_analytic_clause) | Ce paramètre permet d'appliquer la fonction FEATURE_SET dans un contexte analytique, comme une clause PARTITION BY, afin de générer des résultats dynamiques par ligne. |
Description
Cette fonction permet de retourner l'ensemble des caractéristiques (features) actives ou pertinentes pour une entité ou un modèle donné, dans un contexte de classification, d'unité d'allocation ou prédiction.
Remarques
- Identification des caractéristiques les plus significatives : La fonction FEATURE_SET permet de détecter les attributs les plus influents pour une entité donnée selon un modèle de data mining. Elle est très utile pour interpréter les résultats d'un modèle, notamment en classification ou en pointage. En listant les attributs contribuant le plus à une prédiction ou une catégorisation, l'utilisateur peut mieux comprendre les règles apprises par le modèle. Cela favorise la transparence algorithmique, essentielle dans les environnements régulés ou sensibles.
- Filtrage par importance avec topN : Le paramètre topN offre un mécanisme pratique pour se concentrer uniquement sur les attributs les plus importants. En indiquant un nombre précis, Oracle retournera les N caractéristiques qui ont le plus de poids selon le modèle. Cette option est particulièrement précieuse dans les modèles complexes avec un grand nombre de variables, permettant une visualisation rapide des contributeurs majeurs sans surcharge d'information.
- Seuil de pertinence avec cutoff : En complément de topN, le paramètre cutoff introduit un filtrage qualitatif. Il permet d'éliminer les caractéristiques ayant une contribution inférieure à un certain seuil. Cette approche aide à ne retenir que les attributs réellement significatifs, ce qui améliore la lisibilité des résultats et évite de se perdre dans les détails statistiques de faible impact.
- Intégration native avec les modèles Oracle Data Mining : FEATURE_SET exploite directement les modèles de data mining créés avec Oracle Data Mining (ODM), comme ceux basés sur des algorithmes de classification (SVM, arbre de décision,...). Cela garantit une cohérence totale entre les modèles prédictifs utilisés et les analyses des caractéristiques, sans avoir besoin d'exporter ou de retraiter les données dans un outil externe.
- Utilisation analytique avec la clause OVER : La prise en charge de la clause OVER(mining_analytic_clause) permet une utilisation dynamique dans des requêtes analytiques. Cela rend possible l'évaluation de plusieurs entités ligne par ligne dans une table, chacune avec ses propres attributs actifs. Cette flexibilité est cruciale dans des contextes à grande échelle, comme les campagnes marketing personnalisées ou l'analyse de fraude.
- Support d'une clause INTO pour contrôler la granularité : Le paramètre INTO n offre un contrôle fin sur la structure du jeu de résultats. Il permet de répartir les résultats sur plusieurs lignes, ce qui est essentiel pour visualiser clairement les caractéristiques retournées dans les interfaces de reporting, ou pour les charger dans des outils BI qui attendent un format tabulaire expansé.
- Fonction adaptée à la classification, la prédiction et la segmentation : FEATURE_SET n'est pas limitée à un seul type de modèle. Elle peut être utilisée dans le cadre de modèles de classification, de prédiction numérique ou de segmentation. Elle devient ainsi un outil polyvalent pour extraire des informations explicatives sur les décisions prises par l'algorithme, quelle que soit la nature du modèle.
- Importance stratégique pour l'interprétabilité des modèles : Dans une époque où l'«explicabilité des algorithmes» devient critique, FEATURE_SET joue un rôle stratégique. Elle permet aux analystes de démontrer pourquoi une décision a été prise par le modèle, avec quels attributs, et dans quelle proportion. C'est un élément clef pour l'auditabilité et la conformité, notamment avec des réglementations comme le RGPD.
- Paramètre model pour la modularité des analyses : Le paramètre model permet d'appliquer la fonction sur différents modèles entreposés dans la base. Cela donne la possibilité de comparer les caractéristiques actives selon plusieurs approches ou versions d'un même modèle, ce qui est idéal dans les phases d'expérimentation ou d'A/B testing d'algorithmes.
- Conception compatible avec des données complexes : Grâce à la clause mining_attribute_clause, il est possible d'analyser non seulement des colonnes simples, mais aussi des structures plus complexes comme des combinaisons d'attributs ou des expressions. Cela renforce la puissance descriptive de la fonction dans des jeux de données riches et multi-dimensionnels.
- Fonctionnalité exploitable via SQL standard : L'un des grands avantages de FEATURE_SET est qu'elle peut être utilisée dans des requêtes SQL classiques, sans nécessiter de programmation extérieure. Cela facilite son intégration dans des procédures PL/SQL, des scripts automatisés ou même des vues matérialisées, rendant son usage accessible aux développeurs comme aux analystes métier.
- Possibilité de trier selon la valeur absolue avec ABS : Le tri des résultats peut être effectué en ordre croissant (ASC), décroissant (DESC) ou selon la valeur absolue (ABS) de la contribution des attributs. Cette dernière option est particulièrement utile lorsque certaines caractéristiques ont un impact négatif important sur une prédiction, car elle permet de les mettre en évidence au même titre que les influences positives.
Dernière mise à jour : Dimanche, le 29 Juin 2025