L’ingénierie des fonctionnalités occupe un lieu unique dans le domaine de la science des données. Pour un grand nombre de déploiements de connaissance supervisés et non supervisés (qui consistent en la majorité des efforts informatiques cognitifs d’entreprise), cette procédure de détermination des attributs dans les données de formation est primordiale pour atteindre la précision de la modélisation prédictive est le gardien pour débloquer les merveilles de l’intelligence artificielle statistique. .
D’autres processus avant et après la génération de fonctions (comme la préparation des données ou la gestion de la conception) sont nécessaires pour garantir la précision des modèles de découverte par les fabricants. Pourtant, sans comprendre quels traits de données sont déterminants pour atteindre l’objectif d’une conception – comme prédire la menace d’un candidat pour le défaut de paiement d’un prêt – les organisations ne peuvent pas accéder aux actions de science de l’information ultérieures, rendant les précédentes sans valeur.
Par conséquent, l’ingénierie des fonctionnalités est l’un des travaux les plus indispensables pour la construction de modèles d’apprentissage automatique. La nature exigeante de ce processus repose sur:
- Données de formation étiquetées: Les grandes quantités de données de formation pour l’apprentissage supervisé et sans supervision sont l’un de ses inhibiteurs d’entreprise. Ce problème est redoublé par le manque de données de formation étiquetées pour des objectifs de conception spécifiques.
- Préparation des données: même lorsque les informations de formation proposées sont suffisantes, il suffit de nettoyer, de modifier, d’incorporer et de modéliser ces données font partie des tâches les plus fastidieuses en sciences de l’information.
- Manipulations d’ingénierie: il existe une vaste gamme d’outils et de stratégies de science des données pour déterminer les fonctionnalités, qui nécessitent une quantité considérable de travail car Eh bien.
Chacun de ces facteurs fait de l’ingénierie des fonctionnalités une procédure longue et lourde – sans laquelle, beaucoup d’apprentissage automatique est impossible. En tant que tel, il existe un certain nombre d’approches émergentes et développées des sciences de l’information pour surmonter cet obstacle ou le rendre beaucoup moins gênant.
Selon le directeur technique de Cambridge Semantics, Sean Martin, «Dans certaines méthodes, l’ingénierie commence à être moins intéressant, car personne ne veut faire ce dur travail. » Ce sentiment est particulièrement significatif à la lumière des approches de base de données de graphiques pour accélérer la procédure d’ingénierie des fonctions, ou l’éviter entièrement avec l’incorporation de graphiques, pour obtenir exactement les mêmes résultats plus rapidement, beaucoup plus rapidement et plus abordable.
Intégration de graphiques permet aux organisations de vaincre les problèmes de l’ingénierie fonctionnelle tout en conservant des caractéristiques d’informations critiques avec la meilleure influence sur la précision des modèles d’analyse avancés. Avec « l’intégration de graphiques, vous n’avez pas besoin de faire beaucoup d’ingénierie des fonctionnalités pour cela », a révélé Martin. « Vous utilisez essentiellement les fonctions du graphique telles quelles pour découvrir l’incorporation. » Selon Martin, l’incorporation de graphes est le processus de transformation d’un graphique en vecteurs (nombres) qui capturent correctement les connexions ou la topologie du graphique afin que les chercheurs en données puissent effectuer les transformations mathématiques prenant en charge l’apprentissage automatique.
S’il existe un graphique de compréhension sur les prêts hypothécaires et les risques, les chercheurs en information peuvent utiliser l’intégration pour vectoriser ces informations, puis utiliser ces vecteurs pour des transformations de connaissance automatique. Par conséquent, ils découvrent les fonctions du modèle à partir des vecteurs graphiques tout en étant l’un des principaux obstacles à l’apprentissage du fabricant. Des structures comme Apache Arrow peuvent couper et coller des informations graphiques dans des outils de science des données qui effectuent l’incorporation; en fin de compte, les utilisateurs auront la possibilité d’effectuer des incorporations directement dans les options de graphiques de compréhension concurrentielles.
L’environnement de graphique sous-jacent prenant en charge cette procédure d’incorporation est également utile pour transformer l’efficacité de l’ingénierie de fonction traditionnelle, la rendant beaucoup plus disponible pour les affaires. Une partie de cet utilitaire provient des capacités de modélisation des informations graphiques. La technologie des graphiques sémantiques est affirmée sur des conceptions de données standardisées auxquelles tous les types d’informations adhèrent, ce qui est crucial pour accélérer les aspects de la phase de préparation des données car «vous pouvez incorporer plus facilement des informations provenant de plusieurs sources», a observé Martin. Cette facilité de combinaison est directement responsable de la constitution d’un plus grand nombre de sources pour les ensembles de données de formation au machine learning et de l’identification de leurs relations les unes avec les autres – ce qui fournit des entrées supplémentaires non glanées dans les sources privées.
« Vous obtenez maintenant plus de sources de signal et la combinaison de celles-ci peuvent vous offrir un signe que vous n’obtiendrez pas des sources de données distinctes », a souligné Martin. De plus, la nature fondamentale des paramètres de graphe – ils fournissent une contextualisation abondante et nuancée des relations entre les nœuds – est extrêmement utile pour reconnaître les caractéristiques. Martin a fait remarquer que dans les environnements de graphes, les caractéristiques sont potentiellement des liens ou des connexions entre les entités et leurs caractéristiques, qui sont toutes deux expliquées avec des stratégies sémantiques. La simple évaluation de ces connexions génère des entrées significatives pour les conceptions d’intelligence artificielle.
En plus de l’intégration de graphiques et de l’inspection des liens entre les entités pour vérifier les fonctionnalités, les plates-formes d’intégration d’informations et de préparation d’analyse construites au sommet de bases de données de graphiques offrent des capacités de requête automatique pour accélérer la procédure d’ingénierie des fonctionnalités. Selon Martin, ce processus comprend généralement la production d’un tableau de qualités à partir d’informations pertinentes et « parmi ces colonnes se trouve celle sur laquelle vous voulez faire des prédictions. »
La génération automatique de requêtes accélère cette entreprise car elle « vous permet pour inclure rapidement l’ingénierie par rapport à un mélange d’informations », a reconnu Martin. « Vous pouvez rapidement créer des extractions de votre graphique, où chaque colonne devient une partie de votre entité que vous modélisez. » Les enquêtes automatisées permettent également aux utilisateurs de développer visuellement de larges tableaux à partir de diverses parties du graphique, ce qui leur permet d’utiliser plus rapidement leurs informations. Le résultat est une capacité renforcée pour «essayer plus rapidement les fonctions que vous souhaitez extraire», a suggéré Martin.
La capacité à générer instantanément des demandes pour l’ingénierie des fonctions est la capacité de profiler immédiatement les informations dans graphes pour accélérer la procédure de choix de fonction. Le profilage des informations « vous montre quel type d’informations reste dans le graphique et il vous donne des statistiques vraiment détaillées sur chaque mesure de ces données, en plus des échantillons », a déclaré Martin. Le profilage automatisé des données accélère naturellement cette dimension de la science de l’information qui est souvent nécessaire pour simplement comprendre comment les données peuvent être liées à un cas d’utilisation d’apprentissage particulier. Cette forme d’automatisation complète naturellement celle relative à la création de questions. Un spécialiste de l’information peut prendre ces informations analytiques « qui peuvent être utilisées lorsque vous commencez à construire votre table d’entités que vous allez extraire », a précisé Martin. « Vous pouvez faire ce genre de choses main dans la main en examinant le profilage des informations. »
Les fonctionnalités sont les caractéristiques d’informations concluantes qui permettent aux conceptions d’apprentissage automatique d’émettre avec précision des prédictions et des prescriptions. À cet égard, ils sont le fondement de la branche analytique de l’IA. Néanmoins, l’effort, le temps et les ressources nécessaires pour stimuler ces fonctionnalités peuvent devenir obsolètes en les apprenant simplement avec l’intégration de graphiques, de sorte que les chercheurs en information ne dépendent plus de données de formation identifiées et difficiles à trouver. Les implications de ce développement pourraient potentiellement élargir les cas d’utilisation pour l’apprentissage surveillé et non supervisé, rendant l’intelligence artificielle beaucoup plus courante dans l’entreprise qu’elle ne l’est actuellement.
De plus, les plates-formes de graphiques ont d’autres moyens d’accélérer l’ingénierie des fonctions ( basé sur leur combinaison, le profilage automatique des informations et les systèmes de génération de questions sur les voitures), de sorte que cela nécessite beaucoup moins de temps, d’énergie et de ressources qu’auparavant. Les deux techniques rendent l’apprentissage automatique plus utile et utilitaire pour les entreprises, élargissant la valeur de la science de l’information en tant que discipline. «Le plus gros problème de tous est de rassembler les informations, de les ranger et de les extraire afin que vous puissiez y effectuer l’ingénierie fonctionnelle», a déclaré Martin. « Un accélérateur pour la tâche de découverte de votre machine est essentiel. »
.
Toute l’actualité en temps réel, est sur L’Entrepreneur