jeudi, 28 mars 2024

L’importance d’une stratégie de données non structurées pour l’entreprise

Dans la partie 1 de cet article, nous avons parlé à Krishna Subramanian, co-fondateur de Komprise, une société qui gère des projets d’informations désorganisées, de l’importance de s’occuper des informations désorganisées au toute première opportunité disponible. Elle a souligné que les consommateurs d’entreprise qui se noient actuellement dans des données désorganisées pourraient économiser entre 70 et 80 % des coûts de leurs installations de données non structurées en obtenant que ces informations soient organisées, mises en mouvement et correctement conservées.

Pourquoi vous avez besoin pour gérer vos données désorganisées

Pendant que nous l’avions à la tête, nous avons demandé à Krishna exactement comment fonctionnait la gestion désorganisée des données, afin que les entreprises sachent ce qu’elles entraient, surtout si elles décidaient de commencer en 2023.

THQ :

Donc, comme nous le comprenons, obtenir des données non structurées sous contrôle est une exigence financière pour se conformer à certaines réglementations, mais il est également judicieux de réduire vos coûts de stockage de données à long terme. Et bien sûr, en organisant des données désorganisées, vous pouvez commencer à les exploiter pour des rendements potentiellement rentables, alors qu’auparavant, il s’agissait simplement d’un passif économique.

Quelles sont les opportunités que les entreprises ouvrent en ayant la capacité de voir toutes leurs données désorganisées et tout miner ? Quel genre de choses sont-ils capables de faire avec ?

La partie passionnante

KS :

Dans la partie 1, j’ai appelé cela la partie intéressante. Comme vous l’avez dit, il y a le côté juridique et le côté économique, qui sont tous formidables et utiles, mais c’est simplement un type d’enjeux de table. Ce que les entreprises ont la capacité de faire avec les données, c’est ce qui est étonnant, car cela varie tellement d’une organisation à l’autre, et il existe des opportunités auxquelles les entreprises n’auraient pas pensé auparavant.

Les obstacles des données désorganisées

Vous devez être capable de comprendre ce que sont les donnéesavant de savoir ce que vous pouvez en faire, et avant de ils commencent à gérer leurs données désorganisées, ils n’ont pas ces détails.

Une fois que vous avez vos informations non structurées avec un minimum de structure structurée autour, c’est quand vous pouvez commencer à envisager des workflows de données intelligents. Parce que si vous avez une manière méthodique de comprendre l’information et de développer une sorte de structure virtuelle autour d’elle, c’est alors que les ampoules commencent à s’allumer au-dessus de votre tête.

L’œil conducteur

Je Je vais vous proposer un exemple. Dans les voitures et les camions autonomes, les véhicules prennent beaucoup de photos pendant qu’ils conduisent. Vous pouvez avoir des centaines de photos du même panneau d’arrêt de différentes voitures, ou des photos de tous les vélos sur la route. Et une grande partie de cela n’est en fait pas pertinente. Si la voiture dérape, vous voulez savoir ce qu’elle a regardé à ce moment-là, mais si elle n’a pas fait d’erreur et que l’algorithme a bien fonctionné, vous n’avez pas besoin d’apporter cette information et de la conserver pour toujours, parce que vous comprenez que c’est la même indication d’arrêt. Et vous comprenez que c’est ce que la voiture a enregistré.

Vous devez donc procéder à une sélection à la périphérie avant d’apporter ces informations à un centre de données, car il y a trop de données et vous ne pouvez pas toutes les conserver autour de lui. Avec un flux de travail de données intelligent, qui examinerait toutes les données à la périphérie, indexerait les informations, puis vous pourriez les récupérer, vous pourriez exécuter un prétraitement et déclarer : « D’accord, je sais que des événements intrigants se sont produits à ces moments-là, et je souhaite juste garder les images associées à ces délais. N’apportez rien d’autre au centre d’information. »

Les outils pour gérer les informations non structurées

Produire un flux de travail comme celui-ci et le logiciel peut alors le faire pour vous, puis déplacer simplement les informations idéales vers un centre d’information ou un cloud pour un traitement plus approfondi. Peut-être souhaitez-vous alors exécuter un algorithme d’IA sur le reste des données, ou souhaitez-vous extraire des informations, car vous disposez maintenant d’historiques, peut-être de toutes les fois qu’une conception spécifique de véhicule s’est écrasée, ou n’a pas t s’arrêter correctement à l’indication d’arrêt, ou freiné trop fort. Vous voulez prendre tous ces ensembles de données, les assembler et exécuter quelque chose dessus pour peut-être voir s’il y a des raisons externes pour lesquelles ces choses se produisent à ce feu rouge dans cette conception de voiture, ou s’il y a quelque chose dans le codage de l’automobile cela doit être peaufiné.

La différence désorganisée

Toutes ces choses sont assez simples pour nous à faire avec des informations structurées, soit dit en passant. Si je vous fournissais ce problème dans un environnement de vente au détail, vous sauriez comment faire cela, vous comprendriez que vous avez besoin d’une base de données, vous comprendriez que vous avez besoin d’un entrepôt de données, vous comprendriez que vous auriez besoin d’un outil ETL.

Il y a toute cette innovation pour les données structurées. En ce qui concerne les informations non structurées, il n’y a rien de cette technologie, il n’y a rien de tel qu’une base de données de données non structurées, il n’y a absolument rien de tel qu’un index de données désorganisées, rien de tel qu’un prétraitement méthodique pour les informations non structurées, donc tout cela est se construit en ce moment. Les lacs d’information commencent à traiter les informations non structurées. Ils se sont vraiment concentrés sur des données semi-structurées, puis se sont étendus à des informations non structurées.

L’analyse des données se développe donc avec des données désorganisées. Et sur divers marchés, le traitement du contenu des données non structurées se développe également, comme la recherche d’informations personnellement reconnaissables dans des fichiers ou la recherche d’éléments dans une image vidéo. Tout cela est bien, mais cette façon systématique d’indexer les données, d’appeler des données, de créer un flux de travail, d’extraire des données dans un environnement, puis de résumer les résultats dans des balises ? C’est ce que fait la gestion des données. Et cette pièce manque pour les informations désorganisées. Les workflows de données intelligents d’informations non structurées sont donc là où nous voyons beaucoup de chance. Cela a-t-il du sens ?

THQ :

Oui, cela ressemble à des données désorganisées – la dernière frontière. Chaque fois qu’une ampoule s’allume au-dessus de la tête de quelqu’un, elle commencera soit la procédure consistant à prendre quelque chose que nous pouvons actuellement terminer avec des données désorganisées et à l’adapter à ses besoins particuliers, de sorte qu’il existe maintenant un outil pour le faire , ou cela déterminera quelque chose que nous ne pouvons pas encore terminer avec des données non structurées, mais que les workflows de données intelligents peuvent très probablement nous aider à devenir une vérité. Comme construire la science du traitement des informations non structurées à la frontière des exigences industrielles.

Les 12 prochains mois

Alors, quelles sont selon nous les perspectives d’adoption de la gestion des données non structurées en 2023 ?

KS :

Vous comprenez, je ne crois pas que ce soit du jour au lendemain. Je ne crois pas que dans un an, tout le monde fera de la gestion de l’information non structurée. Cependant, ce qui va se passer, et ce qui se passe actuellement, c’est que le marché va innover sur cette question.

Comme je l’ai déjà souligné, des fournisseurs comme les databricks, et Snowflake, et tous les data warehousing et data lake les entreprises commencent à fournir des analyses d’informations non structurées. Et cela se poursuivra jusqu’en 2023 – ils incluront davantage de capacités pour analyser des informations désorganisées. Des entreprises comme la nôtre offrent un moyen d’indexer les données désorganisées et de développer ces flux de travail intelligents d’informations désorganisées.

Indexer le non structuré

Nous continuons d’innover sur ce front pour le rendre de plus en plus facile. Et nos consommateurs commencent à inclure leurs utilisateurs départementaux. C’est énorme, car jusqu’à présent, la gestion d’informations non structurées était principalement le fait de groupes informatiques. Et l’informatique ne comprend pas vraiment ce qu’il reste dans l’information. Ils ne font que le garder et le protéger. Ils examinent donc les installations des données. En impliquant les utilisateurs du département, ils peuvent l’informer « Hé, cette information m’est utile, c’est ce que je souhaite en faire. » En produisant ce type de coopération avec les utilisateurs, ils franchissent une étape vraiment essentielle et nécessaire pour que tout cela passe à la phase suivante. C’est ce que je pense que nous verrons plus cette année.

THQ :

Pendant que nous y sommes, comment abordez-vous l’indexation des données non structurées ?

KS :

Les informations désorganisées n’ont pas de structure commune. Il contient quelque chose appelé métadonnées. Ainsi, chaque fois que vous prenez une photo sur votre téléphone, il y a des informations spécifiques que le téléphone capture, comme l’heure de la journée, l’endroit où la photo a été prise, et si vous la marquez comme préférée, elle aura cette balise de métadonnées sur ça aussi. Il peut comprendre qui est dans l’image, certaines métadonnées sont conservées.

Tous les systèmes de classement conservent certaines métadonnées sur les informations. Un élément comme le nôtre a en fait une manière dispersée de naviguer dans tous les différents environnements où vous avez enregistré des données et de créer un index mondial de toutes ces métadonnées autour de l’information. Et c’est en soi une question difficile, car encore une fois, les informations désorganisées sont si énormes. Un pétaoctet de données peut correspondre à quelques milliards de fichiers, et bon nombre de ces clients traitent des dizaines à plusieurs pétaoctets.

Vous avez donc besoin d’un système capable de produire un index efficace de plusieurs milliards de fichiers. qui pourraient être dispersés dans divers endroits. Vous ne pouvez pas utiliser une base de données, vous devez avoir un index distribué, qui est la technologie que nous utilisons sous le capot, mais nous l’optimisons pour ce cas d’utilisation. Vous produisez un indice global.

Des ennuis au carburant de fusée

Mais il ne suffit pas simplement d’avoir cela. Vous devez continuer à améliorer cet index, car les métadonnées sont très standard, elles peuvent vous indiquer le nom du fichier, et quand il a été développé, et qui l’a créé, et qui l’utilise, quel exemple. Mais il ne vous dira pas des choses comme « Ceci est une photo d’un chien de compagnie » ou « Ceci est un génome ». Il n’aura pas ce genre d’informations. Vous devez donc exécuter le traitement pour obtenir ce type d’informations. Et puis vous avez besoin d’un moyen de baliser et d’améliorer les données, puis de garder cette balise constante lorsque vous déplacez les informations. C’est ce que fait un index global de fichiers. Il développe une « base de données », si vous voulez, une base de données distribuée de toutes les informations non structurées, et cette base de données s’enrichit constamment avec plus d’informations.

THQ :

Et sommes-nous positifs sur les organisations qui relèveront ce défi dans les 12 prochains mois ?

KS :

Très optimiste, oui, car nous voyons notre clientèle doubler chaque année. Il sera dirigé par des secteurs spécifiques dans un premier temps – les sciences de la vie ont en fait bien accueilli cette innovation, donc les grandes sociétés pharmaceutiques, par exemple. Plus les entreprises s’y adonneront, plus elles se rapprocheront de l’omniprésence, d’une manière de résoudre un problème qui affecte de plus en plus de services au niveau de l’entreprise.

THQ :

Prendre un énorme problème et le transformer en carburant de fusée potentiel en ce qui concerne l’utilisation des données ?

KS :

J’aime ce sens. C’est vrai, oui : transformer un problème en opportunité grâce à des analyses avancées.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici