vendredi, 29 mars 2024

À l’intérieur des sombres secrets de la gestion des données

Crédit : Dreamstime

Certaines informations appellent l’huile toute neuve. D’autres l’appellent le nouvel or. Les théoriciens et les économistes pourraient discuter de la qualité de la métaphore, mais il ne fait aucun doute que l’organisation et l’analyse de l’information est un effort essentiel pour toute entreprise cherchant à fournir la garantie d’une prise de décision basée sur les données.

Et pour ce faire, une solide technique de gestion de l’information est essentielle. Intégrant la gouvernance des données, les opérations de données, l’entreposage d’informations, l’ingénierie de l’information, l’analyse de l’information, la science des données, etc., la gestion de l’information, lorsqu’elle est bien faite, peut offrir aux services un avantage concurrentiel sur tous les marchés.

Le bon côté des choses est que de nombreux aspects de la gestion des données sont bien compris et reposent sur des principes solides qui ont en fait évolué au fil des années.

Par exemple, ils peuvent ne pas être simples à appliquer ou faciles à comprendre, mais grâce aux scientifiques de laboratoire et aux mathématiciens , les entreprises disposent désormais d’une série de structures logistiques pour analyser les informations et tirer des conclusions. Plus important encore, nous avons également des modèles statistiques qui dessinent des barres d’erreur qui définissent les limites de notre analyse.

Mais malgré tout le bien qui ressort de l’étude des sciences de l’information et des nombreuses disciplines qui la soutiennent, souvent nous nous grattons encore la tête. Les entreprises se heurtent souvent aux limites du terrain.

Certains des paradoxes sont liés aux difficultés pratiques de rassembler et d’organiser beaucoup d’informations. D’autres sont philosophiques, vérifiant notre capacité à prendre en compte les qualités abstraites. Et après cela, il y a l’augmentation des problèmes de confidentialité personnelle liés à la collecte d’un grand nombre de données au tout premier endroit.

Voici quelques-unes des astuces sombres qui font de la gestion des données un tel obstacle pour de nombreuses entreprises.

Les informations non structurées sont difficiles à évaluer

Une grande partie des données conservées dans les archives de l’entreprise n’ont pas beaucoup de structure du tout. Un de mes amis aspire à utiliser une IA pour rechercher dans les notes textuelles prises par le personnel du centre d’appels de sa banque.

Ces phrases peuvent consister en des idées qui pourraient aider à améliorer le financement et les services de la banque. Peut-être. Mais les notes ont été prises par de nombreuses personnes différentes avec des idées différentes sur ce qu’il fallait écrire à propos d’un appel offert.

De plus, les membres du personnel ont des conceptions et des capacités de composition différentes. Certains n’ont pas beaucoup composé. Certains documentent trop de détails sur leurs appels fournis. Le texte en lui-même n’a pas beaucoup de structure pour commencer, mais lorsque les utilisateurs ont une pile de textes écrits par des centaines ou des milliers d’employés sur des dizaines d’années, la structure en place peut être encore plus faible.

Même les informations structurées sont généralement non structurées

D’excellents scientifiques et administrateurs de bases de données guident les bases de données en définissant le type et la structure de chaque champ.

Dans certains cas, au nom de beaucoup plus de structure, ils limitent les valeurs d’un champ proposé à des nombres entiers dans des variétés particulières ou à des choix prédéfinis. Même dans ce cas, les personnes qui remplissent les formulaires stockés dans la base de données découvrent des moyens d’inclure les rides et les défauts. Souvent, les champs sont laissés vides. D’autres personnes mettent un tiret ou les initiales « n.a. » lorsqu’ils pensent qu’une préoccupation ne s’applique pas. Les individus épellent même leurs noms d’une manière différente d’une année à l’autre, tous les jours, ou peut-être d’une ligne à l’autre sur le même type.

Les excellents concepteurs peuvent capturer quelques-uns de ces problèmes grâce à la validation. D’excellents scientifiques des données peuvent également réduire une partie de cette imprévisibilité grâce au nettoyage. Cependant, il est toujours exaspérant que même les tableaux les plus structurés aient des entrées douteuses, ces entrées douteuses pouvant introduire des inconnues et même des erreurs d’analyse.

Les schémas d’informations sont soit trop stricts, soit trop lâches

Peu importe à quel point les groupes d’information essaient de définir des contraintes de schéma, les schémas résultants pour définir les valeurs dans les nombreux champs de données sont soit trop stricts, soit trop lâches.

Si le groupe de données ajoute des contraintes strictes, les utilisateurs se plaignent que leurs réponses ne soient pas découvertes sur la liste étroite des valeurs appropriées. Si le schéma est trop accommodant, les utilisateurs peuvent inclure des valeurs inhabituelles avec peu de cohérence. Il est presque impossible d’ajuster le schéma idéal.

Les lois sur l’information sont très rigoureuses

Les lois sur la confidentialité et la défense des données sont solides et deviennent de plus en plus puissantes. Entre des politiques telles que le GDPR, HIPPA et bien d’autres encore, il peut être très difficile de rassembler des données et beaucoup plus dangereux de les laisser traîner en attendant qu’un pirate informatique s’introduit. Dans de nombreux cas, il est plus simple d’investir plus d’argent dans des représentants légaux que dans des programmeurs ou des chercheurs de données. Ces maux de tête sont la raison pour laquelle certaines entreprises se débarrassent simplement de leurs données aussi rapidement qu’elles le peuvent.

Les dépenses de nettoyage des données sont importantes

Beaucoup de Les scientifiques des données vérifieront que 90 % de la tâche consiste simplement à collecter les données, à les mettre dans un format constant et à traiter les trous ou les erreurs sans limites. La personne qui détient les données dira constamment : « Tout est dans un fichier CSV et prêt à être utilisé ».

Cependant, ils ne signalent pas les champs vides ou les erreurs de caractérisation. Il est facile d’investir 10 fois plus de temps pour nettoyer les informations à utiliser dans une tâche de science des données que de simplement lancer la routine dans R ou Python pour effectuer l’analyse statistique.

Les utilisateurs sont très méfiants des pratiques en matière de données

Les utilisateurs finaux et les clients sont de plus en plus méfiants vis-à-vis des pratiques de gestion des informations d’une entreprise, et certains algorithmes d’IA et leur utilisation ne font qu’amplifier la peur, laissant de nombreuses personnes vraiment mal à l’aise sur ce qui est qui arrive aux données capturant chacun de leurs mouvements.

Ces inquiétudes soutiennent la réglementation et entraînent généralement les entreprises et même les chercheurs de données bien intentionnés dans les relations publiques. Non seulement cela, mais les gens brouillent intentionnellement la collecte de données avec des valeurs fausses ou des réponses incorrectes. Dans certains cas, la moitié du travail consiste à gérer des partenaires et des consommateurs destructeurs.

L’intégration de données externes peut être bénéfique et entraîner une catastrophe

C’est une chose pour une entreprise à s’approprier les données qu’elle collecte. Le service informatique et les scientifiques des données ont le contrôle sur cela. Cependant, les entreprises de plus en plus agressives trouvent comment incorporer leurs informations locales avec des informations tierces et les vastes mers d’informations personnalisées dérivant sur Internet.

Certains outils promettent honnêtement d’aspirer des données sur chaque client construire des dossiers personnalisés à chaque achat. Oui, ils utilisent les mêmes mots que les sociétés d’espionnage qui poursuivent les terroristes pour suivre les achats de restauration rapide et les cotes de crédit. Est-il étonnant que les gens s’inquiètent et paniquent ?

Les régulateurs sévissent contre l’utilisation des informations

Personne ne sait quand l’analyse créative des données franchit une ligne, une fois il fait apparaître les régulateurs. Dans un exemple récent du Canada, le gouvernement fédéral a exploré comment certains des magasins de beignets suivaient des clients qui faisaient également leurs achats chez des rivaux.

Un récent communiqué de presse a révélé : « L’examen a révélé que le contrat de Tim Hortons avec un fournisseur de services tiers américain consistait en un langage si peu clair et si libéral qu’il aurait permis à l’entreprise d’offrir ‘de- informations sur les lieux identifiés pour ses propres fonctions. » Et pour quoi? Pour vendre plus de beignets ? Les régulateurs prêtent de plus en plus attention à tout, y compris aux données personnelles.

Le plan d’information d’une entreprise peut ne pas en valoir la peine

Nous imaginons qu’un algorithme éblouissant pourrait tout rendre plus efficace et plus lucratif. Et dans certains cas, un tel algorithme est effectivement possible, mais le tarif peut aussi être coûteux. Les consommateurs – et même les entreprises – remettent progressivement en question la valeur du ciblé qui découle de plans complexes de gestion des données.

Certains soulignent la manière dont nous voyons souvent des publicités pour quelque chose que nous avons déjà acheté parce que les trackers publicitaires n’ont pas déterminé que nous ne sommes plus sur le marché.

Le même sort attend souvent d’autres stratagèmes astucieux. Dans certains cas, une analyse rigoureuse des données identifie l’usine la moins performante, mais cela n’a pas d’importance étant donné que l’entreprise a signé un bail de 30 ans sur le bâtiment. Les entreprises doivent être préparées à la probabilité que tout ce génie de la science de l’information produise une réponse qui n’est pas acceptable.

En fin de compte, les choix d’informations ne sont généralement que des appels de jugement

Les nombres peuvent offrir une grande précision, mais la façon dont les gens les traduisent est souvent ce qui compte. Après toute l’analyse des informations et la magie de l’IA, la plupart des algorithmes nécessitent de décider si une valeur est supérieure ou inférieure à une limite.

Dans certains cas, les scientifiques veulent une valeur de p inférieure à 0,05. Parfois, une police vise à offrir des contraventions aux voitures dépassant de 20 % la limite de vitesse. Ces seuils ne sont souvent que des valeurs approximatives.

Malgré toute la science et les mathématiques qui peuvent être appliquées à l’information, de nombreux processus « axés sur les données » ont plus de zones grises que nous ne le pensons, laissant les décisions approximativement ce qui revient à l’instinct malgré toutes les ressources qu’une entreprise peut avoir prises dans ses pratiques de gestion de l’information.

Les dépenses de stockage de données explosent

Oui, difficile Le disque dur ne cesse de grossir et le taux par téraoctet ne cesse de baisser, mais les développeurs collectent des bits plus rapidement que les taux ne peuvent baisser. Les gadgets de l’Internet des objets (IoT) continuent de soumettre des données et les utilisateurs s’attendent à rechercher en permanence une collection abondante de ces octets.

En attendant, les responsables de la conformité et les régulateurs demandent de plus en plus d’informations en cas de futurs audits. Ce serait quelque chose si quelqu’un regardait vraiment certains des morceaux, mais nous n’avons que beaucoup de temps dans la journée. Le pourcentage de données auxquelles on accède à nouveau ne cesse de baisser. Pourtant, le taux de sauvegarde du paquet d’élargissement ne cesse d’augmenter.

.

Toute l’actualité en temps réel, est sur L’Entrepreneur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici