Qu'est-ce qu'une "data" ?

De la définition à l'importance d'une donnée

Qu'est-ce qu'une "data" ?

Introduction

Nous parlons de “data” a tous les niveaux de notre vie :

  • dans notre travail avec le data-driven, la poursuite continue de données nouvelles et le traitement des données existantes pour avancer,
  • dans notre société avec l’exemple du Covid-19 où l’arrêt du pays se décidait sur le nombre de cas Covid-19,
  • dans notre vie où nous sommes à le recherche du meilleur prix, du meilleur taux, du meilleur salaire.

Pourtant, difficile de définir ce qu’est une “data”, et je ne sais pas pour vous mais pour moi, traduire data par donnée (donc sa traduction la plus légitime) me gêne, quelque chose ne me parait pas correspondre parfaitement sans que je ne puisse clairement dire pourquoi.

Je me pose donc la question : qu’est-ce qu’une “data” dans notre monde actuel ?

Retour aux sources

La première destination de ce type de voyage de retour aux sources, c’est 🥁🥁🥁🥁🥁 le Larousse (vous commencez à me connaitre) !

Donnée (extraction Larousse 23/102/2025) :

  1. (Surtout pluriel.) Ce qui est connu ou admis comme tel, sur lequel on peut fonder un raisonnement, qui sert de point de départ pour une recherche : Les données actuelles de la biologie.
  2. Idée fondamentale qui sert de point de départ, élément essentiel sur lequel est construit un ouvrage : Les données d’une comédie.
  3. (Surtout pluriel.) Renseignement qui sert de point d’appui : Manquer de données pour faire une analyse approfondie.
  4. Représentation conventionnelle d’une information en vue de son traitement informatique.
  5. Dans un problème de mathématiques, hypothèse figurant dans l’énoncé.
  6. Résultats d’observations ou d’expériences faites délibérément ou à l’occasion d’autres tâches et soumis aux méthodes statistiques.

Je retiens ici la définition 3 qui me semble coller le mieux à la définition de “data” comme on l’entend partout. En effet, une “data” est un renseignement, apporté par des chiffres, sur lequel on va baser une action ou une décision.

Reprenons l’exemple du Covid-19 : le gouvernement confinait une fois que les seuils qu’il avait fixé étaient dépassés. Les chiffres étudiés étaient le nombre de tests réalisés et le nombre de tests positifs, ce sont ces informations (test oui/non, positif oui/non), qui mises ensemble apportait au gouvernement le renseignement de l’état de la Covid-19 en France. Chaque jour le gouvernement regardait ces chiffres et décider d’activer ou pas le confinement (dans cet exemple une action).

Tout est donnée

Regardons maintenant de plus près cette 3e définition d’une donnée : Renseignement qui sert de point d’appui.. Cette définition ne limite pas le périmètre d’une “donnée” ni en terme de sujet ni en terme de contenu, et là est le point important : tout est donnée.

Vous montez 2 étages sans être essoufflé ? Cette information (ce fait) donne un renseignement sur votre état de santé : vous n’êtes pas en stade terminal de maladie respiratoire ! Les plus malins diront : “oui mais s’il faut attendre ça pour être diagnostiqué, on en a raté des étapes dans la prise en charge !”. Pas faux, mais je répondrais que ça dépend qui regarde : du point de vue du patient et du système de santé, tout est mise en place pour une prise en charge au plus tôt de la maladie. Mais pour un assureur ou un magasin en ligne, nous ne souhaitons pas qu’ils aient cette info car les algorithmes vont s’adapter soit pour augmenter le cout de l’assurance soit pour nous proposer des produits spécifiques. Si nous ne leur communiquons pas notre dossier médical, une montre connectée pour laquelle les données ne seraient pas assez protégées seraient vendus à ces industries, leur permettant d’avoir accès à l’information que nous souhaitons leur cacher.
Cet exemple traite de l’importance des données qu’on verra au chapitre précédent, je ne m’étale donc pas plus.

Prenons un autre exemple : votre parcours professionnel (vous savez, celui que vous partager gracieusement à l’ensemble d’internet sur LinkedIn ?). Le parcours professionnel permet de dresser un profil psychologique fin de qui nous sommes (de l’ESSEC sortent plus souvent des businessmen que des artistes, et inversement pour une école de cirque, couplé à notre cursus professionnel ça en dis long). Chaque élément de notre parcours est un renseignement qui croisé avec les autres permettront d’aboutir un profil.

Si tout est donnée, pourquoi ne quantifions-nous pas tout ?

Dans le contexte actuelle ou la donnée occupe une place primordiale, pourquoi ne quantifions-nous pas tout ?

C’est une vaste question pour moi-même !

Une première réponse me semble être pratique : si tout est donnée, toute donnée n’a pas le même niveau d’importance : un Amazon peut dépenser des millions pour avoir 1 information qui permettra d’augmenter ses ventes de 1%, par contre le nombre de cheminée en France ne l’intéressera pas (en tout cas pas assez pour mettre des millions sur la table), Amazon n’investira donc pas dans cette direction. Lors de la COvid-19, l’état a mis l’accent sur les systèmes SI-DEP et SI-VIC, puis VAC-SI. L’état aurait pu mettre de l’argent à construire des robots pour faire les courses des gens ou des bulles pour que les gens puissent se déplacer sans risque de transmission, le choix a donc été fait d’aller vers les 3 systèmes cités car jugés plus pratiques. En un mot, nous sommes limité en ressources monétaires et humaines, nous devons donc prioriser nos actions.

Une 2e réponse est technologique : nous n’avons pas la capacité de mesurer fidèlement tout (ex : le nombre de vibration des feuilles d’un arbre lorsqu’il y a du vent). Nous ne pouvons pas mettre un humain derrière chaque feuille, chaque poussière, chaque brin d’herbe pour en extraire des informations, nous nous reposons donc sur la technologie qui connait elle-même certaines contraintes.

Nous voyons aussi que dès que nous avons un moyen d’obtenir de nouvelles données de façon fiables, nous l’utilisons, allant bien dans le sens du “tout quantifier”. Prenons l’exemple des montres connectées : nous courions avant les montres connectées qui nous donnaient en direct notre battement de cœur par minute et les coureurs étaient plus rapides que le quidam d’aujourd’hui, démontrant qu’on pouvait s’entrainer sans montre connectée. Aujourd’hui, n’importe qui qui court un peu a une montre connectée pour avoir toutes ses données de courses, la montre devient l’élément central qui dirige l’entrainement (j’ai déjà entendu qu’un bon entrainement, c’est 179 BPM tout le long, pas plus pas moins).

Nous sentons donc bien que nous allons vers le “tout quantifier”, mais que certaines barrières ne nous permettent pas de tout quantifier aujourd’hui, nous obligeant à faire des choix.

L’importance des données

J’argumente au chapitre précédant que ce que nous quantifions dépend de sa praticité, ou plus précisément de son rapport bénéfice/cout. Ce précédent paragraphe inclut une notion important : le bénéfice attendue d’une donnée ! Lorsque quelqu’un parle de “data”, il y a toujours un avantage recherché (par exemple scientifique avec les data du James-Webb télescope pour mieux comprendre l’espace, les data du marché pour faire grandir son entreprise). Comme le rapport la définition, une donnée est un renseignement, et donc sémantiquement qui renseigne pour un but. Une donnée revête donc une importance.

Dans quelles domaines l’importance d’une donnée peut-elle s’illustrer ?

  1. Social :

Nous sommes dans une aire du “Je quantifie donc je crois”. La donnée est le socle de vérité communément accepté.

L’impact est énorme : le subjectif, le vécu (”Je ressens donc je crois”) est déclassé dans le discours public au profit du quantifié. Cette place de la donnée oriente notre façon de communiquer, notre expérience de vie, le “combien” passe devant le “pourquoi” ou le “comment”. Comme le discours public nécessite une dynamique pour emmener le public et que notre monde tend toujours à l’accélération, la méthode est rarement explicitée et quasiment jamais débattu, laissant la place à une quantification stupide : tant qu’on a un chiffre, on peut avancer ! La donnée devient ainsi un socle commun difficile à maintenir, changeant selon les souhaits du présentateur qui avancera une donnée plutôt qu’une autre au regard de son argumentaire plutôt que de la robustesse de la méthode.

Exemple dans la vie courante : on ne demande jamais a quelqu’un s’il se sent bien après avoir scrollé sur les réseaux, mais plutôt combien de temps il a scrollé, puis nous projetterons sur cette donnée que plus il y a passé de temps moins bien il se sentira, plutôt que de lui demander.

  1. Economique :

Les données sont aujourd’hui au cœur de l’activité des entreprises, orientent les décisions. La collecte et l’analyse de données est un marché très prospère, les cabinets de conseils ont la majeure partie de leurs activité sur le recueil et l’analyse de données puis la construction d’un narratif .

Exemple : une entreprise investira si le retour sur investissement financier est suffisant, et pas si le produit permettra d’améliorer la vie des gens.

  1. Santé publique :

Toutes nos décisions de santé publiques sont basées sur des chiffres.

Exemple des mud run (courses dans la boue) : chaque année des participants attrapent des diarrhées à cause de ces courses, mais le nombre est trop faible pour agir collectivement. En synthèse, les chiffres obtenus permettent de conclure qu’il n’est pas nécessaire de passer à l’action sur ce sujet. A l’inverse, le nombre de passages aux urgences pour grippe en hiver incitent à pousser à la vaccination.

Conclusion

Que retenir de tout ça finalement ? L’information clé me semble être que tout est donnée, mais que toutes les données n’ont pas la même importance au regard de l’objectif. Ainsi quand quelqu’un demande “on a quoi comme donnée ?” ou “voici les données de ...”, il faut nous poser la question de la finalité de ces données. Une donnée est une mesure à destination d’une décision ou d’une action, pas une fin en soit.

L’importance d’une donnée change selon la personne, et nos données (notamment de santé mais pas que) valent de l’or économiquement. Donc protégez vos données, elles vous appartiennent ! Les données vous concernant disent quelques choses de vous. Déballeriez vous toute votre vie à des inconnus dans la rue ? Probablement non, alors protégez vos données pour éviter de faire de même à des entreprises.

A très vite 🙂