Prenez une minute pour accroître la connaissance et la compréhension de la terminologie, du contexte et de l’application des données et des analyses.
Une expression courante est «big data». Mais que signifie-t-elle?
Si vous utilisez Google, le terme «big data» est défini comme «des ensembles de données extrêmement volumineux qui peuvent être analysés de manière informatique pour révéler des modèles, des tendances et des associations, en particulier en ce qui concerne le comportement humain et les interactions».
Certains décriront le Big Data comme quelque chose de tellement important ou différent que la plupart des ordinateurs ou des applications traditionnels ne peuvent pas le gérer efficacement. Les mégadonnées sont souvent associées au succès de l’analyse.
Si l’on considère l’immense croissance de la puissance de traitement au début des années 2000, le big data doit être assez impressionnant. Et c’est bien le cas. Alors, qu’est-ce qui différencie le Big Data?
Explorons le Big Data
Les données volumineuses se différencient généralement des «données» par quatre valeurs: volume, vitesse, variété et véracité. (Notez qu’il y a une certaine controverse sur le nombre de Vs. Je dis quatre, certains disent trois et omettent la véracité. D’autres disent que quatre a raison, mais incluent la valeur plutôt que la véracité. D’autres disent qu’il y en a sept à dix, beaucoup trop selon moi.)
Utilisons les quatre principaux V pour explorer le Big Data:
1 – Volume
Si vous pensez à la quantité pure de données, le Big Data est une quantité insensée de données.
Nous discutons régulièrement des données stockées en pétaoctets. Un certain nombre d’estimations indiquent que les transactions commerciales seront mesurées en zettaoctets d’ici 2020.
En termes de stockage, un octet de données est la plus petite unité et représente généralement un seul caractère de texte. Un mégaoctet correspond à 1024 octets. Un gigaoctet correspond à 1024 mégaoctets. Le modèle continue à travers des téraoctets, des pétaoctets, des exaoctets et des zettaoctets.
2 – Vitesse
Ce qualificatif définit le taux de données qui vient à nous.
Si nous réfléchissons à cela en termes de Big Data, non seulement il y en a beaucoup, mais il arrive vite et attend un traitement tout aussi rapide.
Par exemple, Walmart traite plus d’un million de transactions client par heure. Facebook estime à 900 millions le nombre de photos téléchargées chaque jour.
3 – Variété
Si nous pensons au traitement informatique il y a 10 ans, nous parlions presque exclusivement de données pouvant être structurées et interrogées dans une base de données.
Cela ne représente en réalité que 20% des données. Avec le Big Data, nous incluons des données non structurées ou multi-structurées qui ne rentrent pas dans les champs définis d’une base de données. Cela inclut les vidéos, l’audio, les données de flux Web, les images et bien plus encore.
Les capacités Big Data vous permettent de traiter ces données pour détecter des modèles, des tendances, etc. À titre d’exemples, pensez à la reconnaissance faciale ou aux systèmes à commande vocale. (Saviez-vous que beaucoup de chatbots sont en fait automatisés?)
4 – Véracité
Cela fait référence à l’exactitude ou à la véracité des données.
Il y a beaucoup de données qui arrivent, mais combien est fiable? Avez-vous le niveau de détail nécessaire pour tirer des conclusions et des modèles? La qualité et la précision sont-elles adaptées à votre objectif de sorte que vous puissiez prédire de manière fiable une tendance ou un résultat spécifique?
Je vois aussi cela comme un facteur de «valeur». Certaines données ont plus de valeur que d’autres en raison de leur granularité ou de leur qualité.
De la définition même, vous pouvez probablement comprendre pourquoi les entreprises sont submergées de données et la possibilité d’analyser des «données volumineuses».
Pour obtenir le maximum de valeur, nous devons d’abord comprendre ce que nous analysons et comment y accéder.
Le Big Data est différent et la façon dont nous voulons le stocker et l’analyser est également différente. Cela aura un impact sur l’infrastructure sous-jacente, les outils, les compétences et l’approche globale sur la manière dont la connaissance est conduite dans l’entreprise ou par l’entreprise.