Accueil Focus Le Lexique du Data Scientist

Focus

Le Lexique du Data Scientist

Par

16 octobre 2017

9072

Présentation

Ce petit article regroupe les nombreux termes sur lesquels vous risquez de tomber sur ce blog ou de manière générale dans la littérature de data science, intelligence artificielle, deep learning…

Une entrée se présente sous la forme suivante :

Mot français – Mot anglais (si différent du mot français)
Définition du terme
Exemple si besoin
Liens pour aller plus loin

Remarque : vous pouvez utiliser la combinaison de touches CTRL + F pour trouver rapidement dans la page le mot que vous recherchez.

Tout le lexique du data scientist

0-9

3V
Volume, Vélocité, Variété : ce sont les trois dimensions retenues, à l’origine par IBM, pour décrire un environnement Big Data. Le volume représente la quantité d’information stockée et/ou traitée par le système, la vélocité rend compte des besoins d’une réponse rapide (et de la nécessité d’entraîner les algorithmes en des temps raisonnables), et la variété souligne les nombreux types de données que l’on peut avoir en entrée (structurée, non structurée, libre, etc…)

4V
Pareil que 3V avec en plus Véracité : les données utilisées ne sont pas nécessairement à jour, ni même correctes (il y a beaucoup de désinformation sur Internet). La problématique est donc à considérer pour chaque système Big Data étudié.

Remarque : parfois, on entend « Valeur » à la place de Véracité mais l’idée reste la même.
cf Les quatres V du Big Data par InterSystems

A

Algorithme – Algorithm
Il s’agit d’une suite d’opérations ou d’instructions permettant de résoudre un problème ou d’obtenir un résultat. Les algorithmes sont au cœur de la data science puisqu’ils servent à décrire l’entraînement des réseaux, la manière qu’ils ont de décider d’un résultat, et de bien d’autres choses encore.

Algorithme adaptatif – Adaptive algorithm
C’est un algorithme dont le comportement change en fonction de paramètres variés (données entrantes, paramètres d’exécution, propriétés du serveur ou de la mémoire, etc…). Ils sont souvent utilisés dans le cadre du boosting car leurs performances s’améliorent avec le temps.

Algorithme génétique – Genetic algorithm
Inspiré des principes de l’évolution génétique, des générations de population sont utilisées pour confronter l’algorithme à un certain environnement dans lequel un « optimum de survie » finira par apparaître.

API (Application Programming Interface)
Appelée également Interface de programmation, elle permet simplement à une application d’accéder à une autre application pour des données, des fonctionnalités.
L’API de Google aide à récupérer des images sans ouvrir son navigateur.
L’API de Facebook permet de poster des commentaires sur son mur depuis un simple programme informatique.
cf Wikipedia

Arbres de décision – Decision tree
Une approche visuelle de compréhension des algorithmes peut être d’utiliser des arbres de décision. Les branches de l’arbre représentent les différentes règles qui vont nous guider, et les feuilles sont le résultat final au problème d’origine. On suit un parcours dans l’arbre qui nous permet, en répondant à des questions, de parvenir à une conclusion.
cf Université de Lille

Architecture I/O – I/O architecture
Architecture faisant intervenir des entrées et des sorties de données.

Attrition – Churn
Le churn ou taux d’attrition correspond à la part des clients (ou d’abonnés) perdus sur une période.
cf Définitions marketing

AWS (Amazon Web Services)
Ce sont des services proposés par Amazon. Ils regroupent plusieurs fonctionnalités sur le Cloud : espace de stockage, puissance de calcul (pour entraîner des algorithmes par exemple), certains softwares en location.

B

Big Data
Les 4V du big data sont Volume, Vélocité, Variété et Valeurs. On voit parfois apparaître la Véracité et la Visualisation. Il s’agit d’un terme « commercial » désignant, généralement, toute solution ou domaine s’appuyant sur de grands jeux de données ou sur des problématiques de traitement complexes et en grand nombre.

BigTable
Il s’agit d’un service Cloud de Google App Engine : c’est une base de données orientée colonnes, rapide et développée par Google. Elle n’est pas Open Source (autrement dit, on n’a pas accès à son code), mais elle héberge les services de Gmail, YouTube et même Google Earth.
cf Google BigTable

Business analytics
Il s’agit d’une offre de produits informatiques renvoyant le plus souvent aux outils de restitution destinés à l’aide à la prise de décision. On compte notamment SAP, SAS, MicroStrategy.

C

Cassandra
Système de gestion de base de données open source de type NoSQL, un des principaux projets de la Fondation Apache. Cassandra est conçue pour gérer des quantités massives de données réparties sur plusieurs serveurs (clusters), en assurant tout particulièrement une disponibilité maximale des données et en éliminant les points individuels de défaillance.

Cluster
En réseau et système, un cluster est une grappe de serveurs (ou « ferme de calcul ») constituée de deux serveurs au minimum (appelés aussi nœuds) et partageant une baie de disques commune. Il permet d’éviter la redondance de matériel, à l’inverse de l’architecture distribuée.

D

Data Analyst
Maîtrisant les outils du Big Data et les statistiques, le Data Analyst code les algorithmes prédictifs sur la plateforme analytique.

Data Scientist
A la fois statisticien de haut vol, capable de manipuler les outils informatiques du Big Data et comprendre les enjeux business de ses analyses. Le Data Scientist (parfois traduit en scientifique des données) est l’homme clé du Big Data.

Data Steward
Orienté base de donnée, le Data Steward est responsable de la cohérence, du modèle et du contenu de l’ensemble des bases de données sous sa responsabilité. Sa mission sera, en particulier, d’exposer certaines informations et d’en agréger de nouvelles.

Datavisualisation
Aussi nommée « Dataviz », il s’agit de technologies, méthodes et outils de visualisation des données. La présentation sous une forme illustrée rend les données plus lisibles et compréhensibles.
cf Article de Toucan Toco

Données structurées et non-structurées – Structured and Unstructured Data
Les données structurées correspondent aux données que l’on peut normaliser (c’est-à-dire assigner une structure) alors que les données non-structurées ne peuvent pas l’être.
Structuré : page HTML, objet JSON, base de donnée relationnelle…
Non-structuré : fichier texte brut, photographies, vidéos, audio…

E

F

First Party Data / Third Party Data
La « first-party data » correspond aux informations acquises sur les internautes visitant un site Web. Ces informations sont récoltées par l’annonceur ou les éditeurs par différents biais (formulaire d’inscriptions, cookies ou outils analytiques rattachés) et peuvent avoir trait à des données comportementales (intérêts, achats, intention d’achat, navigation…) ou déclaratives (âge, CSP…). A l’inverse, la third-party data est collectée par des acteurs spécialisés.
En résumé, la first party data est la donnée collectée par l’annonceur, la third party data est la donnée de source externe.

Flux de clics – Clickstream
Il s’agit du flux de clics généré en permanence par les internautes sur un site Internet. C’est une source précieuse d’information pour les algorithmes de Machine Learning, notamment si on veut étudier le comportement de ses internautes (on utilise également les cookies).

Fondation Apache
Il s’agit d’une organisation à but non lucratif qui développe des logiciels open source sous licence Apache. Les projets les plus connus sont le serveur web Apache HTTP Server, Apache Hadoop, OpenOffice, SpamAssassin, le moteur de recherche Solr…

Fouille de Textes – Textmining
C’est un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains. Dans la pratique, cela revient à mettre en algorithme un modèle simplifié des théories linguistiques dans des systèmes informatiques d’apprentissage et de statistiques.

Framework
C’est un ensemble de bibliothèques, d’outils, de conventions, et de préconisations permettant le développement d’applications. Il peut être spécialisé ou non. C’est comme un modèle standard, qui permet la réutilisation du code par la suite.
Un Framework connu du monde Java est Spring

G

Google App Engine
Plateforme de conception et d’hébergement d’applications web basée sur les serveurs de Google. A l’inverse d’AWS, c’est gratuit pour des projets à petite échelle. Comme vu précédemment, on y retrouve BigTable pour l’hébergement de base de donnée.

H

Hadoop
Il s’agit d’un framework Open source codé en Java et conçu pour réaliser des traitements sur des données massives. C’est l’un des frameworks les plus utilisés, et permet notamment d’implémenter le MapReduce. Il est actuellement développé par Apache, mais on retrouve chez ses concurrents des équivalents avec Pig, Hive ou Aster.

Hadoop Distributed File System (HDFS)
Composant clé de la plateforme Apache Hadoop, HDFS (Hadoop Distributed File System) est un système de fichiers distribué. Il permet de stocker de très gros volumes de données sur un grand nombre de nœuds.

HBase
Projet open source, Apache HBase est la base de données distribuée qui s’appuie sur Hadoop et son système de fichiers HDFS. La base de données est ACID et de classe NoSQL.

High-performance Analytical Application (HANA)
SAP HANA est la plateforme haute performance « In-Memory » proposée par SAP. C’est une combinaison Hardware/Software (« appliance ») qui a vocation à contenir l’ensemble de l’applicatif SAP (parties ERP et BI), afin d’améliorer les performances et d’exploiter les données en temp réel.
cf SAP HANA

Hive
Solution d’entrepôt de données, Apache Hive s’appuie sur Hadoop. Ce logiciel permet de structurer les données en tables, lignes, colonnes comme sur un datawarehouse traditionnel et propose aux développeurs et analystes un langage de requêtage sur les données, HiveQL (un langage proche du langage SQL).

I

Informatique en nuage – Cloud computing
Ensemble de processus qui consiste à utiliser la puissance de calcul et/ou de stockage de serveurs informatiques distants à travers un réseau, généralement Internet.

J

K

L

Lac de données – Data Lake
L’approche Data Lake ou lac de données consiste à mettre en place un cluster de type Hadoop, par exemple, où vont converger toutes les données brutes que l’entreprise peut capter. Ces données seront ensuite mises à disposition de l’ensemble du SI pour entraîner des algorithmes de Machine Learning ou faire des statistiques.

Langage informatique
Notation conventionnelle destinée à formuler des algorithmes et produire des programmes informatiques qui les appliquent. D’une manière similaire à une langue naturelle, un langage de programmation est composé d’un alphabet, d’un vocabulaire, de règles de grammaire, et de significations.
Quelques exemples de language de programmation: SAS, R, SQL, Matlab, Fortran, Cobol, Python , Perl, JS, Bash, Java, C++… L’indice TIOBE permet de suivre la « popularité » des différents langages dans le temps.
cf TIOBE index

M

Machine Learning
Discipline issue de l’intelligence artificielle, le Machine Learning ou apprentissage automatique consiste au développement d’algorithmes qui apprennent un phénomène à partir des données. L’apprentissage est automatique, à la différence du Data Mining classique, où les analyses sont réalisées par le statisticien, à posteriori.

Machines à vecteurs de support
Appelé aussi Support Vector Machine en anglais, les machines à vecteurs de support sont des techniques de Machine learning notamment issues de la bioinformatique et utilisées dans des problèmes de discrimination, par exemple pour classer des acheteurs dans des segments.

MapReduce
C’est une procédure de développement informatique, inventée par Google, dans laquelle sont effectués des calculs parallèles de données très volumineuses, distribués sur différentes machines dans des lieux différents (Clusters ou Cloud computing). Trois étapes:

Map: Diviser les données à traiter en partitions indépendantes (envoie les données et la fonction à un endroit donné),
Exécuter les fonctions en parallèle
Reduce: Combiner les résultats (opération inverse du Map)

Méthode des k plus proches voisins – K Nearest Neighbors (kNN)
Il s’agit d’un algorithme de classification simple. Il permet de placer un nouvel élément dans une classe en le comparant au k éléments les plus proches.

N

Nettoyage des données – Data Cleansing
C’est une phase qui consiste à supprimer les données incohérentes, corriger les erreurs comme, par exemple, des données mal saisies. Disposer d’informations d’un bon niveau de qualité est un préalable à l’élaboration d’algorithmes de Machine Learning.

NoSQL
Acronyme de « Not only SQL », il désigne les bases de données de nouvelle génération (souvent volumineuses) qui se démarquent des bases de données relationnelles classiques et ne sont plus forcement interrogeables en SQL.
On dénombre 4 types de bases de données NoSQL: Orientées colonnes (cf. BigTable), Orientées graphe, Orientées clé-valeur et Orientées document.

O

OpenData
Si le mouvement données ouvertes / OpenData n’est pas directement lié au Big Data, ce dernier tire très directement profit des données publiques pour enrichir les données issues des capteurs ou les données clients avec les informations librement accessibles sur le Web.

P

Pig
Langage de scripting de la plateforme Hadoop.

Plateforme de Gestion d’Audiance (PGA) – Data Management Platform (DMP)
Outil permettant à une entreprise de regrouper l’ensemble des données issues de différents canaux (web, mobile, centre d’appels, etc.) et d’en tirer profit.

Prédictif
Les algorithmes prédictifs constituent une application directe des techniques de Machine Learning dans le Big Data. A partir d’un historique d’achats, de sessions de navigation sur un site internet, ces algorithmes vont prédirent quels seront les prochains besoins d’un consommateur. A partir de l’analyse des vibrations d’un moteur, un algorithme prédictif va diagnostiquer une panne avant qu’elle ne survienne.

Python
Langage de programmation Open Source, très utilisé dans le traitement des données en masse. Il est facile à apprendre et à utiliser, flexible et puissant.
cf Python Fundation

Q

Qualité des données
C’est l’un des problèmes clés du Big Data : pour que les algorithmes fonctionnent correctement, ils doivent pouvoir s’appuyer sur des données fiables et cohérentes. Cela impose un gros travail de nettoyage en amont pour ne pas faire ce qu’on appelle du « Machine Learning on dirty data ».

R

R
Langage lié à l’analyse statistique, R s’impose de plus en plus comme le langage du Big Data. Projet open source, R bénéficie d’un fort soutien du secteur universitaire ainsi que de la société Revolution Analytics, rachetée par Microsoft en 2015.
cf R Project

Régression linéaire
Modèle de régression d’une variable expliquée sur une ou plusieurs variables explicatives dans lequel on fait l’hypothèse que la fonction qui relie les variables explicatives à la variable expliquée est linéaire dans ses paramètres. Le modèle de régression linéaire est souvent estimé par la méthode des moindres carrés.

Régression logistique
Algorithme prédictif utilisé dans le scoring des clients.

Réseaux de neurones
Algorithmes inspirés par le fonctionnement des neurones biologiques. Le fonctionnement d’un réseau de neurones éventuellement disposés en plusieurs couches est simulé. On définit le nombre de neurones, le nombre de couches et l’algorithme fonctionne en boîte noire.

S

Score – Scoring
Note attribuée à un prospect pour évaluer son appétence à une offre, le risque de perte de son client (attrition) ou encore un risque d’impayé. Un scoring peut notamment être calculé selon la méthode RFM (Récence, Fréquence, Montant).

Spark
Modèle de programmation Big Data publié sous licence open source sous l’égide de la fondation Apache. La solution est de type distribuée et « in-memory » et s’avère bien plus rapide qu’Hadoop.

Surapprentissage
Phénomène qui affecte certains algorithmes de Machine Learning, notamment les réseaux de neurones, et qui voit leur efficacité décroître au-delà d’un certain seuil. Engorgé par trop de données, l’algorithme perd peu à peu son pouvoir prédictif.

Système de Fichiers Distribués (SFD) – Distributed File System (DFS)
En français, système de fichiers distribués ou système de fichiers en réseau. C’est un système de fichiers qui permet le partage de fichiers à plusieurs clients au travers du réseau informatique. Contrairement à un système de fichiers local, le client n’a pas accès au système de stockage, et interagit avec le système de fichiers via un protocole adéquat. Ce sont souvent des services basés dans le Cloud.

Système de Gestion de Base de Donnée (SGBD) – Data Base Management System (DBMS)
Il s’agit d’un logiciel système destiné à stocker et à partager des informations dans une base de données, en garantissant la qualité, la pérennité et la confidentialité des informations, tout en cachant la complexité des opérations.
Les principaux types de DBMS:

modèle hiérarchique
modèle multidimensionnel
modèle relationnel

T

Traitement Automatique du Language Naturel (TALN) – Natural Language Processing (NLP)
Ce sont des traitements qui permettent aux machines de mieux comprendre les éléments de languages de l’homme pour mieux interagir avec lui. Les problèmes NLP sont réputés complexes du fait que les machines ne saisissent pas encore le sens des mots qu’elles manipulent.
Faire un résumé d’un texte, définir si la personne qui s’exprime est contente, implémenter un robot de discussion sont des problèmes NLP.

U

V

Variance
La variance est une mesure servant à caractériser la dispersion d’un échantillon ou d’une distribution. Elle indique de quelle manière la série statistique ou la variable aléatoire se disperse autour de sa moyenne ou son espérance. Une variance de zéro signale que toutes les valeurs sont identiques. Une petite variance est signe que les valeurs sont proches les unes des autres alors qu’une variance élevée est signe que celles-ci sont très écartées.
La racine carrée de la variance est l’écart-type. Dans la pratique, on préfère l’écart type (lettre grecque sigma) à la variance, car l’écart type peut être comparé à l’ordre de grandeur des valeurs, ce qui n’est pas le cas de la variance.

W

X

Y

YARN
Outil de gestion des tâches d’un cluster Hadoop.

Z

Sources

La plupart des définitions données ici sont issues de plusieurs sites, que je remercie pour leur travail. Parmi eux, on peut citer :
Le Journal Du Net
Je Veux Etre Data Scientist

Crédit de l’image de couverture : Pxhere – CC0 1.0

Présentation

Tout le lexique du data scientist

0-9

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Y

Z

Sources

ARTICLES CONNEXESPLUS DE L'AUTEUR

L’histoire d’OpenAI et de GPT3

Analyse en composantes principales face à la malédiction de la dimensionnalité

Evaluer la puissance de transfer learning pour la classification d’images médicales

LAISSER UN COMMENTAIRE Annuler la réponse

ARTICLES CONNEXES PLUS DE L'AUTEUR