Big data et machine learning : les concepts et les outils de la data science

Enregistré dans:
Détails bibliographiques
Auteur principal: Lemberger, Pirmin.
Autres auteurs: Batty, Marc., Morel, Médéric., Raffaëlli, Jean-Luc.
Support: Livre
Langue: Français
Publié: Malakoff : Dunod, DL 2019.
Édition: 3e édition.
Collection: InfoPro. Management des systèmes d'information
Sujets:
Autres localisations: Voir dans le Sudoc
Résumé: La 4e de couv. indique : "Cet ouvrage s adresse à tous ceux qui cherchent à tirer parti de l énorme potentiel des technologies Big Data, qu ils soient data scientists, DSI, chefs de projets ou spécialistes métier. Le Big Data s est imposé comme une innovation majeure pour toutes les entreprises qui cherchent à construire un avantage concurrentiel grâce à l exploitation de leurs données clients, fournisseurs, produits, processus, etc. Il a en outre permis l'émergence des techniques d'apprentissage automatique (Machine Learning, Deep Learning) qui ont relancé le domaine de l'intelligence artificielle. Mais quelle solution technique choisir ? Quelles compétences métier développer au sein de la DSI ? Ce livre est un guide pour comprendre les enjeux d un projet Big Data, en appréhender les concepts sous-jacents et acquérir les compétences nécessaires à la mise en place d une architecture d'entreprise adaptée. Il combine la présentation : de notions théoriques (traitement statistique des données, calcul distribué...) ; des outils les plus répandus ; d exemples d applications, notamment en NLP (Natural Language Processing) ; d une organisation typique d un projet de data science."
Table des matières:
  • Avant-propos
  • Première partie - Les fondements du Big Data
  • Chapitre 1 - Les origines du Big Data
  • 1.1 La perception de la donnée dans le grand public
  • 1.2 Des causes économiques et technologiques
  • 1.3 La donnée et l'information
  • 1.4 La valeur
  • 1.5 Les ressources nécessaires
  • 1.6 De grandes opportunités
  • Chapitre 2 - Le Big Data dans les organisations
  • 2.1 La recherche de l'Eldorado
  • 2.2 L'avancée par le cloud
  • 2.3 La création de la valeur
  • 2.4 Les 3V du Big Data
  • 2.5 Un champ immense d'applications
  • 2.6 Exemples de compétences à acquérir
  • 2.7 Des impacts à tous les niveaux
  • 2.8 Une nécessaire vision d'architecture d'entreprise
  • 2.9 B Comme Big Data ou Big Brother ?
  • Chapitre 3 - Le mouvement NoSQL
  • 3.1 Bases relationnelles, les raisons d'une domination
  • 3.2 Le dogme remis en question
  • 3.3 Les différentes catégories de solutions
  • 3.4 Le NoSQL est-il l'avenir des bases de données ?
  • Chapitre 4 - L'algorithme MapReduce et le framework Hadoop
  • 4.1 Automatiser le calcul parallèle
  • 4.2 Le pattern MapReduce
  • 4.3 Des exemples d'usage de MapReduce
  • 4.4 Le framework Hadoop
  • 4.5 Au-delà de MapReduce
  • Deuxième partie - Le métier de data scientist
  • Chapitre 5 - Le quotidien du data scientist
  • 5.1 Data scientist : licorne ou réalité ?
  • 5.2 Le data scientist dans l'organisation
  • 5.3 Le workflow du data scientist
  • Chapitre 6 - Exploitation et préparation de données
  • 6.1 Le déluge des données
  • 6.2 L'exploration de données
  • 6.3 La préparation de données
  • 6.4 Les outils de préparation de données
  • Chapitre 7 - Le Machine Learning
  • 7.1 Qu'est-ce que Le Machine Learning ?
  • 7.2 Les différents types de Machine Learning
  • 7.3 Les principaux algorithmes
  • 7.4 Réseaux de neurones et Deep Learning
  • 7.5 Illustrations numériques
  • 7.6 Systèmes de recommandation
  • Chapitre 8 - La visualisation des données
  • 8.1 Pourquoi visualiser l'information ?
  • 8.2 Quels graphes pour quels usages ?
  • 8.3 Représentation de donnée complexes
  • Troisième partie - Les outils du Big Data
  • Chapitre 9 - L'écosystème Hadoop
  • 9.1 La jungle de l'éléphant
  • 9.2 Les composants d'Apache Hadoop
  • 9.3 Les principales distributions Hadoop
  • 9.4 Spark ou la promesse du traitement Big Data in-memory
  • 9.5 Les briques analytiques à venir
  • 9.6 Les librairies de calcul
  • Chapitre 10 - Analyse de logs avec Pig et Hive
  • 10.1 Pourquoi analyser des logs ?
  • 10.2 Pourquoi choisir Pig ou Hive ?
  • 10.3 La préparation des données
  • 10.4 L'analyse des parcours clients
  • Chapitre 11 - Les architectures Lambda
  • 11.1 Les enjeux du temps réel
  • 11.2 Rappels sur MapReduce et Hadoop
  • 11.3 Les architectures Lambda
  • Chapitre 12 - Apache Storm
  • 12.1 Qu'est-ce que Storm ?
  • 12.2 Positionnement et intérêt dans les architectures Lambda
  • 12.3 Principes de fonctionnement
  • 12.4 Un exemple très simple
  • Conclusion
  • Index