Data science : fondamentaux et études de cas : machine learning avec Python et R

Enregistré dans:
Détails bibliographiques
Auteur principal: Biernat, Éric.
Autres auteurs: Lutz, Michel, 1981-, Le Cun, Yann, 1960-
Support: Livre
Langue: Français
Publié: Paris : Eyrolles, DL 2015.
Sujets:
Autres localisations: Voir dans le Sudoc
Résumé: Conçu pour aider le data scientist à comprendre son terrain d'action et à opérer des choix, cet ouvrage se compose d'une partie théorique posant les bases du métier autour de la modélisation quantitative et la création d'algorithmes de traitement de données, et d'une partie pratique donnant des indications de raisonnement et de méthodes mathématiques pour résoudre une problématique donnée. ↑Electre 2019
Table des matières:
  • P. 9
  • Chapitre 1 Savoir poser un problème de data science
  • P. 9
  • Introduction
  • P. 10
  • Préliminaire : qu'est-ce que le machine learning ?
  • P. 11
  • Au commencement était la donnée
  • P. 11
  • Un prérequis indispensable
  • P. 11
  • Que sont les données ?
  • P. 12
  • Les principaux types de données
  • P. 13
  • D'où viennent les données ?
  • P. 14
  • Les algorithmes : pour faire quoi ?
  • P. 14
  • Sous les données, des liens... plus ou moins certains !
  • P. 15
  • Une taxinomie des algorithmes
  • P. 16
  • Algorithmes supervisés et non supervisés
  • P. 18
  • Algorithmes de régression et de classification
  • P. 20
  • Pour les plus curieux
  • P. 21
  • Algorithmes et structures de données
  • P. 21
  • Représentation matricielle des données
  • P. 22
  • Que font les algorithmes ?
  • P. 23
  • Références
  • P. 25
  • Chapitre 2 Les outils informatiques
  • P. 25
  • Quels logiciels ?
  • P. 27
  • Quel environnement de travail ?
  • P. 29
  • Références
  • P. 31
  • Deuxième partie Les algorithmes et leurs usages : visite guidée
  • P. 33
  • Sous-partie 1 Les basiques du data scientist
  • P. 35
  • Chapitre 3 La régression linéaire univariée
  • P. 35
  • Introduction
  • P. 36
  • Définition de la fonction hypothèse
  • P. 36
  • Qui dit approximation dit erreur
  • P. 38
  • Minimiser la fonction de coût
  • P. 40
  • Références
  • P. 41
  • Chapitre 4 La régression linéaire multivariée
  • P. 41
  • Introduction
  • P. 41
  • Le modèle en détail
  • P. 42
  • Normalisation
  • P. 46
  • Résolution analytique
  • P. 50
  • Références
  • P. 51
  • Chapitre 5 La régression polynomiale
  • P. 51
  • Introduction
  • P. 51
  • Principes généraux de la régression polynomiale
  • P. 55
  • La notion de sur-apprentissage
  • P. 58
  • Le compromis biais-variance
  • P. 59
  • Référence
  • P. 61
  • Chapitre 6 La régression régularisée
  • P. 61
  • Introduction
  • P. 62
  • La régression ridge
  • P. 64
  • Le LASSO
  • P. 65
  • Ridge + LASSO = ElasticNet
  • P. 66
  • Références
  • P. 67
  • Chapitre 7 Naive Bayes
  • P. 67
  • Introduction
  • P. 67
  • Le théorème de Bayes et la notion d'indépendance
  • P. 67
  • Le théorème de Bayes
  • P. 68
  • La notion d'indépendance
  • P. 68
  • Le modèle Naive Bayes par l'exemple
  • P. 71
  • Le cadre général
  • P. 71
  • Références
  • P. 73
  • Chapitre 8 La régression logistique
  • P. 73
  • Introduction
  • P. 73
  • Le modèle en détail
  • P. 73
  • La fonction hypothèse
  • P. 74
  • Les fonctions sigmoïdes
  • P. 78
  • La fonction de coût
  • P. 79
  • Minimisation de la fonction de coût
  • P. 80
  • Derrière la linéarité
  • P. 82
  • Classification multiclasses
  • P. 84
  • Régularisation
  • P. 84
  • Références
  • P. 85
  • Chapitre 9 Le clustering
  • P. 85
  • Introduction
  • P. 86
  • Le clustering hiérarchique
  • P. 86
  • Principe
  • P. 88
  • Les distances
  • P. 89
  • Le critère d'agrégation
  • P. 91
  • La notion de troncature
  • P. 91
  • Le clustering non hiérarchique
  • P. 91
  • Principe
  • P. 92
  • Les centres mobiles
  • P. 92
  • Quelques variantes
  • P. 93
  • Les approches mixtes
  • P. 94
  • Références
  • P. 95
  • Chapitre 10 Introduction aux arbres de décision
  • P. 95
  • Introduction
  • P. 95
  • Principe
  • P. 96
  • Construction d'un arbre de décision
  • P. 98
  • Références
  • P. 99
  • Sous-partie 2 L'artillerie lourde
  • P. 101
  • Chapitre 11 Random forest
  • P. 101
  • Introduction
  • P. 101
  • Principes
  • P. 101
  • L'idée de base
  • P. 102
  • Le défaut des arbres de décisions
  • P. 103
  • Le modèle en détail
  • P. 103
  • Tree bagging
  • P. 104
  • Feature sampling
  • P. 105
  • Le critère de split
  • P. 109
  • Conseils pratiques
  • P. 109
  • Les paramètres de random forest
  • P. 110
  • Interprétation de random forest
  • P. 111
  • Quelques variantes de random forest
  • P. 113
  • Références
  • P. 115
  • Chapitre 12 Gradient boosting
  • P. 115
  • Introduction
  • P. 115
  • Le modèle en détail
  • P. 115
  • Adaboost, le prestigieux ancêtre
  • P. 121
  • Le gradient boosting
  • P. 125
  • Le gradient boosting dans la pratique
  • P. 125
  • Mise en oeuvre dans scikit-learn
  • P. 128
  • Un exemple en classification
  • P. 131
  • Une variante : xgboost
  • P. 132
  • Références
  • P. 133
  • Chapitre 13 Support Vector Machine
  • P. 133
  • Introduction
  • P. 133
  • La dimension VC
  • P. 133
  • La théorie de Vapnik-Chervonenkis
  • P. 134
  • La dimension de Vapnik-Chervonenkis
  • P. 139
  • Interprétation de la dimension VC
  • P. 140
  • Le SVM en détail
  • P. 140
  • La notion de marge
  • P. 146
  • Cas non linéairement séparable
  • P. 152
  • Références
  • P. 153
  • Troisième partie La data science en pratique : au-delà des algorithmes
  • P. 155
  • Sous-partie 1 Quelques concepts généraux
  • P. 157
  • Chapitre 14 Évaluer une modèle
  • P. 157
  • Introduction
  • P. 158
  • La validation croisée
  • P. 158
  • De la nécessité de diviser vos données
  • P. 159
  • La validation croisée
  • P. 160
  • Choix de la métrique de performance (P)
  • P. 160
  • Pour les problèmes de régression
  • P. 162
  • Pour les problèmes de classification
  • P. 168
  • Références
  • P. 171
  • Chapitre 15 Les espaces de grande dimension
  • P. 171
  • Introduction
  • P. 172
  • Les problèmes liés à la grande dimension
  • P. 172
  • La malédiction de la dimension
  • P. 174
  • La multicolinéarité
  • P. 174
  • Autres problèmes liées aux grandes dimensions
  • P. 175
  • La sélection de variables
  • P. 175
  • Régression pas à pas
  • P. 176
  • Approches machine learning
  • P. 179
  • Réduction de dimensions : l'analyse en composantes principales
  • P. 179
  • Objectif
  • P. 180
  • Les grandes étapes de l'ACP
  • P. 184
  • Exemple d'application
  • P. 186
  • Digression : positionnement de l'ACP dans les statistiques classiques et complémentarité avec la classification
  • P. 188
  • Références
  • P. 189
  • Chapitre 16 Valeurs manquantes et valeurs aberrantes : généralités
  • P. 189
  • Introduction
  • P. 189
  • Qu'est-ce que les valeurs manquantes ?
  • P. 191
  • Comment traiter les valeurs manquantes ?
  • P. 194
  • Quid des valeurs aberrantes ?
  • P. 196
  • Références
  • P. 197
  • Sous-partie 2 À vos claviers !
  • P. 199
  • Chapitre 17 Prédire les survivants du Titanic
  • P. 199
  • Introduction
  • P. 199
  • Les données et le problème
  • P. 202
  • La modélisation
  • P. 202
  • Un premier modèle quick and dirty
  • P. 204
  • Étude des variables
  • P. 210
  • Random forest au secours du Titanic
  • P. 212
  • Utilisation des autres variables
  • P. 215
  • Chapitre 18 Classification automatique de zones de texte
  • P. 215
  • Introduction
  • P. 215
  • Les données et le problème
  • P. 219
  • Les modélisations
  • P. 219
  • Online learning
  • P. 227
  • Stacking
  • P. 234
  • Blend final
  • P. 237
  • Références
  • P. 239
  • Sous-partie 3 La temporalité dans les modèles, un cas particulier d'application
  • P. 241
  • Chapitre 19 Qu'est-ce qu'une série temporelle ? L'approche classique
  • P. 241
  • Pourquoi un focus sur les séries temporelles ?
  • P. 243
  • Les méthodes exponentielles
  • P. 245
  • Les méthodes probabilistes
  • P. 248
  • Références
  • P. 249
  • Chapitre 20 Machine learning et modélisation des séries temporelles
  • P. 249
  • Principes
  • P. 250
  • Création de variables propres aux données ordonnées
  • P. 250
  • Séries temporelles classiques
  • P. 258
  • Données comportementales : création de features par extraction de motifs séquentiels
  • P. 265
  • Traitement des valeurs manquantes
  • P. 265
  • Validation croisée pour les séries temporelles
  • P. 266
  • Références
  • P. 269
  • Chapitre 21 Un cas pratique de modélisation : rendement d'une colonne de distillation
  • P. 269
  • Présentation du cas
  • P. 270
  • Définition du modèle
  • P. 271
  • Validation croisée et instabilité structurelle
  • P. 275
  • Modélisation dynamique
  • P. 278
  • Interprétation du modèle
  • P. 279
  • Références
  • P. 281
  • Chapitre 22 Clustering de séries temporelles
  • P. 281
  • Principes
  • P. 283
  • Un exemple d'application
  • P. 283
  • Classification à partir de séries brutes
  • P. 286
  • Classification à partir de métriques d'évaluation des séries