Commit 8f0668ab authored by François Bouchet's avatar François Bouchet
Browse files

Ajout supports cours 09

parent 0c755731
%% Cell type:markdown id: tags:
# Data Mining & Visualisation (DaMiVis)
# Séance 9 - Apprentissage non supervisé
# Exercices
*(NOM Prénom -- A EDITER)*
%% Cell type:code id: tags:
``` python
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
import pylab as pl
import seaborn as sns; sns.set()
import pandas as pd
import numpy as np
import sklearn.cluster
from sklearn.decomposition import PCA
import itertools
from scipy import linalg
```
%% Cell type:markdown id: tags:
## Exercices clustering
%% Cell type:markdown id: tags:
### Retour sur iris
* Charger le jeu de données sur les iris
* Selectionner 2 attributs
* Essayer d'appliquer un modèle de clustering avec 2, 3 et 4 clusters sur ces données
* Vérifier que le modèle avec 3 clusters est le meilleur
%% Cell type:code id: tags:
``` python
```
%% Cell type:markdown id: tags:
### Retour sur drinks by country
On a précédemment travaillé sur de la prédiction en fonction du continent, mais ce n'est peut-être pas le meilleur moyen de regrouper les différents pays... En utilisant la consommation de vin/bière/spiritueux comme attributs, essayer différents modèles de clustering pour repérer les points proches.
%% Cell type:code id: tags:
``` python
```
%% Cell type:markdown id: tags:
## Exercices ACP
%% Cell type:markdown id: tags:
### Retour sur iris
Reprendre le jeu de données iris et déterminer 2 composantes permettant de représenter ce jeu de données normalement en 4 dimensions.
* Quel est la dimension principale associée à la première composante ? Qu'en penser ?
* Quel est le pourcentage total de variance expliqué ? Est-ce satisfaisant ?
%% Cell type:code id: tags:
``` python
```
%% Cell type:markdown id: tags:
### Retour sur les données météo
Rappel : données à télécharger depuis https://www.kaggle.com/budincsevity/szeged-weather ou dans `data/weatherHistory.csv`
* Sélectionner les 7 features numériques dans le jeu de données météorologique (pas l'humidité)
* Appliquer une analyse en composantes principales pour réduire le nombre de composantes : quel semble être un bon nombre ?
* Appliquer à nouveau une régression linéaire pour voir si on améliore la performance du modèle : qu'en conclure ?
%% Cell type:code id: tags:
``` python
# pour la question sur la régression, import des fonctions utiles
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
```
%% Cell type:markdown id: tags:
## Exercice de réduction de dimensions et clustering sur Mushrooms
Nous allons travailler ici sur un nouveau jeu de données représentant les caractéristiques physiques de champignons avec une information relative à son caractère comestible (`class=e`) ou non (`class=p`). On souhaiterait idéalement entraîner un modèle permettant de déterminer si un champignon est comestible. Pour cela, la couleur est un bon indicateur : on souhaite donc constituer des clusters de points en fonction de la couleur des différentes parties du champignon, ce qui donnera une nouvelle feature pour un modèle de prédiction.
**Description du jeu de données :**
*This dataset includes descriptions of hypothetical samples corresponding to 23 species of gilled mushrooms in the Agaricus and Lepiota Family Mushroom drawn from The Audubon Society Field Guide to North American Mushrooms (1981). Each species is identified as definitely edible, definitely poisonous, or of unknown edibility and not recommended. This latter class was combined with the poisonous one. The Guide clearly states that there is no simple rule for determining the edibility of a mushroom; no rule like "leaflets three, let it be'' for Poisonous Oak and Ivy.*
%% Cell type:markdown id: tags:
* Charger le jeu de données `data/mushrooms.csv`
* Extraire les features correspondant aux couleurs
* Repérer d'éventuelles corrélations entre chaque paire de features
* En déduire un bon nombre de composantes pour une ACP
* Effectuer l'ACP pour réduire les dimensions
* Effectuer un clustering sur les données dans l'espace réduit
* Entraîner un modèle de classification supervisée pour prédire si un champignon est comestible ou non
%% Cell type:code id: tags:
``` python
```
This diff is collapsed.
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment