# TP 1 – Pour aller plus loin

### 1 : Régression linéaire univariée sans scikit-learn

Notre but ici va être d'inférer le poids d'un manchot à partir de la longueur de sa palette natatoire. Nous sommes donc dans le cas particulier où $p=1$.

In [None]:
(X_train, X_test, y_train, y_test) = model_selection.train_test_split(X, y_regress, 
 test_size=0.3, random_state=25)

In [None]:
x_3 = X_train[:, -1] # on ne garde que la dernière colonne/variable de X

In [None]:
plt.scatter(x_3, y_train)
plt.xlabel("Longueur de la palette natatoire (mm)")
plt.ylabel("Poids (g)")

Il s'agit donc d'apprendre une fonction $f: x \mapsto a x + b$ telle que $y \approx f(x_3)$.

Ce problème se résout grâce à la méthode des moindres carrés : il s'agit de trouver $a, b$ qui minimisent $J(a, b) = \frac{1}{n} \sum_{i=1}^n ((a x_i + b) - y_i)^2$. 

Il s'agit d'une forme quadratique, convexe, dont on trouve le minimum en annulant sa dérivée en $a$ et en $b$.

$\frac{\partial J}{\partial a} (a, b)= \frac2n \sum_{i=1}^n x_i^2 a + \frac2n \sum_{i=1}^n x_i b - \frac2n \sum_{i=1}^n x_i y_i$

et

$\frac{\partial J}{\partial b} (a, b)= b + \frac2n \sum_{i=1}^n x_i a - \frac2n \sum_{i=1}^n y_i$

Ce dont on déduit, à condition que $\frac1n \sum_{i=1}^n x_i^2 \neq \left(\frac1n \sum_{i=1}^n x_i\right)^2$,

$a = \frac{\frac1n \sum_{i=1}^n x_i y_i - \frac1n \sum_{i=1}^n x_i \frac1n \sum_{i=1}^n y_i}{\frac1n \sum_{i=1}^n x_i^2 - \left(\frac1n \sum_{i=1}^n x_i\right)^2}$ 

et

$b = \frac1n \sum_{i=1}^n y_i - \frac1n \sum_{i=1}^n x_i a$.



Calculons les termes $\frac1n \sum_{i=1}^n x_i$, $\frac1n \sum_{i=1}^n x_i^2$, $\frac1n \sum_{i=1}^n y_i$, $\frac1n \sum_{i=1}^n x_i y_i$ :

In [None]:
x_mean = np.mean(x_3)
x2_mean = np.mean(x_3**2)
y_mean = np.mean(y_train)
xy_mean = np.mean(x_3 * y_train)

Vérifions l'unicité de la solution : 

In [None]:
x2_mean - x_mean**2

Calculons les coefficients de notre droite : 

In [None]:
a = (xy_mean - x_mean * y_mean) / (x2_mean - x_mean**2)

In [None]:
b = y_mean - a * x_mean

Nous pouvons maintenant ajouter notre droite de régression au graphique précédent :

In [None]:
plt.scatter(x_3, y_train, label="Données")

x_3_min = np.min(x_3) - 5
x_3_max = np.max(x_3) + 5
plt.plot([x_3_min, x_3_max], [(a * x_3_min + b), (a * x_3_max + b)], lw=2, c='orange', label="Modèle")

plt.xlabel("Longueur de la palette natatoire (mm)")
plt.ylabel("Poids (g)")
plt.legend()

### 2 : Régression linéaire multivariée sans scikit-learn (forme close)

Nous allons maintenant utiliser nos trois variables.

Pour simplifier les notations, nous allons ajouter une colonnes de 1 à notre matrice $X$ :

$$
\underbrace{
\begin{bmatrix}
 x_{11} & x_{12} & \dots & x_{1p} \\
 x_{21} & x_{22} & \dots & x_{2p} \\
 \vdots & \vdots & \ddots & \vdots \\
 x_{n1} & x_{n2} & \dots & x_{np}
\end{bmatrix}}_{X} \to
\underbrace{
\begin{bmatrix}
 1 & x_{11} & x_{12} & \dots & x_{1p} \\
 1 & x_{21} & x_{22} & \dots & x_{2p} \\
 \vdots & \vdots & \vdots & \ddots & \vdots \\
 1 & x_{n1} & x_{n2} & \dots & x_{np}
\end{bmatrix}}_{\text{$X$ with bias variable}}
$$

Ce qui nous permet de noter le modèle de la façon suivante :
$f: \boldsymbol{x} \in \mathbb{R}^{p+1} \mapsto \boldsymbol{\beta}^\top \boldsymbol{x}$ with $\boldsymbol{\beta} \in \mathbb{R}^{p+1}$.

In [None]:
X_ones = np.hstack((np.ones((X_train.shape[0], 1)), X_train))

La minimisation du risque empirique s'écrit alors
$$\boldsymbol{\beta}^* \in \arg\min \frac{1}{n}\sum_{i=1}^n \left(y_i - \boldsymbol{\beta}^\top \boldsymbol{x}_i \right)^2 = \frac{1}{n}\left(\boldsymbol{y} - X \boldsymbol\beta\right)^\top(\boldsymbol{y} - X\boldsymbol\beta)$$

C'est un problème d'optimisation convexe, que l'on résout en annulant le gradient de la fonction à minimiser.

On obtient alors que la solution $\boldsymbol\beta^*$ vérifie
$(X^\top X) \boldsymbol\beta^* = X^\top \boldsymbol{y}.$

__Si $X^\top X$ est inversible__, on obtient une unique solution
$\boldsymbol\beta^* = (X^\top X)^{-1} X^\top \boldsymbol{y}.$

In [None]:
beta_star = np.dot(np.linalg.inv(np.dot(X_ones.T, X_ones)), np.dot(X_ones.T, y_train))

In [None]:
print("Le poids (g) d'un manchot est prédit par %.2f + %.2f x bill_length_mm + %.2f x bill_depth_mm + %.2f x flipper_length_mm" % (tuple(beta_star)))

### 3 : Régression logistique sans scikit-learn

Dans le cas de la régression logistique, la minimisation du risque empirique revient à minimiser

$$J(\boldsymbol\beta) = \frac1n \sum_{i=1}^n - y_i \log(\sigma(\boldsymbol\beta^\top \boldsymbol{x}_i))- (1-y_i) \log(1-\sigma(\boldsymbol\beta^\top \boldsymbol{x}_i)) $$

Comme $\sigma^\prime(u) = \sigma(u) (1-\sigma(u))$, on obtient comme gradient pour $J$ :
$$\nabla J(\boldsymbol\beta) = - \frac1n \sum_{i=1}^n \left(y_i - \sigma(\boldsymbol\beta^\top \boldsymbol{x}_i) \right) \boldsymbol{x}_i$$

Cependant, il n'existe pas de solution explcite à 
$$\frac1n \sum_{i=1}^n \left(y_i - \sigma(\boldsymbol\beta^\top \boldsymbol{x}_i) \right) \boldsymbol{x}_i = 0,$$
we do not have a closed-form solution.

Nous avons donc recours à la méthode du gradient.

La __méthode du gradient__ permet d'obtenir une solution en progressant itérativement dans la direction opposée au gradient de la fonction à minimiser. Plus précisément, à chaque itération $t$, le vecteur $\boldsymbol\beta$ est mis à jour par :
$$\boldsymbol\beta^{(t+1)} = \boldsymbol\beta^{(t)} - \alpha \nabla_{\boldsymbol\beta} J(\boldsymbol\beta^{(t)}).$$
où $J: \mathbb{R}^d \rightarrow \mathbb{R} $ est la fonction à minimiser.

Dans le cas de la régression linéaire, $d=p+1$ et $J(\boldsymbol\beta) = \frac{1}{n}\left(\boldsymbol{y} - X \boldsymbol\beta\right)^\top(\boldsymbol{y} - X\boldsymbol\beta).$

$\alpha$ est le __pas__ de la descente de gradient ; en apprentissage, on parle de __vitesse d'apprentissage__ (_learning rate_ en anglais).

On arrête d'itérer :
* soit quand un nombre prescrit d'itérations est atteint ;
* soit quand la norme du gradient est moins qu'un seuil prescrit, appelé __tolérance__.

C'est la méthode que nous allons mettre en œuvre.

#### Calcul du gradient

In [None]:
def sigmoid(u):
 """
 Fonction sigmoide.
 
 Paramètres :
 ------------
 u: float
 Nombre réel.
 """
 return (1./(1+np.exp(-u)))

In [None]:
def logistic_loss(X, y, b_vector):
 """
 Risque empirique pour une régression logistique.
 
 Paramètres
 ---------- 
 X: (n_samples, n_features+1) numpy array
 La matrice de données.
 
 y: (n_samples, ) numpy array 
 Le vecteur d'étiquettes
 
 b_vector: (n_features+1, ) numpy array
 Le vecteurs de coefficients de la régression logistique
 """
 # Partie du risque correspondant aux étiquettes positives
 where_y_pos = np.where(y==1)[0]
 loss_pos = - np.sum(np.log(sigmoid(X[where_y_pos, :].dot(b_vector))))

 # Partie du risque correspondant aux étiquettes négatives 
 where_y_neg = np.where(y==0)[0]
 loss_neg = - np.sum(np.log(1 - sigmoid(X[where_y_neg, :].dot(b_vector))))
 
 return (loss_pos + loss_neg)/np.size(y)

In [None]:
def evaluate_gradient_logistic(X, y, b_vector):
 """ 
 Gradient du risque empirique de la régression logistique
 
 Paramètres
 ---------- 
 X: (n_samples, n_features+1) numpy array
 La matrice de données.
 
 y: (n_samples, ) numpy array 
 Le vecteur d'étiquettes
 
 b_vector: (n_features+1, ) numpy array
 Le vecteurs de coefficients de la régression logistique
 """
 num_samples = X.shape[0]
 diff = sigmoid(X.dot(b_vector)) - y 
 return np.sum(np.multiply(diff, X.T), axis=1)/num_samples

#### Méthode du gradient

In [None]:
def gradient_descent_logistic(X, y, learning_rate=1e-1, max_iters=30, tol=1e-2):
 """
 Méthode du gradient pour la régression logistique. 
 
 Paramètres
 ---------- 
 X: (n_samples, n_features+1) numpy array
 La matrice de données.
 
 y: (n_samples, ) numpy array 
 Le vecteur d'étiquettes
 
 learning_rate: float
 La vitesse d'apprentissage
 
 max_iters: int
 Le nombre maximal d'itérations
 
 tol: float
 La tolérance
 """
 # Initialisation aléatoire des coefficients de régression
 beta_current = np.random.rand(X.shape[1])
 #beta_current = np.hstack((10*np.random.rand(1), np.random.rand(X.shape[1]-1)))
 
 # Liste pour stocker les valeurs de la fonction de perte
 # à chaque itération
 losses = [logistic_loss(X, y, beta_current)] 
 # Liste pour stocker les valeurs des coefficients de régression
 # à chaque itération
 betas = [beta_current.copy()]

 for i in range(max_iters): 
 # Mise à jour de beta_current
 gradient = evaluate_gradient_logistic(X, y, beta_current) 
 beta_current = beta_current - learning_rate * gradient
 
 # Ajouter la fonction de perte à la liste losses
 losses.append(logistic_loss(X, y, beta_current))
 
 # Ajouter la valeur des coefficients de régression à la liste betas
 betas.append(beta_current.copy())

 # Vérifier si la tolérance est atteinte
 if np.linalg.norm(gradient) < tol: 
 break

 return(np.array(losses), betas)

#### Application aux données

In [None]:
(X_train, X_test, y_train, y_test) = model_selection.train_test_split(X, y_classif, test_size=0.3, random_state=25, 
 stratify=y_classif)

In [None]:
X_ones = np.hstack((np.ones((X_train.shape[0], 1)), X_train))

In [None]:
tolerance = 1e-4
iterations = 35
lr = 2e-4
losses, betas = gradient_descent_logistic(X_ones, y_train, learning_rate=lr, max_iters=iterations, tol=tolerance)

In [None]:
plt.plot(np.arange(len(losses)), losses, 'o-')

plt.xlabel("number of iterations")
plt.ylabel("value of the loss")
plt.title("Batch gradient descent")

In [None]:
print("La probabilité qu'un manchot soit mâle est prédite par sigma(", end='')
print("%.2f + %.2f x bill_length_mm + %.2f x bill_depth_mm + %.2f x flipper_length_mm)" % (tuple(betas[-1])))

__Remarque :__ Le risque empirique est infini à l'initialisation, d'où un `RuntimeWarning: divide by zero encountered in log`. En pratique, cette approche pourrait être améliorée par :
* un pré-traitement des données consistant à centrer-réduire chaque variable ;
* l'utilisation d'un taux d'apprentissage variable (élevé au début, plus faible à la fin).

#### Performance

In [None]:
X_test_ones = np.hstack((np.ones((X_test.shape[0], 1)), X_test))

In [None]:
y_test_pred = np.where(sigmoid(X_test_ones.dot(betas[-1])) > 0.5, 1, 0)

In [None]:
confusion_matrix_display = metrics.ConfusionMatrixDisplay(metrics.confusion_matrix(y_test, y_test_pred))
confusion_matrix_display.plot()

In [None]:
print("%d manchots mâles ont été incorrectement prédits femelle." % metrics.confusion_matrix(y_test, y_test_pred)[1, 0])
print("%d manchots femelles ont été incorrectement prédits mâles." % metrics.confusion_matrix(y_test, y_test_pred)[0, 1])

In [None]:
print("%.f%% des prédictions du modèle sur le jeu de test sont correctes." % (100*metrics.accuracy_score(y_test, y_test_pred)))

__Remarque :__ On confirme ici que la procédure de descente de gradient que nous avons implémentée n'est pas optimale.

#### Méthode du gradient avec données centrées et réduites

Nous allons prétraiter les données de manière à ce que chaque variable de notre matrice $\boldsymbol X$ soit centrée et réduite, c'est à dire que chaque colonne de $\boldsymbol X$ (à part la première, qui sert de constante) a une moyenne de 0 et un écart-type de 1.

Ainsi, l'initialisation de la méthode de gradient fournit des estimées qui sont autour de $0$, c'est-à-dire dans la région où la fonction $\sigma$ ne sature pas (i.e., son gradient n'est proche de zéro).

In [None]:
from sklearn import preprocessing

In [None]:
scaler = preprocessing.StandardScaler().fit(X_train)
X_scaled = scaler.transform(X_train)

In [None]:
print('means: [%.3f, %.3f, %.3f]' % (tuple(X_scaled.mean(axis = 0))))
print('standard deviations: [%.3f, %.3f, %.3f]' % tuple(X_scaled.std(axis = 0)))

In [None]:
X_ones = np.hstack((np.ones((X_scaled.shape[0], 1)), X_scaled))

In [None]:
tolerance = 1e-4
iterations = 35
lr = 2
losses, betas = gradient_descent_logistic(X_ones, y_train, learning_rate=lr, max_iters=iterations, tol=tolerance)

In [None]:
plt.plot(np.arange(len(losses)), losses, 'o-')

plt.xlabel("number of iterations")
plt.ylabel("value of the loss")
plt.title("Batch gradient descent")

On veut estimer le modèle suivant : $y \sim \sigma(\beta_0 + x_1 \beta_1 + x_2 \beta_2 + x_3 \beta_3)$. Or, puisque nous avons effecuté un changement de variable, nous avons à la place estimé le modèle suivant : $$y \sim \sigma(\tilde{\beta_0} + u_1 \tilde{\beta_1} + u_2 \tilde{\beta_2} + u_3 \tilde{\beta_3}),$$ où $u_i = \frac{x_i - \mu_i}{\sigma_i}$ sont les nouvelles variables, et $\mu_i$ et $\sigma_i$ sont les moyennes et écart-types respectifs de $x_i$.

Par conséquent, il faut effectuer le changement de variable suivant sur les coefficients obtenus :
$$\beta_0 = \tilde{\beta_0} - \tilde{\beta_1}\frac{\mu_1}{\sigma_1} - \tilde{\beta_2}\frac{\mu_2}{\sigma_2} - \tilde{\beta_3}\frac{\mu_3}{\sigma_3},$$
$$\beta_i = \tilde{\beta_i} / \sigma_i, 1\leq i \leq 3$$

In [None]:
beta_scaled = betas[-1]

In [None]:
beta0 = beta_scaled[0] - np.sum(beta_scaled[1:4] * scaler.mean_ / scaler.scale_)

In [None]:
beta_original = np.insert(beta_scaled[1:4] / scaler.scale_, 0, beta0)

In [None]:
print("La probabilité qu'un manchot soit mâle est prédite par sigma(", end='')
print("%.2f + %.2f x bill_length_mm + %.2f x bill_depth_mm + %.2f x flipper_length_mm)" % (tuple(beta_original)))

__Remarque__: Les coefficients sont très éloignés de ceux qu'on avait obtenus sans prétraitement des données.

#### Performance après avoir centré-réduit les données

In [None]:
X_test_scaled = np.hstack((np.ones((X_test.shape[0], 1)), X_test))

In [None]:
y_test_pred = np.where(sigmoid(X_test_scaled.dot(beta_original)) > 0.5, 1, 0)

In [None]:
confusion_matrix_display = metrics.ConfusionMatrixDisplay(metrics.confusion_matrix(y_test, y_test_pred))
confusion_matrix_display.plot()

In [None]:
print("%d manchots mâles ont été incorrectement prédits femelle." % metrics.confusion_matrix(y_test, y_test_pred)[1, 0])
print("%d manchots femelles ont été incorrectement prédits mâles." % metrics.confusion_matrix(y_test, y_test_pred)[0, 1])

In [None]:
print("%.f%% des prédictions du modèle sur le jeu de test sont correctes." % (100*metrics.accuracy_score(y_test, y_test_pred)))

Nous obtenons un bien meilleur modèle avec un preprocessing des données, qui permet, comme nous l'avons vu, d'éviter les problèmes de convergences que peut rencontrer la méthode de descente de gradient.

### KNN 1 : Sélection du nombre de plus proches voisins par validation croisée

Dans ce notebook, nous avons fixé le nombre de plus proches voisins $k$ (`n_neighbors` dans les paramètres de `KNeighborsClassifier` ou `KNeighborsRegressor`) à $k=7$. 

Nous allons maintenant voir comment __sélectionner__ la meilleure valeur de $k$ dans une liste. On parle ici de __sélection de modèle__.

$k$ est un __hyperparamètre__ du modèle ; l'algorithme des k plus proches voisins nous dit comment procéder à $k$ fixé et le choix de $k$ ne fait pas partie de la procédure. De la même façon, le nombre de couches intermédiaires dans un réseau de neurones est un hyperparamètre. À l'inverse, les coefficients d'une régression linéaire sont des __paramètres__ du modèle, car c'est eux que la procédure d'apprentissage/entraînement/_fit_ cherche à déterminer.

On peut imaginer approcher cette question en évaluant, sur le jeu de test, la performance de plusieurs $k$NNs, utilisant différentes valeurs de $k$. Il s'agirait alors de choisir la valeur de $k$ donnant la meilleure performance. Cependant, la performance sur le jeu de test du $k$NN sélectionné ne reflète pas bien la performance en généralisation modèle : les données que nous utilisons pour l'évaluation ne sont plus utilisées qu'à ce seul but, puisqu'elles ont aussi été utilisées pour la sélection du modèle.

Il faut donc utiliser uniquement le jeu d'entraînement pour la sélection de modèle.

On peut de nouveau séparer ce jeu de données en deux jeux, un jeu d'entraînement et un jeu de validation. On évaluera alors les performances de $k$NNs entraînés sur ce nouveau jeu d'entraînement en comparant leurs performances sur le jeu de validation.

Cependant, si nous utilisons de nouveau les proportions 70/30 pour créer ce nouveau jeu d'entraînement, on utilise alors 49% des données seulement pour l'entraînement ! C'est peu, surtout si le jeu de données est assez petit ; en effet, plus on a de données, mieux on apprend. On préfère ainsi en pratique utiliser une __validation croisée__ sur le jeu d'entraînement. Il s'agit de découper le jeu d'entraînement en C blocs (appelés _folds_ en anglais ; typiquement C=5 ou C=10), et de faire une série de C expériences dans lesquelles un des blocs est utilisé comme jeu de validation et les (C-1) autres blocs forment le jeu d'entraînement. Ainsi, chaque bloc de données est utilisé une fois pour la validation et (C-1) fois pour l'entraînement. On obtient ainsi C mesures de performance (pour chaque valeur de $k$), que l'on moyenne, et on choisit la valeur de $k$ donnant la meilleure performance moyenne.

#### GridSearchCV

Cette procédure est automatisée dans [la classe `GridSearchCV`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) du module `model_selection` de `scikit-learn`

On procède alors de la façon suivante :

1. Fixons une liste de valeurs à évaluer pour l'hyperparamètre $k$

Nous choisissons ici uniquement des valeurs impaires, pour faciliter la détermination de la classe majoritaire dans le cas d'une classification binaire (avec un nombre pair de voisin, on peut ne pas avoir de classe majoritaire).

In [None]:
n_neighbors_values = [5, 7, 9, 13, 15, 17, 19, 21]

2. Initialisons un objet de la classe `GridSearchCV`, auquel nous passons comme paramètres :
* la classe de modèle qui nous intéresse, ici `KNeighborsClassifier` pour le problème de classification ;
* un dictionnaire indiquant, pour chacun des paramètres de ce modèle à évaluer (ici nous en avons un seul, `n_neighbors`), la liste de valeurs à tester (`n_neighbors_values`) ;
* le nombre de _folds_ (ici 5) ;
* la fonction de score à utiliser pour déterminer la performance d'un modèle ; ici nous allons utiliser l'_accuracy_. Pour plus de possibilités, voir [la documentation](https://scikit-learn.org/stable/modules/model_evaluation.html#the-scoring-parameter-defining-model-evaluation-rules).

In [None]:
knnclass_cv = model_selection.GridSearchCV(neighbors.KNeighborsClassifier(),
 {'n_neighbors': n_neighbors_values}, cv=5, scoring='accuracy')

3. Faisons tourner la validation croisée sur le jeu d'entraînement

In [None]:
knnclass_cv.fit(X_train, y_train)

#### Nombre optimal de voisins 

Nous avons maintenant accès au nombre optimal de voisins ainsi qu'à l'_accuracy_ correspondante, qui sont des attributs de `knnclass_cv` : 

In [None]:
print("La valeur optimale de k est %d, pour une accuracy cross-validée de %.f%%." % (knnclass_cv.best_params_['n_neighbors'], (100*knnclass_cv.best_score_)))

#### Performance du modèle optimal

Nous avons aussi accès au modèle optimal, c'est-à-dire le modèle entraîné sur l'intégralité du jeu d'entraînement, avec la valeur optimale de $k$, dans `knnclass_cv.best_estimator_`. Nous pouvons donc évaluer sa performance sur le jeu de test.

In [None]:
y_test_pred = knnclass_cv.best_estimator_.predict(X_test)

In [None]:
metrics.plot_confusion_matrix(knnclass_cv.best_estimator_, X_test, y_test)

In [None]:
print("%d manchots mâles ont été incorrectement prédits femelle." % metrics.confusion_matrix(y_test, y_test_pred)[1, 0])
print("%d manchots femelles ont été incorrectement prédits mâles." % metrics.confusion_matrix(y_test, y_test_pred)[0, 1])

In [None]:
print("%.f%% des prédictions du modèle sur le jeu de test sont correctes." % (100*metrics.accuracy_score(y_test, y_test_pred)))

### KNN 2 : Plus proche voisin (au singulier) sans scikit-learn

Nous allons maintenant voir comment implémenter l'algorithme du plus proche voisin ($k$=1) sans utiliser `scikit-learn`.

In [None]:
def my_nearest_neighbor(x, Xtr, ytr):
 """
 Retourne l'étiquette du plus proche voisin dans Xtr de x.
 
 Parameters
 ----------
 x: np.array of shape (p, )
 L'observation à étiquetter
 
 Xtr: np.array of shape (n, p)
 La matrice de données d'entrainement
 
 ytr: np.array of shape (n, )
 Les étiquettes des données d'entrainement. 
 """
 
 # Calculer les carrés distances euclidiennes entre x et chaque ligne de Xtr
 squared_distances = [np.sum((x - Xtr[idx, :])**2) for idx in range(Xtr.shape[0])]
 
 # Trouver l'indice de la plus petite de ces valeurs 
 nn_idx = np.argmin(squared_distances)
 
 # Retourner l'étiquette correspondante
 return ytr[nn_idx]

Nous pouvons maintenant utiliser cette fonction sur toutes les observations de `X_test` pour obtenir les prédictions :

In [None]:
my_y_test_pred = [my_nearest_neighbor(X_test[idx, :], X_train, y_train) for idx in range(X_test.shape[0])]

Nous pouvons comparer ces prédictions à celles de `scikit-learn` :

In [None]:
onnclass = neighbors.KNeighborsClassifier(n_neighbors=1)
onnclass.fit(X_train, y_train)
y_test_pred = onnclass.predict(X_test)

In [None]:
my_y_test_pred - y_test_pred

### KNN 3 : Plus proches voisins (au pluriel) sans scikit-learn

#### Pour la classification

In [None]:
(X_train, X_test, y_train, y_test) = model_selection.train_test_split(X, y_classif, test_size=0.3, random_state=25)

In [None]:
def my_k_nearest_neighbors_classif(x, Xtr, ytr, k):
 """
 Retourne l'étiquette de la plus fréquente parmi les k plus proches voisins dans Xtr de x.
 
 Parameters
 ----------
 x: np.array of shape (p, )
 L'observation à étiquetter
 
 Xtr: np.array of shape (n, p)
 La matrice de données d'entrainement
 
 ytr: np.array of shape (n, )
 Les étiquettes des données d'entrainement. 
 
 k: int
 Nombre de plus proches voisins
 """
 
 # Calculer les carrés distances euclidiennes entre x et chaque ligne de Xtr
 squared_distances = [np.sum((x - Xtr[idx, :])**2) for idx in range(Xtr.shape[0])]
 
 # Trouver les indices des k plus petites valeurs dans cette liste,
 # en récupérant les k premiers indices de la liste triée
 closest_indices = np.argsort(squared_distances)[:k]
 
 # Retourner l'étiquette la plus fréquente dans cette liste
 # qui est 1 si la moyenne des étiquettes est supérieure à 0.5 et 0 sinon
 return (1 if (np.mean(ytr[closest_indices])) > 0.5 else 0)

Nous pouvons maintenant utiliser cette fonction sur toutes les observations de `X_test` pour obtenir les prédictions :

In [None]:
my_y_test_pred = [my_k_nearest_neighbors_classif(X_test[idx, :], X_train, y_train, 7) for idx in range(X_test.shape[0])]

Nous pouvons comparer ces prédictions à celles de `scikit-learn` :

In [None]:
knnclass = neighbors.KNeighborsClassifier(n_neighbors=7)
knnclass.fit(X_train, y_train)
y_test_pred = knnclass.predict(X_test)

In [None]:
y_test_pred = knnclass.predict(X_test)

In [None]:
my_y_test_pred - y_test_pred

#### Pour la régression

In [None]:
(X_train, X_test, y_train, y_test) = model_selection.train_test_split(X, y_regress, test_size=0.3, random_state=25)

In [None]:
def my_k_nearest_neighbors_regress(x, Xtr, ytr, k):
 """
 Retourne la moyenne des étiquettes des k plus proches voisins dans Xtr de x.
 
 Parameters
 ----------
 x: np.array of shape (p, )
 L'observation à étiquetter
 
 Xtr: np.array of shape (n, p)
 La matrice de données d'entrainement
 
 ytr: np.array of shape (n, )
 Les étiquettes des données d'entrainement. 
 
 k: int
 Nombre de plus proches voisins
 """
 
 # Calculer les carrés distances euclidiennes entre x et chaque ligne de Xtr
 squared_distances = [np.sum((x - Xtr[idx, :])**2) for idx in range(Xtr.shape[0])]
 
 # Trouver les indices des k plus petites valeurs dans cette liste,
 # en récupérant les k premiers indices de la liste triée
 closest_indices = np.argsort(squared_distances)[:k]
 
 #print(list(closest_indices))
 
 # Retourner la moyenne des étiquettes dans cette liste
 return (np.mean(ytr[tuple([closest_indices])]))

Nous pouvons maintenant utiliser cette fonction sur toutes les observations de `X_test` pour obtenir les prédictions :

Attention, `y_train` est une série pandas ; pour obtenir l'array numpy correspondant, nous utilisons `y_train.values`.

In [None]:
my_y_test_pred = [my_k_nearest_neighbors_regress(X_test[idx, :], X_train, y_train.values, 7) for idx in range(X_test.shape[0])]

Nous pouvons comparer ces prédictions à celles de `scikit-learn` :

In [None]:
knnreg = neighbors.KNeighborsRegressor(n_neighbors=7)
knnreg.fit(X_train, y_train)
y_test_pred = knnreg.predict(X_test)

In [None]:
y_test_pred = knnreg.predict(X_test)

In [None]:
my_y_test_pred - y_test_pred