TD2 : Analyse Typologique
Transcription
TD2 : Analyse Typologique
TD2 : Analyse Typologique M1 IDS DIS, S2 2014-2015 1 Distances Démontrer que les applications suivantes sont des distances (métriques) sur Rp : d(x, y) = p X |xi − yi | (Manhattan) i=1 d(x, y) = v u p uX t (x i − yi )2 (Euclidienne) i=1 d(x, y) = max |xi − yi | (Chebyshev) 1≤i≤p 2 Mesures de similarité entre vecteurs binaires Soient x, y deux vecteurs binaires de dimension p, i. e. x, y ∈ {0, 1}p . On défini les quantités suivantes a= b= c= d= p X (Concordance des positifs) xj y j j=1 p X xj (1 − yj ) (Nb. de X positifs & Y négatif) (1 − xj )yj (Nb. de X négatif & Y positifs) j=1 p X j=1 p X (1 − xj )(1 − yj ) (Concordance des negatifs) j=1 Écrivez une fonction en R pour chacune des similarités ci-dessous. a a+b+c 2a Sdic (x, y) = 2a + b + c Sjac (x, y) = 3 (Jaccard) (Dice) Données catégorielles Nous utiliserons l’ensemble de données Mushroom à télécharger depuis le UCI Machine Learning Repository. (i) Téléchargez les données et les charger dans R. 1 (ii) Identifiez le nombre de variables, la nature de chaque variable et la présence de valeurs manquantes. Désormais travaillez uniquement avec les premiers 5 variables du jeu de données. (iii) Transformez les variables catégorielles en variables binaires. (iv) Utilisez la similarité de Jaccard pour obtenir une matrice de similarité. (v) Installez le package proxy et utilisez la fonction simil pour vérifier vos calculs. Exercices additionnelles Distances (difficile) Démontrer que les application suivantes sont des distances (métriques) Hamming d(x, y) = Pp i=1 1xi 6=yi avec x, y ∈ Np . Minkowski Pour tout r ≥ 1 (y compris r = ∞): dr (x, y) = p X !1/r r |xi − yi | , x, y ∈ Rp i=1 Observez que pour r = 1 on a la distance de Manhattan, pour r = 2 la Euclidienne et pour r = ∞ la de Chebyshev. Astuce: Utiliser l’inégalité de Minkowski. Mesures de similarité entre vecteurs binaires Écrivez une fonction en R pour chacune des similarités ci-dessous. a Soch (x, y) = q (a + b)(a + c 1 a a Skul (x, y) = + 2 a+b a+b a+d Ssok (x, y) = a+b+c+d (Ochiai) (Kulczynski) (Sokal-Michener) Vous pouvez aussi examiner toutes les similarités et distances du package proxy (voir ce lien) Données catégorielles Répétez l’exercice avec les données Mushroom maintenant avec le jeu de données complet. Faites attention aux données manquantes. 2