Compte Rendu - Mathieu Loslier
Transcription
Compte Rendu - Mathieu Loslier
LOSLIER Mathieu Ingénieur2000 – IR1 Rapport de Tests – TP3 Algorithmique Algorithmes de Tri, complexité Objectifs : Comportements et analyse des différents algorithmes de tri. 1. Introduction Nous allons étudier dans ce rapport les algorithmes suivants : le tri bulle le tri par insertion le tri par sélection le tri rapide L'étude et l'analyse de ces algorithmes ne sont pas l'objet de ce rapport, nous allons nous concentrer ici sur leur complexité en fonction de la taille du tableau à trier. Notons que pour le tri rapide, la complexité peut varier selon le choix du pivot. En effet ce dernier peut être choisit de plusieurs manières différentes. Pour ce TP nous retiendrons : le pivot est le premier élément le pivot est le dernier élément le pivot est un élément du tableau sélectionné au hasard le pivot est le Médian à 3 du tableau. Rappelons que le médian à trois est la valeur intermédiaire des trois premières valeurs distinctes d'un tableau. Une fois les différents algorithmes implémentés et fonctionnels, nous pouvons désormais nous intéresser à la structure même du test des complexités. 2 2. Statistiques Afin de déterminer l’algorithme le plus performant, nous devons trouver un moyen de quantifier et de comparer le nombre d'affectations et de comparaisons effectuées lors des différents tris. Dès lors que les méthodes de tris renvoient chacune le nombre d'opérations, il convient de déterminer la structure du test. Précisons néanmoins que seules les opérations intimement liées aux tris ont été comptabilisées, toutes celles liées aux boucles, ou à des variables de contrôle n'entrent pas dans le calcul. La complexité des algorithmes de tri étant fonction de la taille du tableau à trier, il nous faut trouver un éventail de tailles représentatif permettant de comparer efficacement le nombre d'opérations pour chaque tri. Les valeurs suivantes ont été retenues : 5, 10, 20, 40, 50, 75, 100, 200, 300, 500; Afin d'avoir les statistiques les plus fiables possibles, il faut pouvoir effectuer plusieurs fois un tri utilisant le même algorithme sur la même taille de tableau. En divisant le nombre total d'opérations ainsi obtenu par le nombre de test réalisés on obtient un nombre moyen d’opérations effectuées. On comprend bien ici que plus le nombre de tris réalisés pour une taille de tableau donnée, et plus la valeur moyenne sera précise. Seulement pour des dimensions de tableau trop importantes, le coût en temps des tests risque d'être trop élevé. Nous opterons ici pour une valeur raisonnable de 15 tris exécutés pour chaque taille de tableau. La structure même du test étant établie, il faut stocker les résultats. Chaque tri sauvegardera donc son nombre moyen d'affectations et de comparaisons en fonction de la taille du tableau dans deux fichiers distincts (Remarque : chaque choix de pivot pour le tri rapide compte comme étant un tri à part entière, ceci afin de comparer les éventuels écarts de complexité entre ces derniers). Pour finir, ces fichiers sont utilisés par gnuplot (Programme permettant de tracer des courbes au format PostScript) nous permettant de visualiser concrètement les résultats obtenus. L'échelle des graphiques est la suivante : de 0 à 600 en abscisse (Taille des données : nombre d’entiers) de 0 à 10 000 en ordonnée (Nombre de comparaisons) Chaque fichier PostScript présente les courbes de x * log( x ) , de x² et des résultats obtenus avec le tri en question (pour le nombre d'affectations ou de comparaisons). Une fois l'ensemble des courbes tracées via ce petit utilitaire, il nous faut désormais les étudier et les comparer. (NOTE : le programme fournit en annexe ne crée pas de façon autonome les fichiers .ps, mais uniquement les fichiers de sauvegarde des valeurs. Pour créer, ou mettre à jour les courbes, il suffit de se placer dans le répertoire « graphes et plot », puis de lancer la commande suivante : gnuplot *.plot En effet, l'ensemble des fichiers .plot a été préalablement créé). 3 3. Résultats Tout d'abord le choix des deux fonctions tracées en plus des résultats n'est pas anodin. En effet, les fonctions x² et x * log(x) sont connues pour être les complexités théoriques respectives des tris naïfs (bulle, insertion, sélection), et des tris rapides. L'objectif de ce TP était bien de comparer les valeurs théoriques aux valeurs pratiques récupérées grâce aux tests ci-dessus. Les résultats étant très proches pour chaque tri entre le nombre d'affectations et de comparaisons, dans un souci de clarté nous n'allons étudier ici que les comparaisons car ce sont les opérations les plus « gourmandes ». Ci-après se trouvent les graphiques respectifs du tri à bulle, tri sélection, tri rapide avec pivot aléatoire et enfin le tri rapide avec un pivot médian. On remarque tout de suite que le tri bulle et sélection sont très proches l'un de l'autre et de la courbe x * x, exactement comme pour les deux tris rapides avec x * log(x). On peut rajouter que le tri bulle se situe juste en dessous de la courbe de x², tandis que la représentation du tri par sélection est strictement confondue avec la courbe de x². Ces tris ont été sélectionnés car ils sont tous représentatifs pour notre rapport. En effet, le tri bulle et insertion sont presque confondus sur les courbes, idem pour les tris rapides avec pivot aléatoire, en début et en fin. En observant de plus près les deux tris rapides, on se rend compte que celui avec pivot aléatoire est bien plus proche de la courbe de x * log(x) que le tri avec un pivot médian (linéaire). Figure 1 : Tri Bulle 4 Figure 2 : Tri Sélection Figure 3 : Tri rapide avec pivot aléatoire 5 Figure 4 : Tri rapide avec pivot médian 6 4. Conclusion Les graphiques ont bel et bien confirmés les valeurs théoriques, c'est à dire que les tris dits naïfs sont d'une complexité proche de n², tandis que le tri rapide est proche de n * log(n). Pour ce dernier, en théorie la complexité maximale est également en O(n²) mais statistiquement ce cas ne se présente que très rarement ce qui nous permet de dire que dans la plupart des cas le tri rapide s'effectuera avec une complexité en n * log(n). On notera tout de même la légère différence résidant entre les différents tris rapides, représentés on l'a dit par le choix initial du pivot. En effet, lorsque l'on choisit comme pivot la valeur médiane, cela a pour conséquence d'augmenter la complexité, ce qui est logique car le traitement nécessaire au calcul du dit pivot coute un certain temps machine. Cependant on pourrait s'attendre à ce que le choix d'un bon pivot, divisant le tableau initial en deux parties égales, soit plus avantageux que de prendre le risque de tomber sur un très mauvais cas en prenant par exemple un pivot aléatoire. Or on se rend compte que ce n'est pas vraiment le cas, car même s'il est probable que l'on tombe sur un mauvais cas, statistiquement le gain de temps obtenu en ne calculant pas le médian est utilisé pour rallonger très légèrement le tri. En conclusion pour le tri rapide, il est plus avantageux de choisir un pivot aléatoire (Remarque : choisir le premier, le dernier ou tout autre élément au hasard revient strictement au même) en prenant le risque de tomber sur un mauvais cas, que de pedre du temps à trouver le médian idéal. Note: Pour accentuer encore plus l'écart entre les choix des pivots, il serait intéressant d'augmenter significativement la taille des tableaux et d'ajuster l'échelle des graphiques. En effet, on pourrait clairement voir une séparation s'effectuer entre les deux courbes. 7