VNX MCx Multicore Everything
Transcription
VNX MCx Multicore Everything
Livre blanc VNX MCx™ Multicore Everything™ Résumé Ce livre blanc explique la technologie EMC VNX MCx, ainsi que ses principaux composants : RAID multicœur, cache multicœur et FAST Cache multicœur. Leur association donne naissance aux nouvelles fonctions de la gamme VNX telles que l’évolutivité multicœur, l’accès actif/actif symétrique, le cache évolutif, le remplacement permanent et bien d’autres encore. Juillet 2014 Copyright © 2014 EMC Corporation. Tous droits réservés. EMC estime que les informations figurant dans ce document sont exactes à la date de publication. Ces informations sont modifiables sans préavis. Les informations contenues dans cette publication sont fournies « en l’état ». EMC Corporation ne fournit aucune déclaration ou garantie d’aucune sorte concernant les informations contenues dans cette publication et rejette plus spécialement toute garantie implicite de qualité commerciale ou d’adéquation à une utilisation particulière. L’utilisation, la copie et la diffusion de tout logiciel EMC décrit dans cette publication nécessitent une licence logicielle en cours de validité. Pour obtenir la liste actualisée des noms de produits, consultez la rubrique des marques EMC via le lien Législation, sur france.emc.com. Référence H12090.5 Livre blanc VNX MCx™ 2 Index Commandes de CLI .................................................................................................. 5 Figures .................................................................................................................... 5 Introduction ............................................................................................................ 7 Audience ............................................................................................................................ 8 Objectifs de MCx ................................................................................................................ 8 Évolutivité du CPU ................................................................................................... 8 FLARE® .............................................................................................................................. 8 MCx .................................................................................................................................... 9 Affinité de cœur ............................................................................................................ 10 Composants du stack ....................................................................................................... 11 Cache multicœur ................................................................................................... 13 Cache évolutif .................................................................................................................. 13 Vidage .......................................................................................................................... 14 Seuils dynamiques ....................................................................................................... 15 Écriture immédiate ....................................................................................................... 17 Fusion des écritures ..................................................................................................... 17 Taille de page ............................................................................................................... 17 Mécanisme de préchargement ......................................................................................... 18 Lecture page entière ..................................................................................................... 20 Lecture page supplémentaire ....................................................................................... 20 Lecture en amont ......................................................................................................... 21 Stockage en chambre forte du cache multicœur ............................................................... 21 État désactivé............................................................................................................... 21 Vidage vers la chambre forte ........................................................................................ 22 Alimentation CA sans panne......................................................................................... 22 Exemple de synthèse du cache multicœur ........................................................................ 22 Pages de cache non synchronisées .............................................................................. 23 Débit de la LUN ............................................................................................................ 24 Actif/actif symétrique ............................................................................................ 25 Actif/actif et logiciel de multipathing ................................................................................ 25 Service de verrouillage ................................................................................................. 27 FAST Cache multicœur ........................................................................................... 29 Conception fonctionnelle ................................................................................................. 29 Préparation initiale de FAST Cache multicœur .............................................................. 29 Gestion des pages ........................................................................................................ 30 Écritures sur FAST Cache .............................................................................................. 33 Lectures FAST Cache..................................................................................................... 33 Interactions avec le cache multicœur ........................................................................... 34 Options de configuration de FAST Cache multicœur .......................................................... 34 Livre blanc VNX MCx™ 3 RAID multicœur ..................................................................................................... 37 Remplacement permanent ............................................................................................... 37 Mobilité des disques ........................................................................................................ 38 Recâblage du boîtier DAE ............................................................................................. 39 Disques de secours .......................................................................................................... 40 Reconstruction de disque ............................................................................................. 40 Règles de remplacement .............................................................................................. 43 Matrice de remplacement des disques ......................................................................... 44 Règle relative aux disques de secours .............................................................................. 46 Dimensionnement de disque ............................................................................................ 49 Reconstruction parallèle RAID6 ........................................................................................ 50 Remise à zéro d’un disque ............................................................................................... 50 Remise à zéro de LUN ................................................................................................... 52 Consignation des reconstructions .................................................................................... 52 Consignation des écritures ............................................................................................... 53 Disques système ................................................................................................... 55 Exemples de synthèse de RAID multicœur .............................................................. 56 Scénario A : le disque en panne se reconnecte ................................................................. 57 Scénario B : un autre disque tombe en panne .................................................................. 57 Scénario B1 .................................................................................................................. 58 Scénario B2 .................................................................................................................. 58 Scénario B3 .................................................................................................................. 58 Scénario C : expiration du délai de 5 minutes ................................................................... 59 Résumé................................................................................................................. 60 Annexe A : Différences majeures entre MCx et FLARE .............................................. 61 Nouveaux disques ............................................................................................................ 61 Espace utile par disque ................................................................................................ 61 Remise à zéro des disques et des LUN .............................................................................. 61 Priorité SCSI ..................................................................................................................... 61 Reprise d’erreur d’E/S ...................................................................................................... 61 Vérification en arrière-plan ............................................................................................... 62 Remarques Getsniffer/Setsniffer .................................................................................. 62 Sniffer .............................................................................................................................. 62 Remplacement proactif .................................................................................................... 63 Fonctionnalités non disponibles dans la gamme VNX nouvelle génération ....................... 63 Annexe B : Unisphere Analyzer .............................................................................. 64 Notes de configuration du test ......................................................................................... 65 Annexe C : Gestion du cache multicœur ................................................................. 66 Gestion ............................................................................................................................ 66 Destruction de FAST Cache ........................................................................................... 66 Code d’activation FAST Cache ...................................................................................... 67 Traitement des pannes ..................................................................................................... 68 Livre blanc VNX MCx™ 4 Panne d’un disque ....................................................................................................... 68 Tableau des pannes d’alimentation.............................................................................. 68 Références ............................................................................................................ 71 Commandes de CLI CLI 1. Show SP cache information..................................................................................... 18 CLI 2. Power Path display ALUA state ................................................................................ 26 CLI 3. Copy back to a specific disk .................................................................................... 38 CLI 4. Drive percent rebuilt ............................................................................................... 41 CLI 5. Drive percent copied ............................................................................................... 42 CLI 6. Display disk zeroing log entries............................................................................... 51 CLI 7. Enable sniffer on the array ...................................................................................... 63 CLI 8. Create FAST Cache .................................................................................................. 66 CLI 9. Destroy FAST Cache................................................................................................. 67 CLI 10. Show FAST Cache information ............................................................................... 67 Figures Figure 1. FLARE CPU with four cores .................................................................................... 9 Figure 2. FLARE on a 16-core CPU ........................................................................................ 9 Figure 3. MCx CPU utilization ............................................................................................ 10 Figure 4. Scaling power of MCx ......................................................................................... 11 Figure 5. VNX stack components....................................................................................... 11 Figure 6. FLARE cache ....................................................................................................... 13 Figure 7. Adaptive cache .................................................................................................. 14 Figure 8. Multicore Cache write throttling.......................................................................... 16 Figure 9. Multicore Cache logical vs. physical page size ................................................... 18 Figure 10. Read miss ........................................................................................................ 19 Figure 11. Full page prefetch ............................................................................................ 20 Figure 12. Read more prefetch .......................................................................................... 20 Figure 13. Read ahead prefetch ........................................................................................ 21 Figure 14. Cache dirty pages ............................................................................................. 23 Figure 15. Throughput comparison ................................................................................... 24 Figure 16. Active/Active failover mode .............................................................................. 25 Figure 17. EMC Power Path and Asymmetric Active/Active ................................................ 26 Figure 18. EMC Power Path and Symmetric Active/Active .................................................. 26 Figure 19. Active/Active switches to Asymmetric Active/Active ......................................... 27 Figure 20. Stripe locking service ....................................................................................... 27 Figure 21. FLARE FAST Cache promotion ........................................................................... 29 Figure 22. Multicore FAST Cache initial warm up ............................................................... 30 Figure 23. FAST Cache proactive cleaner ........................................................................... 31 Figure 24. Clean before copy ............................................................................................ 31 Livre blanc VNX MCx™ 5 Figure 25. Multicore FAST Cache minimal page count ....................................................... 32 Figure 26. FLARE vs. MCx FAST Cache write ....................................................................... 33 Figure 27. FLARE vs. MCx FAST Cache read ........................................................................ 34 Figure 28. Permanent sparing ........................................................................................... 37 Figure 29. Drive mobility ................................................................................................... 39 Figure 30. Drive rebuild .................................................................................................... 40 Figure 31. LUN percent rebuilt .......................................................................................... 41 Figure 32. Rebuilding disk ................................................................................................ 42 Figure 33. Disk properties ................................................................................................. 42 Figure 34. Sparing rules .................................................................................................... 44 Figure 35. Drive sparing matrix ......................................................................................... 45 Figure 36. Extreme Performance tier ................................................................................. 46 Figure 37. Hot spare policy ............................................................................................... 47 Figure 38. Create storage pool .......................................................................................... 48 Figure 39. Hot spare policy violation ................................................................................. 48 Figure 40. Multicore RAID drive map ................................................................................. 49 Figure 41. MCx vs. FLARE overhead ................................................................................... 49 Figure 42. RAID6 parallel rebuild ...................................................................................... 50 Figure 43. Drive zeroing .................................................................................................... 51 Figure 44. LUN zeroing ...................................................................................................... 52 Figure 45. Rebuild logging ................................................................................................ 53 Figure 46. Write journaling................................................................................................ 54 Figure 47. The system drives ............................................................................................ 55 Figure 48. Rebuild logging and write journaling ................................................................ 57 Figure 49. Another drive fails ............................................................................................ 57 Figure 50. The new VNX actual NAR data ........................................................................... 64 Figure 51. VNX OE 32 actual NAR data .............................................................................. 64 Figure 52. Create MCx FAST Cache .................................................................................... 66 Figure 53. An installed FAST Cache enabler ...................................................................... 68 Livre blanc VNX MCx™ 6 Introduction Les systèmes VNX milieu de gamme d’EMC s’imposent comme la norme de facto pour les déploiements de serveur virtuel. Un déploiement classique varie de quelques dizaines à plusieurs milliers de machines virtuelles. Dans tous les cas, le but est de limiter autant que possible le coût par machine virtuelle. Un système de stockage moderne doit atteindre un nombre d’E/S par seconde plus élevé que jamais. Il s’agit là d’un besoin motivé par les architectures serveur multicœur/multisocket actuelles. Encore récemment, les baies de stockage milieu de gamme prenaient en charge entre 20 et 40 cœurs de CPU. Aujourd’hui, elles doivent en prendre en charge entre 200 et 400, si ce n’est plus. La loi de Moore, qui stipule que les futurs serveurs posséderont des puces 3D en silicium de plus forte granularité, confirme cette tendance. Une baie déployée de nos jours et conservée dans le datacenter pendant 5 ans doit pouvoir multiplier par 10 les transactions traitées durant sa durée de vie utile. Pour éviter les goulots d’étranglement au niveau du stockage, le nombre de cœurs côté stockage doit s’adapter au nombre de cœurs de CPU en constante augmentation côté hôte. La capacité elle aussi ne cesse de croître. Il y a quelques années, une baie milieu de gamme standard devait stocker de 10 à 20 To de données seulement. Aujourd’hui, cette capacité atteint entre 100 et 200 To. C’est en augmentant la capacité par slot de disque que nous sommes parvenus à stocker un volume plus important de données. La volumétrie se développe en même temps que la densité surfacique des plateaux magnétiques utilisés dans les disques durs mécaniques. En réalité, la densité surfacique des disques durs ne cesse d’augmenter au fil des ans. Toutefois, la vitesse d’accès n’a pas connu la même progression, ce qui a généré une perte au niveau de la densité d’accès. En conséquence, les temps de reconstruction des disques sont désormais excessivement longs. L’augmentation de la capacité impose de nouvelles exigences au cache de la baie. La mémoire cache du système doit suivre l’évolution des capacités de ce dernier. De manière générale, l’objectif en matière de cache est de 0,1 % de la capacité totale de stockage. Par exemple, pour une capacité de 20 To, le cache doit être de 0,1 %, soit 20 Go de DRAM. Les systèmes VNX de plus grande taille posent un problème : un système à 1 500 slots de disque peut héberger une capacité totale de 6 Po, ce qui correspond à un cache de 6 To. Actuellement, il n’existe aucune conception à double contrôleur capable de fournir une telle quantité de DRAM, laquelle représente en outre un lourd investissement, tant à l’achat qu’en matière de refroidissement. Heureusement, le cache utilisant la technologie Flash apparaît comme une excellente solution alternative à la DRAM et s’impose à la fois comme une option économique et rapide. Pour tirer pleinement avantage des conceptions de CPU modernes et des développements en matière de stockage Flash NAND tout en renforçant les atouts offerts aux clients de sa gamme de stockage milieu de gamme, EMC a développé la plate-forme MCx™, sa toute dernière technologie de stockage moderne multicœur/multisocket. Après plusieurs années de développement, MCx s’impose dans le domaine de l’évolution horizontale du nombre de cœurs, ciblant ainsi les applications de gestion et de stockage des données. La nouvelle génération de systèmes EMC VNX équipés de MCx offre des performances et une efficacité de la Livre blanc VNX MCx™ 7 plate-forme sans précédent. Ce livre blanc traite de quelques-unes des innovations clés de MCx. Audience Ce livre blanc s’adresse à toutes les personnes souhaitant en savoir plus sur MCx et sur la façon dont ce noyau avancé de gestion des E/S fait évoluer les systèmes de stockage milieu de gamme de type VNX. Des connaissances de base sur le stockage et les principes SAN sont requises. Objectifs de MCx De par sa conception, MCx vise un certain nombre d’objectifs, que nous abordons dans ce livre blanc : s’adapter à des architectures multi-processeurs, fournir une fonctionnalité active/active, améliorer les performances et l’évolutivité, optimiser l’efficacité de la mémoire. Évolutivité du CPU Le développement de MCx poursuit de nombreux objectifs, le plus important étant l’évolution des cœurs de CPU. MCx tire pleinement parti des multiples cœurs de CPU qu’offre la microarchitecture Intel (Sandy Bridge 8 cœurs et Ivy Bridge 10 cœurs en l’état actuel, et davantage de cœurs encore à l’avenir). L’évolution du CPU est devenue une exigence fondamentale pour assurer une croissance technologique soutenue. À mesure que le nombre de cœurs de CPU et la vitesse des processeurs augmenteront à l’avenir, la pile logicielle du système de stockage devra évoluer et proposer une puissance de traitement supplémentaire. La microarchitecture Haswell d’Intel illustre entièrement cette tendance [5]. FLARE® Pour expliquer en quoi MCx est source d’innovation, il nous faut tout d’abord comprendre l’architecture de FLARE Operating Environment. FLARE, qui fonctionne sur le CLARiiON CX et la gamme originale de baies EMC VNX (VNX1), est conçu selon une approche monothread. Chaque thread s’exécute sur un cœur de CPU dédié. Certaines fonctions FLARE sont liées au premier cœur, également appelé cœur 0. Les E/S entrantes sont traitées sur le cœur 0, puis réparties sur les autres cœurs. Ce cœur exécutant les fonctions qui sollicitent le plus le CPU, il fait souvent office de volume système pour les autres processeurs. Lorsque FLARE s’exécute sur un nombre de cœurs relativement modeste (deux, quatre ou même six), l’approche monothread est raisonnablement adaptée. Figure 1. CPU FLARE avec quatre cœurs illustre l’utilisation des cœurs dans FLARE : Livre blanc VNX MCx™ 8 Figure 1. CPU FLARE avec quatre cœurs Le nombre de threads étant supérieur au nombre de cœurs de CPU disponibles, aucun cœur n’est gaspillé. Toutefois, si le nombre de cœurs de CPU augmente, le goulot d’étranglement susceptible d’apparaître au niveau du cœur 0 affecte le budget de l’ensemble des cœurs. Les ingénieurs VNX ont testé FLARE avec un nombre plus important de cœurs de CPU. Comme prévu, le cœur 0 reste occupé à 100 %, le cœur 1 à 90 %, le cœur 2 à 65 % et ainsi de suite. L’ajout d’autres cœurs de CPU n’a apporté aucune amélioration, les cœurs 6 à 15 restant inoccupés, comme illustré sur la Figure 2. FLARE sur CPU à 16 cœurs. Une nouvelle approche d’optimisation multicœur s’est donc révélée nécessaire. Figure 2. FLARE sur CPU à 16 cœurs MCx MCx transforme la façon dont le VNX gère les threads, ainsi que leur distribution. La planification de cœurs de CPU en parallèle n’est pas sans générer des frais supplémentaires. La loi d’Amdahl [1] stipule que « l’accélération d’un programme utilisant plusieurs processeurs en traitement parallèle est limitée par le temps nécessaire à la fraction séquentielle du programme. » Aucun système ne peut utiliser l’ensemble de ses cœurs de CPU de manière linéaire. Quatre cœurs de CPU n’exécutent pas un programme quatre fois plus vite Livre blanc VNX MCx™ 9 qu’un seul cœur. En conséquence, la répartition des threads sur plusieurs autres cœurs de CPU oblige le cœur en charge de la planification à consacrer du temps à la gestion de cette distribution. Cependant, la loi d’Amdahl n’interdit pas le chargement des cœurs selon d’autres critères. Par exemple, il est possible d’aligner les ports Fibre Channel (FC) front-end sur différents cœurs afin de répartir plus efficacement le travail. Affinité de cœur MCx utilise un concept de cœur préférentiel. Dans ses attributions, chaque port front-end et back-end a un cœur préférentiel qu’il différencie des autres cœurs. Les demandes de l’hôte front-end sont traitées sur le cœur dont elles sont issues, afin d’éviter tout impact négatif sur les performances qui résulterait d’une permutation du cache et du contexte entre des cœurs de CPU. Au niveau back-end, chaque cœur a accès à tous les disques, si bien que le traitement des demandes reçues par ces derniers ne nécessite aucune permutation avec un autre CPU. Lorsqu’un cœur préférentiel est occupé, un autre cœur prend le relais. Les cœurs les moins occupés traitent les E/S non liées à l’hôte ou celles générées par la baie elle-même. Les opérations d’E/S back-end, telles que les reconstructions de disques, les copies proactives, la fonction Sniff Verify et la remise à zéro du disque, ne gênent pas les E/S de l’hôte. MCx valorise les capacités de traitement du CPU plus efficacement que FLARE, en améliorant directement les performances. MCx permet également une évolution des performances bien plus importante qu’avec FLARE. Figure 3. Taux d’utilisation du CPU MCx montre le résultat d’une nouvelle baie VNX (exécutant MCx) soumise à une charge de travail dans le cadre de l’évaluation des performances VNX standard. Notez que seuls huit ports front-end ont été utilisés pour cette évaluation. Figure 3. Taux d’utilisation du CPU MCx Si un grand nombre de cœurs sont moins utilisés que les autres, cela indique que la charge de travail n’est pas également répartie entre tous les ports front-end du système. La loi d’Amdahl stipule qu’il n’est pas toujours rentable d’occuper tous les cœurs au même niveau. Le graphique ci-dessus montre un système fonctionnel. La baie est occupée mais n’atteint pas son plafond de performances. Livre blanc VNX MCx™ 10 À mesure que l’utilisation du port et la charge d’E/S augmentent, MCx répartit automatiquement le traitement entre tous les cœurs disponibles. L’apport d’une charge de travail supplémentaire répartie sur tous les ports front-end du même système est une preuve de la puissance d’évolution de MCx, comme illustré dans Figure 4. Puissance d’évolution de MCx. Figure 4. Puissance d’évolution de MCx Composants du stack D’un point de vue chronologique, VNX Block Operating Environment a été conçue avant l’arrivée de la technologie multicœur et n’était donc pas conçu pour valoriser l’évolution dynamique du CPU. FLARE a vu le jour lorsque les définitions RAID ont été développées et sont devenues un moteur de stockage milieu de gamme pour l’accès au disque physique, RAID et la mise en cache. Au fil du temps, de nouvelles capacités et fonctionnalités sont venues compléter FLARE : les pools, la compression, la hiérarchisation automatique, les snapshots, etc. Dans ce document, l’ensemble des ces fonctionnalités sera appelé Services de données. Figure 5. Composants du stack VNX EMC a développé une mentalité « Multicore Everything », qui serait à la base de la conception de MCx. Cette nouvelle façon de penser garantit qu’une révolution technologique nécessite une nouvelle base logicielle. EMC a commencé par réinventer les composants principaux : Livre blanc VNX MCx™ 11 RAID multicœur, cache multicœur, FAST Cache multicœur, accès actif/actif symétrique, interface du gestionnaire de la communication multipathing. L’ordre du stack lui-même constitue un changement architectural considérable. Avec le stack FLARE, toutes les E/S passent par le mappage mémoire de la couche FAST Cache avant d’atteindre la couche FLARE, où se situe le cache DRAM. Ce comportement est généralement dû à l’ajout de FAST Cache à un stack FLARE déjà arrivé à maturité. Par conséquent, le renvoi d’une confirmation d’écriture validée à l’hôte est retardée, ce qui limite les performances d’écriture. Avec MCx, toutes les écritures vont directement dans le cache DRAM, ce qui réduit la latence des hôtes. En conséquence, les écritures des hôtes sont mises en miroir et protégées directement à partir de la couche de cache DRAM, ce qui améliore les performances. Reportez-vous à la section Actif/actif symétrique pour en savoir plus sur les effets de l’ordre du stack. MCx introduit une nouvelle technologie d’accès actif/actif symétrique qui permet aux deux processeurs de stockage (SP) d’écrire directement les données sur la LUN, sans avoir à envoyer de mise à jour au SP principal comme cela était le cas avec FLARE. Livre blanc VNX MCx™ 12 Cache multicœur Le cache multicœur de la nouvelle baie VNX,aussi appelé cache SP, est un composant logiciel MCx qui optimise la mémoire vive dynamique du processeur de stockage VNX pour augmenter les performances d’écriture et de lecture de l’hôte. À l’instar de RAID multicœur, le cache multicœur est conçu pour s’adapter à plusieurs cœurs de CPU. Dans le cas de FLARE, le cache fait partie du disque FLARE principal. Pour MCx, le cache multicœur est un composant distinct dans le stack MCx. Le cache relie tous les autres composants ensemble. Le cache multicœur permet la mise en cache des écritures pour toutes les couches logicielles VNX (voir Figure 5. Composants du stack VNX). Fonctionnalités du cache multicœur : évolution du CPU multicœur, Actif/actif symétrique pris en charge, réglage des performances automatique et évolutif. Cache évolutif Avant d’examiner les améliorations du cache multicœur, revoyons le principe de fonctionnement du cache FLARE. Le cache FLARE se compose de trois zones : cache de lecture, cache d’écriture et cache d’écriture miroir du SP homologue. Cette division n’inclut pas la surcharge du système d’exploitation. Tel qu’il est illustré dans Figure 6. Cache FLARE, la fonction première du cache de lecture est le préchargement. Suite à un échec de lecture, les données sont chargées dans le cache de lecture (1). Le cache d’écriture ou de lecture peut répondre aux demandes d’écriture de l’hôte si les données nécessaires sont disponibles au moment où la demande est émise. Le cache de lecture (2) peut également y répondre si le chargement des données sur le disque est nécessaire. Le cache d’écriture est similaire, à la différence que chaque E/S d’écriture entrante (3) est marquée comme « non synchronisée », puis mise en miroir sur le cache SP homologue (4). L’hôte peut remplacer une page non synchronisée quand elle est dans le cache. On appelle cela un Accès en écriture . Le cache d’écriture utilise un algorithme d’ancienneté (LRU) pour reclasser la plus ancienne page non utilisée sur le disque. L’action de reclassement est appelée Vidage. À un moment donné, la LRU entre en jeu : la page de cache est écrite sur le disque (5) et les deux copies sont supprimées de chaque SP (6). Figure 6. Cache FLARE Contrairement au cache FLARE, l’espace du cache multicœur n’est pas réparti entre les fonctions de lecture et d’écriture. Le cache est plutôt partagé entre les Livre blanc VNX MCx™ 13 écritures (1) et les lectures (2) tel qu’il est illustré dans Figure 7. Cache évolutif. De plus, au lieu d’être vidée sur le disque, les pages non synchronisées sont copiées sur le disque (3). Elles restent donc en mémoire et ne sont pas supprimées. Ainsi, l’hôte peut atteindre les pages (4) et (5), ce qui améliore les performances. Au final, les données sont retirées du cache (7), ce qui libère la page pour d’autres charges de travail. Figure 7. Cache évolutif La mise en miroir est importante : le VNX garantit la longévité des données au moment où les E/S d’écriture accèdent au cache. Une page non synchronisée est toujours copiée sur le cache SP homologue. Si un SP tombe en panne, le SP restant a une copie primitive des données. Pour le SP homologue, la page mise en miroir est la même que toute autre page non synchronisée en cache, sauf au niveau de la propriété. Les deux SP gardent une trace des pages dont ils sont propriétaires et de celles détenues par l’homologue. La propriété de la page change si l’un des SP devient indisponible (par exemple, s’il fonctionne de manière inattendue, se bloque, redémarre, etc.). Chaque SP est responsable du vidage de ses propres pages non synchronisées vers le back-end, effaçant la balise « non synchronisée » sur les deux caches. Remarque : le cache multicœur met toujours en miroir toutes les écritures d’E/S validées sur le cache SP homologue, tant que le SP homologue est opérationnel. Le cache multicœur garde des statistiques très détaillées sur chaque page de cache. Il utilise le concept de vieillissement (similaire à la température de secteur FAST VP) ou de croissance constante de la page. Chaque accès réussi réduit l’âge de la page et prolonge donc sa vie dans le cache. Ainsi, les événements récents sont considérés comme plus importants. Par exemple, si la baie est installée depuis un an, ce qui est arrivé dans les dernières heures est bien plus important que ce qui est arrivé le mois dernier. Les pools bénéficient aussi entièrement de toutes les innovations du cache multicœur. Les pools sont développés depuis un ensemble de groupes RAID sousjacents, appelés groupes RAID privés. Le système, et non l’utilisateur, gère chaque groupe RAID privé. Ce point est essentiel à la conception des pools. Le cache multicœur surveille et gère le trafic vers les groupes RAID sous-jacents dans les pools, exactement comme avec les groupes RAID gérés par l’utilisateur. Vidage FLARE possède une condition appelée Vidage forcé. Elle se produit lorsque le pourcentage de pages de cache non synchronisées dépasse le seuil supérieur et atteint 100 %. À ce stade, le cache force le vidage des données non sauvegardées Livre blanc VNX MCx™ 14 (non synchronisées) vers le disque et suspend toutes les E/S de l’hôte. Le vidage forcé continue jusqu’à ce que le pourcentage de pages non synchronisées passe en-dessous du seuil inférieur. Le vidage forcé affecte la baie entière ainsi que toutes les charges de travail traitées par la baie. Il entraîne une augmentation considérable du temps de réponse de l’hôte jusqu’à ce que le nombre de pages non synchronisées passe en-deçà du seuil inférieur. Le processeur de stockage donne priorité à l’écriture de données non synchronisées sur le disque, plutôt qu’à l’allocation de nouvelles pages pour les E/S entrantes de l’hôte. L’idée de la fonctionnalité des seuils inférieur et supérieur est venue du besoin d’un mécanisme qui permettrait d’éviter le vidage forcé. Plus le seuil supérieur est bas, plus le tampon réservé dans le cache est grand et moins il y a de chance qu’un vidage forcé ne se produise. Seuils dynamiques Le cache multicœur change le modèle de nettoyage du cache. Aucun seuil de pages de cache non synchronisées n’est prédéfini. Plutôt que de garder uniquement une trace des pages de cache non synchronisées, le cache multicœur surveille également la LBA correspondant à la référence de ces pages, ainsi que la demande des hôtes vis à vis du cache multicœur et des groupes RAID sousjacents. Le système évalue constamment l’efficacité du cache pour des charges de travail données. La mise en mémoire tampon des E/S d’écriture dans le cache est efficace pour les brefs pics d’activité, mais s’avère contreproductive pour les charges de travail ayant tendance à occuper la totalité de l’espace du cache. Comme nous l’avons indiqué plus haut, le vidage excessif n’améliore pas les performances ; au contraire, elle affaiblit toutes les charges de travail du système. Le cache multicœur mesure le taux d’E/S entrantes et surveille les groupes RAID sous-jacents pour prévoir son efficacité pour les charges de travail. Une charge de travail qui envoie des E/S d’écriture à un groupe RAID avec beaucoup de pages non synchronisées qui attendent d’être écrites sur le disque utilisera plus de ressources du cache. Le système évalue la différence entre le taux d’écritures entrantes et le taux de vidages de page de groupe RAID réussis. L’évaluation permet au cache multicœur de réagir de façon dynamique aux variations de charge de travail : les charges de travail susceptibles de surcharger le cache peuvent être sujettes à la régulation en écriture ; les brefs pics temporaires peuvent être entièrement mis en mémoire tampon par le cache ; les écritures aléatoires de petit bloc peuvent fusionner pour améliorer le reclassement du disque ; etc. Âge avant nettoyage L’âge avant nettoyage est le temps maximal pendant lequel une page de cache peut rester non synchronisée. L’âge de la page de cache correspond à la durée pendant laquelle la page est restée non synchronisée. La valeur d’âge avant nettoyage est l’une des statistiques les plus importantes du cache multicœur. Il s’agit d’une valeur dynamique générée par le cache multicœur à partir du groupe RAID. Il varie en fonction des éléments suivants : Livre blanc VNX MCx™ 15 le taux d’E/S entrantes adressées au groupe RAID ; le taux de vidages de page vers le groupe RAID réussis ; le nombre de pages de cache disponibles/libres ; l’efficacité de la fusion des charges de travail. Pour déterminer le temps adéquat pour vider une page de cache non synchronisée sur un lecteur, le cache multicœur compare l’âge de la page avec la valeur dynamique d’âge avant nettoyage. Si l’âge de la page de cache est inférieur à l’âge avant nettoyage, tout est normal. Si l’âge de la page de cache est égal à l’âge avant nettoyage, il est temps de procéder à un vidage. Si l’âge de la page de cache est supérieur à l’âge avant nettoyage, le cache multicœur peut augmenter les E/S en attente vers les disques ou activer la régulation en écriture. Pour une gestion efficace du cache et des performances système optimales, il est primordial de bien définir l’âge avant nettoyage. Le cache multicœur évite que les ressources soient surconsommées par une seule charge de travail s’adressant à un groupe RAID surchargé. Régulation en écriture La nouvelle fonctionnalité de régulation en écriture du cache multicœur donne la possibilité de régler automatiquement les E/S entrantes et sortantes par groupe RAID. La régulation en écriture donne au cache le temps nécessaire pour régler l’âge avant nettoyage pour un groupe RAID donné. Lorsque l’âge de la page de cache non synchronisée la moins récente est supérieur à l’âge avant nettoyage actuellement défini, la probabilité que le cache soit en surcharge à cause d’une charge de travail à fort taux d’opérations d’écriture augmente. Le cache multi-cœur donne au groupe RAID de destination le temps nécessaire pour traiter une augmentation de la charge de vidage en retardant les accusés de réception des E/S de l’hôte, permettant de ralentir les E/S d’écriture entrantes. Figure 8. Régulation en écriture du cache multicœur illustre ce processus. Figure 8. Régulation en écriture du cache multicœur La régulation est maintenue jusqu’à ce que le taux des données entrantes corresponde aux capacités du groupe RAID sous-jacent et la valeur d’âge avant nettoyage change pour correspondre à la charge de travail. Livre blanc VNX MCx™ 16 Les objectifs de la régulation en écriture sont les suivants : éviter que les ressources du système soient monopolisées par une seule charge de travail ; faire en sorte que les charges de travail à fort taux d’opérations d’écriture correspondent à la vitesse du lecteur ; o éviter que les charges de travail à fort taux d’opérations d’écriture consomment les pages de cache nécessaires pour d’autres charges de travail en connaissant la valeur d’âge avant nettoyage adéquate. La régulation en écriture ne dure pas indéfiniment. La régulation en écriture s’arrête lorsque le taux de vidage de page du groupe RAID est égal au taux d’opérations d’E/S entrantes, et que les pages non synchronisées associées restent dans le cache pour une durée égale ou inférieure au temps de régulation de la valeur d’âge avant nettoyage. Comme il est indiqué dans la section précédente, la valeur de l’âge avant nettoyage est sans cesse ajustée. L’introduction de petites corrections dans le cache multicœur induit des variations de la charge de travail. Si l’activité d’écriture de la charge de travail diminue, l’âge avant nettoyage peut augmenter. Si l’activité augmente, la régulation en écriture peut être utilisée pour diminuer la valeur. Écriture immédiate Le cache de lecture du cache multicœur est toujours activé. Le cache d’écriture du cache multicœur a deux modes de fonctionnement : cache d’écriture activé, cache d’écriture désactivé. Lorsque le cache d’écriture est désactivé, il fonctionne en mode d’Écriture immédiate. Les opérations d’E/S d’écriture ne sont pas confirmées avant d’être écrites sur le disque avec succès. Elles ne sont pas non plus mises en miroir sur le SP homologue. L’hôte reçoit la confirmation des opérations d’E/S seulement lorsque le vidage a été effectué avec succès Fusion des écritures Pour les disques à rotation, le cache multicœur présente des gains de performances conséquents lors de l’écriture des E/S sur les LBA adjacentes. C’est pourquoi le cache multicœur utilise la fusion des écritures, qui regroupe les pages voisines et contiguës à la LBA. Les pages sont organisées de manière séquentielle afin de faciliter l’écriture rapide du lecteur. Taille de page Le cache multicœur a deux tailles de page distinctes. La page physique, ou page de cache,a une taille de 8 Ko. La baie indique la taille de la page physique dans la CLI sous Cache page size : Livre blanc VNX MCx™ 17 C:>naviseccli -h VNX-SPA –User user –Password password –Scope 0 cache –sp -info SP Read Cache State: Enabled SP Write Cache State: Enabled Cache Page size (KB): 8 Read Hit Ratio: 67 Write Hit Ratio: 15 Dirty Cache Pages (MB): 4 SPA Read Cache State: Enabled SPB Read Cache State: Enabled SPA Write Cache State: Enabled SPB Write Cache State: Enabled SPS Test Day: Samedi SPS Test Time: 21:00 SPA Physical Memory Size (MB): 65536 SPB Physical Memory Size (MB): 65536 CLI 1. Affichage des informations du cache SP Le deuxième type de page est la page logique. Sa taille est de 64 Ko. Une page logique contient entre une et huit pages physiques. Le cache multicœur utilise des pages logiques dans ses algorithmes, tel qu’il est illustré dans Figure 9. Différence de taille d’une page logique et d’une page physique d’un cache multicœur. Figure 9. Différence de taille d’une page logique et d’une page physique d’un cache multicœur Lorsque l’on travaille avec Unisphere Analyzer, il est très important de connaître les différents types de page. Le cache multicœur garde une statistique indiquant le nombre de pages logiques allouées et le nombre de pages logiques non synchronisées. Généralement, seules certaines pages physiques restent non synchronisées dans un ensemble de pages logiques. Pour obtenir la statistique de page de cache non synchronisée du SP (affichée par Unisphere Analyzer), le cache multicœur établit une approximation à partir de la moyenne du chargement des E/S d’écriture. Chaque processeur de stockage effectue son propre calcul. C’est pourquoi le graphique affiché dans Analyzer peut afficher des nombres différents pour chaque SP. Mécanisme de préchargement Le préchargement est un mécanisme qui charge les données adjacentes dans le cache de manière proactive en fonction des données demandées par l’hôte. Il anticipe les futures demandes de lecture afin de réduire la latence. Les disques à rotation utilisent le concept de distance de recherche, qui correspond à la distance que la tête de lecture magnétique doit parcourir jusqu’à Livre blanc VNX MCx™ 18 la zone de disque dont il a besoin. Il est plus rapide de lire des données contiguës supplémentaires que de repositionner la tête de lecture sur une autre partie du disque. Si le taux de transfert d’un lecteur est de 80 Mo/s et que le temps d’accès moyen pour 8 Ko est de 3 ms, alors il est possible d’accéder à 240 Ko et de les transférer en 6 ms au lieu de 90 ms en 8 000 unités. Si les données préchargées sont utilisées, alors le transfert de données supplémentaires sur le lecteur d’origine est rentable jusqu’à ce que le temps de transfert dépasse le temps d’E/S total. Pour que le mécanisme de préchargement reste rentable, le cache multicœur prend en compte certains critères relatifs à la lecture : si un préchargement a été utile, si la page a été chargée suffisamment vite, o signe d’une attente des E/S du disque non expliquée, nombre moyen actuel d’échecs de lecture et de lectures réussies en déclin. Le cache multicœur consulte les échecs passés du cache avec la page précédente dans le cache. Cette analyse aide le cache multicœur à déterminer s’il aurait été bénéfique d’exécuter un mécanisme de préchargement pour la page précédente, tel qu’illustré dans Figure 10. Échec de lecture. Figure 10. Échec de lecture L’image montre un cas classique d’une situation dans laquelle un préchargement aurait été bénéfique. Même si l’hôte ne demande pas la totalité d’une page logique de données, l’aspect séquentiel de la demande de lecture de l’hôte suggère qu’il demandera le reste de la page plus tard. Les données que l’hôte a lu plus tôt (non illustré dans le graphique) peuvent indiquer si un préchargement plus agressif aurait été préférable. Le cache multicœur recherche une charge de travail séquentielle et essaie de l’identifier plus rapidement. Après avoir identifié la charge de travail de lecture séquentielle et utilisé les statistiques habituelles (tailles des E/S, longueur de file d’attente, etc.), le cache multicœur déclenche différentes vitesses de préchargement : lecture page entière, lecture page supplémentaire (E/S plus volumineuses), lecture en amont (chargement avant demande). Livre blanc VNX MCx™ 19 Lecture page entière Avec le mode de préchargement Lecture page entière, la totalité d’une page logique de 64 Ko est lue dans le cache même si seule une portion a été demandée par les E/S de l’hôte, tel qu’illustré dans Figure 11. Préchargement de page entière. Si un hôte demande des zones qui vont au-delà des limites d’une page logique, les deux pages sont chargées (non illustré). Figure 11. Préchargement de page entière Le cache multicœur utilise la moyenne des réussites en lecture en déclin pour calculer si le temps de réponse de lecture pourrait être amélioré par la lecture de la page entière. L’objectif est d’éviter les lectures de page entière sur les charges de travail de lecture aléatoire de petite1 taille. Lecture page supplémentaire Selon la charge de travail, le cache multicœur peut décider de marquer une page logique avec un déclencheur de préchargement Lecture page supplémentaire. Lorsque l’hôte lit une page avec un déclencheur lecture page supplémentaire, le cache multicœur en lira une autre. Figure 12. Préchargement Lecture page supplémentaire Le cache multicœur suit de près les données préchargées avec le déclencheur Lecture page supplémentaire. Au final, ces statistiques répondent aux questions suivantes : 1 L’hôte a-t-il utilisé la page préchargée ? Quelle était la taille de la demande de l’hôte ayant déclenché un échec de lecture ? Ici, petit signifie plus petit que la taille d’une page entière, soit 64 Ko. Livre blanc VNX MCx™ 20 L’historique des statistiques de la LUN est utilisé pour déterminer l’agressivité de la lecture page supplémentaire lors du prochain échec de lecture. Lecture en amont La lecture en amont va plus loin que la lecture page supplémentaire avec un mécanisme de préchargement plus agressif. La lecture en amont est déclenchée lorsque le cache multicœur s’attend, sur des bases raisonnables, à ce que l’hôte demande plus de données situées de la LUN. Figure 13. Préchargement lecture en amont Généralement, le mécanisme de préchargement lecture en amont se produit sur des E/S séquentielles plus importantes, celles d’une taille de 256 Ko par exemple. Notez que la taille des E/S de l’hôte ne doit pas nécessairement correspondre aux E/S du disque. Le cache multicœur charge 64 Ko de données mais il peut décider d’utiliser une autre taille d’E/S sur le disque. Stockage en chambre forte du cache multicœur Le nouveau VNX protège les pages non synchronisées du cache multicœur avec des batteries de secours. D’autres modèles utilisent d’autres configurations de batterie mais leur fonctionnalité est cohérente sur la ligne de produit VNX. Dans le cas de panne d’alimentation CA2, les batteries garderont les SP et le premier boîtier DAE (emplacement des disques du système) alimentés suffisamment longtemps pour pouvoir reclasser le cache non synchronisé dans la chambre forte. En cas de défaillance matérielle, le cache multicœur prend un des trois états suivants : reste Activé :entièrement fonctionnel, passe à Désactivé : toutes les écritures de données sont directement transférées sur le disque, passe à Vidage en rafale : le système s’arrête, toutes les pages non synchronisées doivent être reclassées vers la chambre forte. Reportez-vous à la section Traitement des pannes pour obtenir la liste complète des défaillances matérielles. État désactivé Si le cache multicœur détermine qu’il a besoin de passer à l’état Désactivé, il vide toutes les pages non synchronisées sur le disque. Les vidages sont agressifs mais 2 Le CA est utilisé comme un exemple générique. Le scénario sera le même en cas de panne de courant extérieure. Livre blanc VNX MCx™ 21 pas au détriment des E/S de l’hôte. Les règles de mise en file d’attente améliorée de priorité SCSI du RAID multicœur s’appliquent toujours (voir la section Priorité SCSI pour plus de détails). Une fois le vidage terminé, le cache multicœur reste à l’état désactivé jusqu’à correction de la condition de défaillance. En état désactivé, le cache multicœur fonctionne comme un cache de lecture, tandis que les demandes d’écriture sont traitées en mode Écriture immédiate. Vidage vers la chambre forte Si le cache multicœur détermine qu’un vidage vers la chambre forte est nécessaire, il entame immédiatement une mise en veille de 5 secondes qui donne aux hôtes le temps de terminer toutes les opérations d’E/S en cours (par exemple, une E/S de 256 Ko est envoyée de manière active). Si possible, cette E/S est mise en miroir sur le SP homologue. Entre temps, aucune nouvelle E/S n’est acceptée par le cache. Le cache multicœur envoie également un message pour arrêter tous les traitements en arrière-plan (comme les reconstructions de disque, remises à zéro de LUN et de disque, vérifications en arrière-plan, fonction Sniff Verify, etc.). Ensuite, le cache multicœur réalise un vidage de toutes les pages non synchronisées vers la chambre forte. Une fois le vidage terminé, le SP poursuit son arrêt normal. Lorsque le cache multicœur commence son vidage vers la chambre forte, les LED « Ne pas retirer » sur les deux SP s’allument, indiquant visuellement que le SP ne peut pas être retiré. Les LED « Ne pas retirer » s’éteignent lorsque le vidage vers la chambre forte est terminé. Suite à un vidage vers la chambre forte, un redémarrage complet du système est nécessaire pour restaurer la baie. Alimentation CA sans panne La nouvelle plate-forme VNX introduit un délai de récupération de 15 secondes, durant lequel la baie utilise ses batteries intégrées. Aucune coupure d’alimentation n’est signalée et le cache multicœur n’entame pas un vidage vers la chambre forte. Cette fonctionnalité est particulièrement utile durant la transition d’une alimentation par le réseau électrique vers une alimentation par générateur qui occasionne parfois un tressautement électrique. Exemple de synthèse du cache multicœur Pour résumer les fonctionnalités du cache multicœur, une simple expérience a été réalisée avec les deux baies : baie VNX7600, exécutant VNX OE 33 (version beta 687) baie VNX5500, exécutant VNX OE 32 (correctif 201) La même charge de travail a été exécutée sur des disques de même taille. Reportez-vous à la description de la charge de travail et aux notes de configuration dans Annexe B : Unisphere Analyzer. Livre blanc VNX MCx™ 22 Pages de cache non synchronisées Figure 14. Pages de cache non synchronisées compare 3 les statistiques des pages de cache non synchronisées FLARE et MCx. Les différences suivantes sont à noter : Le cache FLARE a rapidement atteint son maximum et a entamé un vidage forcé. Le cache multicœur s’est également rempli très vite mais n’a pas laissé cette charge de travail occuper 100 % du cache. o Aucun vidage forcé n’a été réalisé. o La régulation en écriture a contrôlé les pages non synchronisées, jusqu’à ce que la baie connaisse la bonne valeur de l’âge avant nettoyage. Figure 14. Pages de cache non synchronisées Avant que les pages non synchronisées n’utilisent la totalité de l’espace, le cache multicœur a commencé à réguler la charge de travail, réduisant le nombre de pages de cache non synchronisées. La nouvelle baie VNX utilisait les deux processeurs de stockage (actif/actif) et pas uniquement un seul SP comme avec le système FLARE (actif/actif asymétrique). Les processeurs de stockage de la nouvelle baie VNX signalent les pages non synchronisées séparément. De plus, le nombre de pages non synchronisées est une estimation. À tout moment, le nombre de pages non synchronisées doit être le même sur les deux SP. Les éventuelles variations sont dues au fait que les deux calculs sont de simples estimations. Lorsque le cache multicœur en a suffisamment appris sur la charge de travail, la quantité de pages non synchronisées s’est stabilisé à environ 25 %. Au même moment, le cache multicœur a cessé la régulation. D’autres charges de travail, tailles de groupe RAID ou tailles de LUN se seraient stabilisées à un autre niveau, 25 % n’est pas une référence. 3 Le nouveau Unisphere Analyzer VNX n’affiche pas les pages de cache non synchronisées en pourcentage de la totalité du cache. Le cache multicœur affiche le nombre de Mo utilisé, mais dans ce document, les données seront indiquées sous forme de pourcentage. Reportez-vous au vrais graphiques d’Analyser dans Annexe B : Unisphere Analyzer. Livre blanc VNX MCx™ 23 Débit de la LUN Examinons les E/S par seconde. Comme il est illustré dans Figure 15. Comparaison du débit, MCx est plus performant que FLARE. Pour faciliter la comparaison, les deux graphiques ont la même échelle en ordonnées. Toutefois, le débit initial de la LUN MCx était de 27 000 E/S par seconde ; et ce car toutes les écritures entrantes ont accédé au cache de la DRAM. Figure 15. Comparaison du débit FLARE a également connu un bref instant où toutes les écritures entrantes ont accédé à la DRAM, mais il existait une différence de taille du cache d’écriture disponible significative entre les deux systèmes. Malheureusement, le débit élevé de FLARE a été trop bref (pour ce test, la période définie était de 60 secondes) et Analyzer ne l’a pas répercuté. Pour pouvoir comparer les deux tests, nous avons choisi la LUN 100 Go pour exclure la différence de taille de DRAM physique entre les deux baies. 4 La différence de débit moyen est considérable, même si l’on ignore le pic initial. MCx présente une moyenne d’environ 900 E/S par seconde, tandis que la moyenne de FLARE est d’environ 513 E/S par seconde ; ce qui représente une amélioration de 150 %. Notez que les disques utilisés pour ce test étaient identiques : disques SAS 300 Go 10 000 tr/min. 4 Les disques ont des niveaux de microprogrammes différents. VNX OE version 33 utilise un microprogramme plus récent que les disques pris en charge par VNX OE version 32 et antérieur. Livre blanc VNX MCx™ 24 Actif/actif symétrique Un avantage majeur de MCx est la prise en charge de la technologie Actif/actif symétrique, qui permet aux hôtes d’accéder aux LUN en utilisant les deux processeurs de stockage simultanément. Avec l’accès actif/actif symétrique, le VNX délaisse graduellement le modèle de propriété de la LUN et ses performances fondamentalement asymétriques. Toutes les baies VNX (y compris les baies CLARiiON exécutant FLARE version 26 et ultérieures) prennent en charge l’accès Actif/actif asymétrique, communément appelé à tort « ALUA ». Asymmetric LUN Access ou ALUA est une interface SCSI [2] qui permet une description des chemins Optimisés et Non optimisés. Le mot « asymétrique » dans le terme ALUA prête à confusion. Le mode ALUA est simplement le mécanisme que le protocole SCSI utilise pour indiquer quels chemins utiliser. L’accès actif/actif symétrique utilise ALUA pour indiquer que tous les chemins sont optimisés. L’accès actif/actif asymétrique utilise ALUA pour indiquer que certains chemins sont optimisés et d’autres non. MCx prend en charge l’accès actif/actif symétrique ainsi que l’accès actif/actif asymétrique. Le mode actif/actif symétrique est pris en charge pour les LUN classiques. Une LUN classique est une LUN qui n’est pas créée dans un pool. Remarque : dans ce document, nous utiliserons le terme « Actif/actif » pour faire référence à Actif/actif symétrique et le terme « Actif/actif asymétrique » pour faire référence aux autres accès basés sur ALUA. Actuellement, le nouveau VNX ne prend pas en charge l’accès actif/actif pour les LUN de pool (thick et thin). Par défaut, ils sont en mode actif/actif asymétrique. MCx prend en charge l’accès actif/actif pour les LUN de pool privées. Le mode actif/actif étant basé sur ALUA, il utilise le même mode de basculement sur incident 4 qui est défini au niveau de l’initiateur durant l’enregistrement de l’initiateur, tel qu’il est illustré dans Figure 16. Mode de basculement sur incident Actif/actif. Figure 16. Mode de basculement sur incident Actif/actif Actif/actif et logiciel de multipathing L’hôte client et le logiciel de multipathing de son SAN doivent reconnaître si le mode actif/actif symétrique ou actif/actif asymétrique est utilisé. EMC Power Livre blanc VNX MCx™ 25 Path 5.7 et versions ultérieures prennent en charge l’accès actif/actif avec VNX. Reportez-vous aux Figure 17. EMC Power Path et Actif/actif asymétrique et Figure 18. EMC Power Path et Actif/actif symétrique pour voir comment Power Path 5.7 présente les deux cas. Figure 17. EMC Power Path et Actif/actif asymétrique Figure 18. EMC Power Path et Actif/actif symétrique Notez que l’ordre des champs dans les figures ci-dessus a été réorganisé par rapport à l’affichage par défaut. Dans l’affichage par défaut, le champ « ALUA state » (état ALUA) est le champ le plus à droite dans la console. Power Path reconnaît l’accès actif/actif par périphérique. Ainsi, le même hôte peut disposer d’une LUN classique et d’une LUN de pool. C:\>powermt display alua dev=all Pseudo name=harddisk?? VNX ID=FNM00123456789 [Win2012] Logical device ID=60060160098032002A012AC7E0F3E211 [] state=dead; policy=CLAROpt; queued-IOs=0 Owner: default=SP A, current=SP A Array failover mode: 4 ====================================================================== - Host -- Stor ------------ I/O Path ----------- - Stats ### I/O Paths Interf. ALUA State Mode State Errors ====================================================================== 5 c5t5d1 SP A8 Active/optimized active active 0 4 c4t5d1 SP B8 Active/non-optimized active active 0 Pseudo name=harddisk?? VNX ID=FNM00123456789 [Win2012] Logical device ID=60060160098032002C012AC7E0F3E211 [] state=dead; policy=CLAROpt; queued-IOs=0 Owner: default=SP B, current=SP B Array failover mode: 4 ====================================================================== - Host -- Stor ------------ I/O Path ----------- - Stats ### I/O Paths Interf. ALUA State Mode State Errors ====================================================================== 5 c4t4d0 SP A2 Active/optimized active active 0 4 c4t4d0 SP B2 Active/optimized active active 0 CLI 2. Affichage de l’état ALUA dans Power Path Livre blanc VNX MCx™ 26 Les LUN classiques prennent en charge le mode Actif/actif, à moins qu’ils utilisent des services de données. Remarque : le séparateur RecoverPoint prend en charge le mode Actif/actif. Lorsqu’un snapshot d’une LUN classique est créé, la baie VNX fait immédiatement passer les groupes du port cible SCSI pour cette LUN au mode Actif/actif asymétrique. D’autres opérations comme le clonage ou l’utilisation de MirrorView auront le même effet. Avec EMC Power Path 5.7 et versions ultérieures, le changement ne nécessite pas de nouvelle analyse du bus SCSI5, comme on peut l’observer dans Figure 19. Passage du mode Actif/actif au mode Actif/actif asymétrique. Figure 19. Passage du mode Actif/actif au mode Actif/actif asymétrique En raison de la compatibilité en amont du mode Actif/actif asymétrique, toutes les LUN classiques gardent leur attribut propriétaire du SP par défaut. L’attribut est pertinent uniquement si une LUN classique utilise l’un des services de données avancés (comme SnapView) ; dans quel cas, la baie doit passer au mode Actif/actif asymétrique. Service de verrouillage Le mode Actif/actif a été rendu possible grâce à l’introduction d’une technologie de verrouillage pour les accès en lecture et en écriture des LUN. Les SP communiquent entre eux grâce au service de verrouillage des bandes avec l’interface du gestionnaire de la communication(CMI). Le nouveau matériel VNX dispose d’un bus PCI Gen3 qui connecte les SP et sur lequel fonctionne la CMI entre les deux SP. Figure 20. Service de verrouillage des bandes Un SP doit demander un verrouillage exclusif pour une plage LBA sur une LUN avant de procéder à l’écriture à partir d’un service de verrouillage. Les SP 5 Veuillez consulter EMC E-LAB Interoperability Navigator [3] pour la compatibilité du mode Actif/actif avec d’autres solutions logicielles de multipathing, telles que Windows MPIO ou Linux MPIO. Livre blanc VNX MCx™ 27 établissent donc une communication via le bus de la CMI pour le service de verrouillage. Une fois le verrou obtenu, le SP procède à l’écriture. De la même manière, un verrou de lecture partagé peut être retirer pour plusieurs lectures. Le SP doit savoir s’il faut lire à partir du disque ou à partir du cache d’un SP homologue. Il se peut que les données présentes sur le SP homologue soient plus récentes que celles du disque si les pages de cache non synchronisées n’ont pas encore été transférées du SP homologue vers le disque. Une fois les opérations d’E/S terminées, le verrou est retiré. Livre blanc VNX MCx™ 28 FAST Cache multicœur FAST Cache multicœur (ou simplement FAST Cache) identifie régulièrement les blocs atteints et les copie à partir des disques à rotation vers les disques Flash. Les données sont copiées dans FAST Cache lorsqu’elles ont été atteintes plusieurs fois. Tout comme avec le cache multicœur, les données sont vidées du cache lorsqu’elles ne sont plus utilisées aussi souvent que les autres données, selon l’algorithme d’ancienneté. FAST Cache multicœur fait partie de la famille MCx et est conçu pour : s’adapter au nombre de cœurs de CPU disponibles ; éviter le trafic inter-cœurs ; prendre en charge le modèle d’accès Actif/actif symétrique. Conception fonctionnelle FAST Cache multicœur fonctionne avec les LUN classiques et les LUN de pool. Pour plus d’informations à propos de la structures du pool VNX, consultez le livre blanc EMC FAST VP [8]. Le mappage mémoire(un composant de FAST Cache) maintient l’état des pages FAST Cache et leur contenu. Il s’agit d’une carte des bits qui coordonne les adresses physiques pour les disques de données et les fragments FAST Cache correspondants. Le mappage mémoire est présent en deux endroits : le cache multicœur et, à des fins de persistance, sur les disques Flash utilisés avec FAST Cache. Préparation initiale de FAST Cache multicœur La première implémentation de FLARE FAST Cache a été introduite dans la version 30 de Block. Le temps de préparation pour FAST Cache nécessite d’accéder trois fois à un bloc 64 Ko avant qu’il soit admissible pour la copie sur le média Flash, tel qu’il est illustré dans Figure 21. Promotion vers FLARE FAST Cache. Figure 21. Promotion vers FLARE FAST Cache Le temps de préparation dépend entièrement de l’intensité des E/S et de la taille de la zone de travail. La zone de travail est la plage d’adresses LBA sur la LUN qui va être sollicitée par une charge de travail. Par exemple, la lecture/écriture sur un Livre blanc VNX MCx™ 29 fichier unique dans une petite base de données MS Access aura une zone de travail réduite. L’accès à la totalité d’une LUN de 2 To correspond à une zone de travail importante. Plus la zone de travail est importante, plus les chances d’accéder au même bloc 64 Ko plusieurs fois durant une charge de travail aléatoire seront faibles. FAST Cache multicœur exploite le même modèle de promotion à 3 accès, illustré dans Figure 22. Préparation initiale de FAST Cache multicœur. La différence entre FLARE et MCx réside dans le placement de FAST Cache multicœur dans l’ordre du stack du système. Notez que FAST Cache multicœur est situé sous le cache multicœur, tandis que FLARE FAST Cache était situé au-dessus de FLARE Cache. Avec MCx, les frais supplémentaires pour passer de FLARE FAST Cache à FLARE Cache ont été supprimés. Figure 22. Préparation initiale de FAST Cache multicœur Gestion des pages FAST Cache multicœur fonctionne avec une taille de page de 64 Ko. Lorsqu’une page est copiée pour la première fois sur FAST Cache, elle est marquée comme « propre ». Si elle est modifiée par une E/S d’écriture entrante, elle devient « non synchronisée ». Les pages non synchronisées sont copiées de nouveau sur le disque de données et redeviennent propres. La copie vers le disque est un processus asynchrone et se produit quelques temps après la confirmation de l’hôte. Lorsque c’est nécessaire, les pages propres les moins récemment utilisées sont remplacées par une nouvelle promotion FAST Cache à partir de toute LUN équipée de FAST Cache. Le nettoyeur proactif est une amélioration de FAST qui copie les pages non synchronisées vers leurs disques de données respectifs et les nettoie dans FAST Cache. Le processus se produit lorsque l’activité de FAST Cache est relativement basse, tel qu’il est illustré dans Figure 23. Nettoyeur proactif de FAST Cache. Si les taux de promotion de nouvelle page et d’activité d’E/S de FAST Cache sont élevés, le nettoyeur a moins de chance de fonctionner. Par conséquent, le nombre de pages non synchronisées augmente ou stagne. Si l’activité est basse, le nettoyeur fonctionne plus souvent, réduisant progressivement le nombre de pages de données non synchronisées dans FAST Cache. Le nettoyeur proactif utilise l’algorithme d’ancienneté pour sélectionner les pages non synchronisées à nettoyer. Tout comme le cache multicœur ; FAST Cache Livre blanc VNX MCx™ 30 multicœur ne supprime pas le contenu de la page après un vidage : une page propre peut être réutilisée par une autre copie. Figure 23. Nettoyeur proactif de FAST Cache Le maintien d’un faible nombre de pages non synchronisées est bénéfique à FAST Cache. Si la baie de stockage reçoit une nouvelle charge de travail, FAST Cache peut alors promouvoir les données plus rapidement puisqu’il n’a pas besoin de vider les pages non synchronisées vers les disques de données avant de libérer les anciennes pages à réutiliser. Lorsque FAST Cache identifie que de nouvelles promotions requièrent de l’espace, il recherche d’abord des pages libres ou propres. S’il n’en trouve aucune, FAST Cache sélectionne le bon montant de pages non synchronisées avec l’algorithme d’ancienneté, les copie sur les disques de données (opération de vidage) avant de les réutiliser pour de nouvelles promotions, tel qu’illustré dans Figure 24. Nettoyage avant copie. Figure 24. Nettoyage avant copie Nombre minimal de pages FAST Cache multicœur empêche chaque LUN d’utiliser toutes les pages disponibles au détriment des autres LUN. On utilise la mesure nombre minimal de pages pour garantir que les LUN se partagent équitablement l’espace de FAST Cache. Livre blanc VNX MCx™ 31 Le minimum est calculé en partageant équitablement 50 % de la totalité des pages de FAST Cache multicœur utilisées par toutes les LUN classiques ou privées du système. Tous les LUN peuvent disposer librement des 50 % restants. Si une LUN n’utilise pas le nombre minimal de pages, les autres LUN peuvent disposer librement des pages restantes. Le nombre minimal est ensuite ajusté pour être inférieur ou égal à la moitié de la taille de la LUN. Il s’agit d’un nombre dynamique qui est ajusté chaque fois qu’une LUN est liée ou détruite. Lorsque FAST Cache est entièrement utilisé, ce qui est prévu pour un cache fonctionnant correctement, toute nouvelle promotion nécessite une page propre ou libre. FAST Cache choisit les pages afin que chaque LUN conserve son nombre minimal de pages pour ses données les plus utilisées. Imaginez l’exemple illustré par la Figure 25. Nombre minimal de pages de FAST Cache multicœur : FAST Cache a huit pages au total et le système comporte deux LUN. Le nombre minimal de pages de chaque LUN est défini sur 2 (la moitié des 8 pages fait 4 pages, divisées par deux LUN, qui en fait 2). Les promotions de la LUN A occupent six pages de FAST Cache, laissant deux pages disponibles. Quatre des six pages de LUN A sont très utilisées. Les deux autres le sont moins. Figure 25. Nombre minimal de pages de FAST Cache multicœur Ensuite FAST Cache commence à promouvoir les données de la LUN B. D’abord, les deux blocs de données de la LUN B obtiennent les deux pages disponibles. Une troisième promotion de la LUN B contraint FAST Cache à réaliser un vidage de la page la moins récemment utilisée sur le pool flottant vers la LUN A et à réutiliser la page pour les données de la LUN B. Si d’autres données sont promues depuis la LUN B, elles occuperont jusqu’à trois pages supplémentaires sur le pool flottant, garantissant ainsi à la LUN A son nombre minimal de pages. Si deux LUN étaient ajoutées au système, le nombre minimal de pages passerait à une page par LUN. Livre blanc VNX MCx™ 32 Écritures sur FAST Cache Une des améliorations de taille de cette version est la légère réorganisation du stack d’E/S : le mappage mémoire de FAST Cache est placé sous le cache multicœur, plutôt qu’au-dessus du cache dans FLARE, tel qu’illustré par la Figure 26. Comparaison des caches d’écriture FLARE et MCx. L’avantage est que MCx est plus rapide pour confirmer une écriture de l’hôte que la précédente implémentation de FAST Cache. Figure 26. Comparaison des caches d’écriture FLARE et MCx Avec FLARE, les E/S d’écriture (1) sont d’abord vérifiées dans le mappage mémoire FAST Cache (2) puis elles arrivent dans le cache (3). L’écriture est confirmée (4). Lorsque le cache est prêt à vider la page, il envoie les données soit à FAST Cache (5a) si le mappage mémoire a un pointeur FAST Cache, soit au disque de données (5b) s’il n’y a pas d’enregistrement FAST Cache. Avec MCx, les E/S d’écriture (1) arrivent d’abord dans le cache multicœur (2). Une confirmation est immédiatement envoyée à l’hôte (3). Lorsque le cache multicœur est prêt à copier les données sur les disques, il envoie la page à FAST Cache, qui consultera le mappage mémoire (4), et selon que les données appartiennent à FAST Cache ou non les envoie à l’emplacement approprié : FAST Cache (5a) ou disques de données (5b). MCx confirme l’écriture des E/S plus rapidement, il a un cache multicœur plus important et les données restent plus longtemps dans la RAM. Ces avantages combinés améliorent les performances globales du système par rapport à une implémentation basée sur FLARE. Si la fonction d’écriture du cache multicœur est désactivée, la confirmation d’écriture entrante est retardée jusqu’à ce que l’E/S soit sauvegardée sur le disque Flash de FAST Cache multicœur ou sur le disque de données. Lectures FAST Cache Les opérations de lecture ont également changé avec MCx. Toutefois, l’effet global de ces modifications est moins évident pour les hôtes. Avec le nouveau VNX, le nombre des étapes pour une E/S de lecture reste le même qu’avec le VNX, tel qu’il est illustré dans Figure 27. Comparaison des caches de lecture FLARE et MCx. Livre blanc VNX MCx™ 33 Dans un VNX exécutant FLARE, l’E/S de lecture (1) est d’abord recherchée sur le mappage mémoire de FAST Cache (2). S’il existe un pointeur FAST Cache, les données sont lues depuis FAST Cache (3a), qui lit la ou les pages depuis les disques FAST Cache (4a). Si les données n’ont pas d’enregistrement dans le mappage mémoire de FAST Cache, la demande de lecture passe au cache (3b), qui y répond à partir des données déjà dans le cache s’il y a un succès de lecture ou à partir du disque de données (4b) s’il y a un échec de lecture. Les données sont chargées sur le cache et l’hôte reçoit une réponse (5). Avec le nouveau VNX exécutant le package MCx, l’E/S de lecture (1) arrive d’abord dans le cache multicœur (2). En cas de succès de lecture, une réponse est immédiatement envoyée à l’hôte. En cas d’échec de lecture, le mappage mémoire de FAST Cache sera consulté (3). S’il existe un enregistrement FAST Cache, les données seront lues depuis le disques FAST Cache (4a). Dans le cas contraire, elles seront lues depuis le disque de données (4b). Les données sont chargées sur le cache multicœur et une réponse est envoyée à l’hôte (5). Figure 27. Comparaison des caches de lecture FLARE et MCx Interactions avec le cache multicœur FAST Cache multicœur et le cache multicœur sont étroitement intégrés l’un dans l’autre. Les deux pilotes servent des fonctions spécifiques et se complètent l’un l’autre. Le cache multicœur protège FAST Cache multicœur contre les modèles d’accès à haute fréquence : la DRAM est plus rapide que le stockage Flash et convient donc mieux aux accès haute fréquence. Le cache multicœur a des optimisations natives pour les E/S séquentielles de petit bloc : préchargement, fusion, régulation en écriture, etc. FAST Cache multicœur bénéficie directement de cette intelligence pour se concentrer sur sa propre charge de travail idéale : E/S aléatoire. Ces deux fonctionnalités (Cache et FAST Cache) ont leurs propres points forts et s’aident mutuellement pour traiter les E/S correspondantes, améliorant ainsi les performances globales du système et simplifiant la gestion. Options de configuration de FAST Cache multicœur Les nouvelles baies de stockage de la gamme VNX disposent de FAST Cache multicœur d’une valeur maximale de 4,2 To (modèles VNX7600 et VNX8000), soit Livre blanc VNX MCx™ 34 deux fois plus que le modèle précédent VNX7500. MCx FAST Cache ne prend en charge que les paires RAID1 (mises en miroir). FAST Cache multicœur doit être configuré avec un nombre équivalent de disques. FAST Cache forme les paires RAID1 à partir du nombre de disques disponibles. Livre blanc VNX MCx™ 35 Le tableau ci-dessous décrit les capacités maximales de FAST Cache : Modèle Capacité maximale de FAST Cache (arrondie) Nombre* de disques Flash** 100/200 Go VNX8000 Disques 100 Go : 2 100 Go De 2 à 42 Disques 200 Go : 4 200 Go VNX7600 Disques 100 Go : 2 100 Go De 2 à 42 Disques 200 Go : 4 200 Go VNX5800 Disques 100 Go : 1 500 Go De 2 à 30 Disques 200 Go : 3 000 Go VNX5600 Disques 100 Go : 1 000 Go De 2 à 20 Disques 200 Go : 2 000 Go VNX5400 Disques 100 Go : 500 Go De 2 à 10 Disques 200 Go : 1 000 Go VNX5200 Disques 100 Go : 300 Go De 2 à 6 Disques 200 Go : 600 Go ** Utilisez un nombre équivalent de disques * N’utilisez pas des disques de tailles différentes Livre blanc VNX MCx™ 36 RAID multicœur RAID multicœur est le composant MCx qui définit, gère, crée et maintient la protection RAID de la gamme VNX. Il remplace le moteur FLARE RAID. Multicore RAID s’adapte à plusieurs cœurs de CPU. Plus le processeur de stockage physique dispose de cœurs, plus le moteur RAID dispose de puissance de traitement. Les opérations de RAID MCx ne se limitent pas au CPU0. RAID multicœur présente des améliorations considérables, telles que le remplacement permanent, la mobilité des disques, les règles de disques de secours et une plus grande longévité de RAID. Ces améliorations seront abordées dans les sections suivantes. Remplacement permanent Le remplacement ou remplacement par un disque de secours est le processus de reconstruction des données d’un disque défaillant sur un disque compatible sélectionné par le système. Le RAID multicœur autorise le remplacement permanent des disques défaillants par des disques de secours. Lorsqu’un disque tombe en panne, RAID multicœur le remplace par un disque non lié adapté. Ce nouveau disque fait alors partie du groupe RAID. Lorsque le disque défaillant est remplacé, le nouveau disque devient simplement non lié et disponible pour un futur remplacement. Dans un cas similaire, FLARE aurait égalisé le disque de secours avec un disque de remplacement, ce qui signifie qu’il aurait recopié les données du disque de secours sur le nouveau disque. L’équalisation est nécessaire pour FLARE car elle permet de garder la structure du groupe RAID liée aux nombres de slots de disque. Lorsqu’un disque de secours est appelé, un nouveau slot temporaire est introduit dans la structure RAID. RAID multicœur révolutionne le concept d’identification des disques. Au lieu d’utiliser l’emplacement physique comme identifiant du disque (comme FLARE), chaque disque est défini comme un disque virtuel et possède son propre numéro de série. Comme il est illustré dans Figure 28. Remplacement permanent, un disque appartenant à un groupe RAID donné (rouge, par exemple) est tombé en panne (ou est remplacé par un mécanisme de copie proactive) et va être remplacé par un disque de secours. Le disque de remplacement devient alors membre du groupe RAID et le moteur RAID multicœur reconstruit le disque. Après la reconstruction, le groupe RAID fonctionnera normalement. Figure 28. Remplacement permanent Livre blanc VNX MCx™ 37 Dans certains environnements, les clients peuvent encore avoir besoin de positions physiques fixes pour les groupes RAID. Par exemple, certains disques et/ou boîtiers DAE peuvent être liés pour des centres de coûts et applications spécifiques. C’est pourquoi un disque en panne devra être remplacé au même emplacement pour maintenir l’association. Le positionnement rigide peut aussi être dû à des réglementations gouvernementales exigeant un mappage matériel très spécifique. En cas de faille de sécurité potentielle, tous les disques contenant des données sensibles peuvent être rapidement et facilement retirés par n’importe qui selon un mappage du groupe RAID pré-établi apposé sur le panneau avant de la baie de stockage ou de l’armoire. Dans ces cas-là, la CLI6 peut encore initier une copie manuelle (aussi appelée Copie sur disque). La copie est très semblable à une opération d’équalisation mais doit être initiée de façon manuelle. La commande ci-dessous permet d’initier une opération de copie à partir du disque situé dans le slot 2_0_14 vers le disque situé dans le slot 2_0_8. C:>naviseccli -h VNX-SPA –User user –Password password –Scope 0 copytodisk 2_0_14 2_0_8 WARNING: The data from disk 2_0_14 will be copied to disk 2_0_8. This process cannot be aborted and may take a long time to complete. Do you wish to continue (y/n)? y CLI 3. Copie vers un disque donné Mobilité des disques La mobilité des disques, également désignée par l’expression « disques portables », permet aux utilisateurs de déplacer les disques du VNX au sein de la baie. La mobilité des disques est étroitement liée au remplacement permanent. La fonction RAID multicœur permet quant à elle de déplacer des disques et des boîtiers DAE entiers dans la même trame, depuis leur emplacement existant vers d’autres slots ou bus. Remarque : lorsqu’ils sont déplacés entre des baies VNX, les disques ne conservent pas leurs données. Chaque baie conserve la trace de ses propres disques. Tous les disques nouveaux et inconnus sont automatiquement formatés et remis à zéro. Les disques peuvent être déplacés vers n’importe quel slot de la baie, à condition d’être adaptés à l’espace disponible. Figure 29. Mobilité des disques illustre un groupe RAID rouge dont deux disques sont déplacés vers d’autres emplacements, voire vers un autre boîtier. 6 Unisphere permet d’initier une opération de copie sur le disque assez similaire mais sans l’option de choisir le disque de destination. Une fois démarré, Unisphere choisit un disque non lié adapté pour copier les données. L’algorithme décidant du disque est exactement le même que celui décidant du remplacement d’un disque en panne. Livre blanc VNX MCx™ 38 Figure 29. Mobilité des disques FLARE identifie les disques grâce à leur adresse physique, par exemple, Bus 1 Boîtier 0 Disque 11 ou en version abrégé 1_0_11. Lorsqu’un disque est déplacé de 1_0_11 à 2_1_13, FLARE ne reconnaît pas le déplacement, il remarque simplement qu’un disque de l’emplacement 1_0_11 a été retiré et qu’un nouveau disque a été détecté sur l’emplacement 2_1_13. Par conséquent, toutes les données se trouvant sur le disque 1_0_11 ne sont pas reconnues par FLARE dans 2_1_13. RAID multicœur mémorise les disques grâce à leur numéro de série et comprend rapidement lorsqu’un disque a été déplacé. RAID multicœur permet le déplacement des disques en ligne. Les données du groupe RAID restent disponibles après le retrait du disque Lorsqu’un disque devient indisponible (par exemple, en cas de panne, de retrait du slot, d’erreur de microprogramme, etc.), MCx entame un compte à rebours de 5 minutes. Après l’intervalle de 5 minutes, le remplacement du disque est invoqué. Pour plus d’informations, reportez-vous à la section Disques de secours. Le retrait d’un disque actif dégrade son groupe RAID. Si un groupe RAID est créé avec une protection N+1 et qu’un disque est retiré, la protection +1 n’est plus disponible lorsque le disque est retiré. Si un autre disque tombe en panne alors que le disque est retiré de la baie, le groupe RAID connaît un événement « Données indisponibles » et devient défaillant. Remarque : soyez vigilant lors du déplacement des disques dans la baie VNX. Une fois le disque réinséré dans la baie, le groupe RAID retourne à un état opérationnel et sain sans aucune perte de données. Recâblage du boîtier DAE La mobilité des disques RAID multicœur optimise la disponibilité des bus backend. Lors du recâblage du boîtier DAE, il est nécessaire de couper le courant mais avec la mobilité des disques, le recâblage peut se faire sans perte de données. Les utilisateurs peuvent simplement éteindre la baie de stockage, câbler les boîtiers DAE au besoin (généralement en utilisant plus de bus back-end, le spécialiste EMC à la manœuvre de cette procédure vous fera part de ses conseils et de son savoir-faire) et rallumer la baie. Dès le redémarrage, la baie localisera facilement les disques en sondant les numéros de série et en validant les membres du groupe RAID, puis il poursuivra les opérations. Certains clients aiment réorganiser la totalité de leurs pools ou plusieurs groupes RAID pour diverses raisons telles que l’ajout de boîtiers DAE et de bus back-end. Même s’il est possible de réorganiser l’ensemble des disques alors que la baie est allumée et en fonctionnement, il est plus sûr et rapide d’éteindre la baie lors de Livre blanc VNX MCx™ 39 réorganisations importantes. Au redémarrage, les nouveaux emplacements des disques sont notés et aucune autre reconfiguration n’est nécessaire. Disques de secours RAID multicœur change l’approche classique concernant les disques de secours VNX. En effet, il n’est pas nécessaire de définir des disques de secours sur la baie. En fait, avec MCx il n’est plus possible de définir des disques de secours. MCx remplace les disques en panne par des disques non liés compatibles7. Lors d’une panne de disque (sauf les disques système), RAID multicœur agira comme suit : Il attendra 5 minutes o Le délai donne une chance au disque en panne de se restaurer Une fois les 5 minutes écoulées, il recherchera un remplaçant adapté parmi les disques non liés de la baie Une fois le disque trouvé : o il ajoutera le nouveau disque au groupe RAID o il démarrera le processus de reconstruction du disque Le délai de 5 minutes évite d’inutiles reconstructions complètes de disque qui pourraient durer plusieurs jours. La nouvelle baie VNX résiste facilement aux erreurs humaines, lorsque le mauvais disque est retiré durant une procédure habituelle de remplacement de disque en panne. Si le disque est réinséré dans un délai de 5 minutes, la reconstruction sera évitée. Les conditions d’erreur légères récupérables peuvent désormais être réparées sans besoin d’invoquer une reconstruction complète du disque. Reconstruction de disque RAID multicœur reconstruit uniquement les sections utilisées des disques, une LUN à la fois, de haut en bas. Tout espace non utilisé n’est pas reconstruit, puisque rien n’y est à reconstruire. Par exemple, dans Figure 30. Reconstruction de disque, le groupe RAID possède deux LUN : 0 et 1. Donc, chaque disque d’un groupe RAID héberge une partie de chaque LUN. Après la reconstruction, la zone LUN0 du nouveau disque sera reconstruite en premier lieu, puis viendra le tour de la zone LUN1. Figure 30. Reconstruction de disque 7 Avec FLARE, il arrive qu’un disque en panne soit remplacé par un disque plus petit. Cela est possible uniquement lorsque le disque d’origine n’est pas entièrement utilisé, par exemple, son espace utilisé est assez petit pour être hébergé sur le disque plus petit. RAID multicœur ne prend pas en charge cette option. La taille du disque de secours est déterminé par les limites du groupe RAID. Livre blanc VNX MCx™ 40 Pour vérifier la progression (en pourcentage) de la reconstruction du disque 1_1_11à partir de la CLI, utilisez la commande suivante : C:>naviseccli -h VNX-SPA –User user –Password password –Scope 0 getdisk 1_1_11 -rb Bus 1 Enclosure 1 Prct Rebuilt: Disk 11 0: 10 1: 0 CLI 4. Progression de la reconstruction du disque L’exemple ci-dessus montre que la zone LUN0 vient d’entamer sa reconstruction (10 % terminé) et que la LUN1 attend son tour (0 % terminé). Le processus de reconstruction de la LUN1 commencera lorsque celui de la LUN0 sera terminé à 100 %. Si le second disque (par exemple, dans un groupe RAID6) tombe en panne, la statistique de progression de reconstruction (Prct rebuilt) de la LUN sera ajustée en fonction de l’espace de la LUN sur le second disque. L’espace combiné nécessaire à la reconstruction d’une LUN doublera (équivalent de deux disques), donc la progression de la reconstruction réduira de moitié. Unisphere affiche la progression de la reconstruction d’une LUN individuelle dans les propriétés de la LUN, comme illustré dans Figure 31. Progression de la reconstruction d’une LUN. Figure 31. Progression de la reconstruction d’une LUN Unisphere affiche également l’état du disque comme Rebuilding (En reconstruction). Accédez à System >Hardware >Disks et dans la moitié inférieure de la fenêtre, vous trouverez une liste de tous les disques présents dans la baie, tel qu’il est illustré dans Figure 32. Reconstruction du disque ci-dessous. Livre blanc VNX MCx™ 41 Figure 32. Reconstruction du disque Pour obtenir plus d’informations sur le processus, consultez les propriétés du disque (en faisant un clic droit sur le disque et en sélectionnant Properties (propriétés)). Lisez la statistiques « Copy to Disk % Complete » (progression de la copie sur le disque). Regardez la Figure 33. Propriétés du disque ci-dessous : Figure 33. Propriétés du disque Le calcul « Copy to Disk % Complete » concerne la volumétrie totale. L’illustration montre que 2 % de la volumétrie a été reconstruite, ce qui représente environ 55 Go d’espace pour un disque de 3 To (2 751 Go d’espace utilisable). La CLI indique la même information : C:>naviseccli -h VNX-SPA –User user –Password password –Scope 0 getdisk 1_1_11 –all <--- several lines abridged --- > Prct Copied: 2 CLI 5. Progression de la copie sur disque La progression de la LUN n’est pas calculée de la même manière. Le nombre « Percent rebuild » (progression de la reconstruction) pour la LUN est calculé du point de vue de la LUN. Le résultat getdisk obtenu avec la CLI a indiqué que la Livre blanc VNX MCx™ 42 LUN0 était reconstruite à 10 %, donc 55 Go correspondait à 10 % de la zone LUN0 à reconstruire sur le nouveau disque. Explication mathématique de la reconstruction Dans un système test, le disque 1_1_11 faisait partie d’un groupe RAID RAID6 4+2. Par conséquent, chaque LUN de ce groupe RAID était divisée sur quatre disques (deux8 disques avaient la parité). Les étapes suivantes décrivent le calcul complet (reportez-vous à Figure 30. Reconstruction de disque) : La reconstruction de 2 % du disque total correspond à 2 751 Go* 2 % = 55 Go. La LUN0 occupe environ 550 Go (10 % LUN0 * 55 Go) sur le disque 1_1_11. Le volume total de la LUN0 est de 4*550 Go = 2 200 Go (le nombre de disques de données dans le groupe RAID multiplié par la zone LUN0 sur un seul disque). Règles de remplacement RAID multicœur inclut également une modification de petite ampleur mais très utile aux règles de remplacement de VNX. Les règles de remplacement définissent l’ordre et la logique de recherche pour localiser le disque le mieux adapté pour remplacer un disque en panne. RAID multicœur y ajoute une règle qui préfère utiliser un disque du même boîtier à un autre situé dans un autre boîtier. Pour sélectionner un disque de remplacement adapté, la baie de stockage utilise la logique suivante illustrée dans Figure 34. Règles de remplacement : 1. Type : la baie recherche tous les disques disponibles du même type (SAS, FLASH, NL-SAS, etc.) que le disque en panne. 2. Bus : parmi les disques trouvés, la baie sélectionne les disques situés sur le même bus. 3. Taille : parmi les disques trouvés, elle sélectionne ensuite les disques d’une capacité de groupe RAID égale (ou supérieure). 4. Boîtier : enfin, le système vérifie si un des disques trouvés se situe dans le même boîtier que le disque en panne. S’il existe plusieurs disques répondant aux critères, la baie sélectionne l’un d’entre eux. Remarque : les critères de la logique décrite ci-dessus sont classés de la priorité la plus haute à la plus basse, le type de disque étant le critère le plus important. Cette logique est spécialement conçue pour sélectionner le disque de remplacement le plus proche du disque en panne. Par exemple, un disque de remplacement de même type et situé sur le même bus qu’un disque en panne sera toujours préféré à un disque situé sur un autre bus. 8 La vraie distribution est un peu plus compliquée pour RAID6 car la parité est aussi distribuée mais cette approche simplifiée suffit à illustrer nos propos Livre blanc VNX MCx™ 43 Figure 34. Règles de remplacement Comme il a été indiqué plus tôt, le remplacement commence après un délai de 5 minutes suivant la déconnexion d’un disque. La technologie de remplacement proactif, qui évacue les données hors du disque sur le point de tomber en panne, n’observe pas ce délai de 5 minutes. La capacité de l’administrateur du bus de copie d’utilisateur manuelle permettant d’entamer une copie manuelle vers un nouveau disque n’observe pas non plus ce délai. Disque de remplacement adapté Lors de la sélection d’un disque adapté, RAID multicœur n’utilise pas toujours la taille et le type du disque en panne. Il utilisera un disque qui convient mieux à la taille du groupe RAID d’origine. Par exemple, un disque utilisé dans le groupe RAID créé sur des disques SAS 300 Go tombe en panne. Le seul remplacement adapté présent est un disque SAS 900 Go, qui reconstruit les données et gaspille environ 600 Go de capacité utile. Lorsqu’un nouveau disque de 300 Go remplace le disque en panne, il devient non lié. Pour amener le nouveau disque de 300 Go dans le groupe RAID et libérer le disque de 900 Go sous-exploité, il peut être judicieux d’effectuer une copie vers le disque manuelle par le biais de la commande CLI. Sinon, si (à un moment donné) le disque de 900 Go tombe aussi en panne, RAID multicœur cherchera un disque de 300 Go adapté et pas un disque de 900 Go. Matrice de remplacement des disques Les baies de stockage de la gamme VNX prennent en charge beaucoup de types de disque différents pour répondre aux exigences de nos clients professionnels. Cette large sélection nécessite l’implémentation de nombreuses règles de compatibilité. Par exemple, il existe deux familles parmi les derniers disques Flash : les disques Flash SAS et VP Flash SAS. Même s’ils paraissent quasiment identiques, ils diffèrent beaucoup à un niveau de technologie sous-jacent. Ces deux types de disque ne peuvent pas se remplacer l’un l’autre. Toutefois, un disque SAS 3,5 pouces 600 Go 15 000 t/min peut servir de disque de secours pour un disque SAS 2,5 pouces 300 Go 10 000 t/min. Pour simplifier le choix et pour plus de commodité, reportez-vous à la matrice suivante : Livre blanc VNX MCx™ 44 Figure 35. Matrice de remplacement des disques Compatibilité des disques de groupes RAID et de pools Figure 35. Matrice de remplacement des disques affiche les groupes de disques organisés en ensembles de quatre groupes RAID. La compatibilité entre chaque ensemble est utilisée pour le remplacement et la création de groupe RAID. Avec le système VNX, les groupes RAID ne peuvent contenir des disques issus de différents ensembles. Par exemple, des disques SAS et NL SAS ne peuvent pas être utilisés dans le même groupe RAID. Il en va de même pour des disques VP Flash SAS et Flash SAS. Toutefois, les disques Flash SAS et Flash SATA sont compatibles à 100 % et peuvent composer un même groupe RAID. Pour les niveaux de pools, l’approche est différente. Les pools VNX prennent en charge jusqu’à trois niveaux [8] et chacun d’entre eux nécessite un ensemble de groupe RAID bien précis, à l’exception du niveau Performances extrêmes qui a besoin de deux ensembles. Bien qu’il soit impossible de configurer des disques VP Flash SAS dans le même groupe RAID que des disques Flash SAS/SATA, les groupes RAID privés créés à partir de chaque ensemble peuvent faire partie du niveau Performances extrêmes dans le même pool. Dans Unisphere, en présence de disques provenant d’ensembles Flash et VP Flash, la section Performances extrêmes de la création du pool contient deux listes déroulantes, une pour chaque ensemble : Livre blanc VNX MCx™ 45 Figure 36. Niveau Performances extrêmes Règle relative aux disques de secours RAID multicœur introduit un nouveau concept pour la baie de stockage VNX. Il s’agit de la capacité à prévenir l’administrateur concernant l’état de disques de remplacement utilisables dans le système. Pour cela, RAID multicœur dispose désormais de règles relatives aux disques de secours. Une règle relative aux disques de secours surveille un nombre de disques non liés (disques de remplacement potentiels) d’un certain type dans le système et envoie un avertissement lorsque ce nombre est bas. Il existe trois règles relatives aux disques de secours : Recommended (Recommandé) : 1 disque de secours pour 30 disques de chaque type. Custom (Personnalisé) : l’administrateur est autorisé à définir le ratio. No Hot Spares (Aucun disque de secours) : la surveillance exercée par la règle est désactivée. Remarque : la règle Aucun disque de secours n’empêche en rien le remplacement. Un disque en panne sera toujours remplacé, s’il existe un disque non lié adapté. Remarque : dans les cas où la règle Recommandé ne correspond pas aux bonnes pratiques d’un disque de secours pour 30 disques, utilisez la règle Personnalisé. RAID multicœur définit une règle pour chaque type et taille de disque pris en charge mais ne distingue pas les vitesses de disque ou les encombrements. Par exemple, RAID multicœur ne différencie pas un disque SAS 2,5 pouces 600 Go Livre blanc VNX MCx™ 46 avec une vitesse de 10 000 t/min d’un disque SAS 3,5 pouces 600 Go avec une vitesse de 15 000 t/min lors d’un remplacement. Ces deux disques sont considérés comme semblables et donc compatibles pour un remplacement. Les règles relatives aux disques de secours sont spécifiquement définies par le type et la volumétrie des disques. Par exemple, des disques SAS 300 Go et des disques SAS 600 Go ont des règles relatives aux disques de secours différentes, comme il est illustré dans Figure 37. Règle des disques de secours. La nouvelle baie de stockage VNX, représentée ci-dessous, compte 10 disques SAS 300 Go déjà utilisés. Le système n’affiche pourtant aucun avertissement, car la règle Aucun disque de secours est définie. Cependant, si l’un des disques SAS 300 Go tombe en panne, RAID multicœur le remplacera par son disque le plus adapté. Dans ce cas, il s’agira d’un des 40 disques SAS 600 Go non liés (reportez-vous à la rubrique Figure 35. Matrice de remplacement des disques pour une liste complète des disques compatibles). Figure 37. Règle des disques de secours Lorsque vous créez un pool de stockage composé de disques SAS de 600 Go (reportez-vous à la rubrique Figure 38. Création d’un pool de stockage), l’assistant Unisphere Create Storage Pool (Créer le pool de stockage) n’affiche que 38 disques disponibles, car si 40 disques non liés sont effectivement disponibles, 2 d’entre eux sont réservés comme disques de secours par la règle. Remarque : EMC recommande d’utiliser 35 disques pour un niveau de performances fonctionnel et non 38. Livre blanc VNX MCx™ 47 Figure 38. Création d’un pool de stockage Si un utilisateur passe à la sélection manuelle des disques, il pourra sélectionner les 40 disques. Cependant, une violation de la règle relative aux disques de secours surviendra et une alerte s’affichera, tel qu’il est illustré dans Figure 39. Violation d’une règle relative aux disques de secours. Figure 39. Violation d’une règle relative aux disques de secours Livre blanc VNX MCx™ 48 Dimensionnement de disque Tout comme FLARE, RAID multicœur formate les disques avant de les utiliser. Le formatage alloue de l’espace utile pour l’utilisateur et certaines métadonnées de disque virtuel. Si les disques sont placés dans un pool ou un groupe RAID; il est également possible qu’un peu de capacité soit réservé aux métadonnées RAID. Les LUN ont des métadonnées supplémentaires. Reportez-vous à la rubrique Figure 40. Carte du disque RAID multicœur). Figure 40. Carte du disque RAID multicœur Les tailles de disque brutes sont les mêmes pour les baies de la gamme VNX et ceux de la nouvelle gamme VNX. La charge supplémentaire de RAID (y compris celle liée aux métadonnées de disque virtuel) est plus petite dans RAID multicœur que dans FLARE. Figure 41. Comparaison de la surcharge MCX et FLARE La différence est minime mais elle existe. Par exemple, un groupe RAID5 4+1 MCx avec des disques SAS 2,5 pouces 600 Go dispose de 5,6 Go de capacité utile de plus qu’un groupe RAID FLARE équipé des mêmes disques. Ainsi, les données transférées des anciens systèmes VNX vers la nouvelle baie de stockage VNX tiendront dans des groupes RAID ou pools à la configuration semblable. Ce n’est pas le cas dans le sens inverse : les limites de l’espace de disque doivent être prises en compte lors de la planification d’une migration d’une nouvelle baie VNX vers des modèles plus anciens. On peut également parler de la compatibilité de disque entre les nouveaux systèmes VNX et leurs prédécesseurs. MCx ne reconnaît pas les disques qui utilisent les microprogrammes des anciens modèles VNX. Contactez un responsable de compte EMC local pour en savoir plus sur la compatibilité de disque. Avertissement : ne déplacez pas un disque d’une baie FLARE vers une nouvelle baie VNX. Le disque ne sera pas reconnu, le slot continuera à être marqué comme vide et le voyant de défaillance du disque s’allumera. Livre blanc VNX MCx™ 49 Reconstruction parallèle RAID6 RAID multicœur introduit une autre technologie : la reconstruction parallèle. Lorsqu’il manque deux membres à un groupe RAID6, ce dernier reconstruit les disques de secours en parallèle, contrairement à FLARE qui les reconstruit de façon séquentielle. Voici un exemple de processus de reconstruction parallèle, tel qu’illustré dans Figure 42. Reconstruction parallèle RAID6 : 1. Le premier disque de RAID6 tombe en panne. La baie entame un compte à rebours de 5 minutes. À la fin de ce dernier, un disque de secours adapté est trouvé et le processus de reconstruction commence. Le disque de secours est construit à partir du haut. 2. Une fois le disque de secours construit à 30 %, un second disque tombe en panne. La baie attend 5 minutes supplémentaires. Le premier disque de secours continue sa reconstruction et atteint les 50 %. 3. Au bout de 5 minutes, un disque de secours adapté est trouvé et le processus de reconstruction du second disque commence, dans ce cas au niveau du dernier bloc reconstruit sur le premier disque de secours, par exemple, en commençant par un repère à 50 %. La reconstruction des deux disques de secours se poursuit en parallèle. 4. Le premier disque de secours est terminé à 100 % et est désormais un membre RAID à part entière. Le second disque de secours recommence sa reconstruction depuis le début, jusqu’à ce qu’il atteigne le repère à 50 %, où a commencé la reconstruction. Figure 42. Reconstruction parallèle RAID6 Remise à zéro d’un disque MCx a changé la façon dont les baies VNX traitent les nouveaux disques. RAID multicœur remet toujours à zéro les disques nouveaux et inconnus insérés dans le système avant de les utiliser. Si un disque est déplacé entre des baies compatibles9, il est toujours remis à zéro en premier lieu. La remise à zéro d’un disque est une opération qui s’effectue en arrière-plan, elle peut toutefois nuire aux performances. La remise à zéro des données ne peut pas être désactivée. 9 Veuillez vérifier la compatibilité entre la baie et le disque avec EMC E-LAB Interoperability Navigator [3]. Livre blanc VNX MCx™ 50 Remarque : les performances des nouvelles baies peuvent sembler plus lentes en raison de la remise à zéro des disques, consultez les logs pour déterminer si une remise à zéro de disque est en cours. La commande CLI suivante montre les messages indiquant qu’une mise à zéro de disque est terminée : C:>naviseccli -h VNX-SPA –User user –Password password –Scope 0 getlog | find "0_1_7" 06/20/2013 XX:YY:ZZ N/A (71680108)Zeroing of disk 0_1_7 (obj 121) started 00 00 04 00 09 00 2c 00 d3 04 00 00 08 01 68 61 08 01 68 61 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 71 68 01 08 sep 06/21/2013 XX:YY:ZZ N/A (71680109)Zeroing of disk 0_1_7 (obj 121) finished 00 00 04 00 09 00 2c 00 d3 04 00 00 09 01 68 61 09 01 68 61 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 71 68 01 09 sep CLI 6. Affichage des entrées de log d’une remise à zéro de disque À la différence de FLARE, MCx permet l’utilisation des disques durant une remise à zéro. Ils peuvent être placés dans un pool, un groupe RAID. Des LUN peuvent y être liées et des données y être écrites. RAID multicœur garde des traces des zones du disque remises à zéro. Lorsqu’une E/S de l’hôte est demandée (lecture ou écriture), RAID multicœur commence par consulter la carte de remise à zéro. Figure 43. Remise à zéro d’un disque représente les zones déjà remises à zéro en vert foncé et les zones ayant besoin d’une remise à zéro en vert clair, orange clair et bleu clair. Si l’E/S de l’hôte s’adresse à une zone déjà remise à zéro, l’E/S est autorisée. Si l’E/S de l’hôte s’adresse à une zone pas encore remise à zéro, RAID multicœur remet d’abord cette zone à zéro, puis autorise l’E/S. Figure 43. Remise à zéro d’un disque Remarque : la technologie de remise à zéro de disque VNX n’est pas conforme aux régulations ou normes de suppression sécurisée. Utilisez d’autres moyens approuvés de nettoyage des données si la conformité est requise. Livre blanc VNX MCx™ 51 Remise à zéro de LUN Dans certaines instances, RAID multicœur remet à zéro les LUN. C’est le cas lorsqu’une nouvelle LUN chevauche une zone qui appartient à une LUN déjà non liée. L’illustration ci-dessus montre que le disque hébergeait deux LUN qui étaient déjà non liés. Lorsqu’une nouvelle LUN est liée, RAID multicœur la remet à zéro avec les mêmes règles qui s’appliquent pour la remise à zéro de disque : du haut vers le bas, remet à zéro tous les blocs, ne laisse pas les E/S de l’hôte atteindre un bloc non remis à zéro. Les remises à zéro de LUN et de disque sont exécutées par le même processus. Si la remise à zéro de disque est en cours et que la baie veut remettre la LUN à zéro, la demande est envoyée au même pilote qui continue avec la remise à niveau du disque. Le processus de remise à zéro de la LUN a connaissance des blocs remis à zéro préexistants. Si une nouvelle LUN est créée et qu’elle chevauche une LUN non liée plus ancienne (tel qu’il est illustré dans Figure 44. Remise à zéro de LUN), mais que les zones non liées ne sont pas utilisées et toujours à zéro, le processus de remise à zéro de la LUN fonctionne simplement plus rapidement. La baie n’a pas besoin de remettre à zéro les mêmes blocs deux fois. Figure 44. Remise à zéro de LUN Consignation des reconstructions Lorsqu’un disque VNX utilisé activement se déconnecte (par exemple, en cas de panne, de retrait du slot ou de non-réponse temporaire pour une autre raison), RAID multicœur active un mécanisme de protection RAID appelé Consignation des reconstructions. Le groupe RAID lui-même montre un état dégradé lorsqu’un des disques manque. Cela est vrai pour tous les types RAID redondants10. La consignation des reconstructions marque tous les blocs de données qui ont été mis à jour sur un membre RAID manquant. Le marquage est stocké en tant que carte de bloc faisant partie des métadonnées du groupe RAID. Les métadonnées RAID sont stockées dans les disques du groupe RAID. Imaginez les métadonnées RAID comme une petite LUN cachée dans la dernière rangée du groupe RAID. Figure 45. Consignation des reconstructions affiche une bande RAID entière en cours de construction dans le cache (y compris la parité). Toutefois, étant donné 10 Les types RAID redondants pris en charge par le système VNX sont : RAID6, RAID5, RAID3, RAID1 et RAID10. Livre blanc VNX MCx™ 52 que le groupe RAID est dégradé (il manque le membre 3), les données destinées au membre 3 sont supprimées du processus d’écriture de la bande entière vers les disques (communément appelé vidage du cache multicœur). Les métadonnées du groupe RAID (appelées log RAID dans le graphique) seront mises à jour avec un enregistrement des blocs du membre 3 qui auraient dû être mises à jour dans le cadre de l’écriture complète de bande. Figure 45. Consignation des reconstructions Pour une écriture partielle de bande, la logique reste la même. La parité est calculée à partir des informations de bande complète (les blocs manquants sont lus depuis les disques). Toutefois, comme il manque le membre 3, la parité ne sera pas valide après la reconnexion du disque. Par conséquent, le log est mis à jour dans l’emplacement des blocs de parité. Une fois le disque reconnecté, RAID multicœur reconstruit simplement les blocs marqués dans le log et éteint la consignation des reconstructions. La consignation des reconstructions est active tant que le groupe RAID est en mode dégradé. Si une baie n’invoque pas un disque de secours après un délai de 5 minutes (par exemple, lorsqu’aucun disque non lié compatible n’est présent dans le système), la consignation des reconstructions continue à fonctionner jusqu’à ce que le groupe RAID se déconnecte ou qu’un disque adapté soit trouvé. Le log est une carte des bits créée durant la création du groupe RAID dans la zone des métadonnées. Ce log définit la taille de la surcharge du groupe RAID. Par conséquent, il ne peut pas manquer d’espace. Le log est persistant ; c’est-à-dire qu’un processus de reconstruction interrompu par un redémarrage continuera après la restauration de l’alimentation. La consignation des reconstructions permet au VNX d’éviter les reconstructions complètes du groupe RAID. Ainsi, le VNX peut réutiliser les bonnes données issues d’un disque ayant été temporairement inactif, ce qui réduit significativement le besoin de reconstruire des disques entiers. Consignation des écritures Les données écrites sur un disque dur VNX sont de deux natures : les données utilisateur et le contrôle de redondance cyclique (CRC) [6]. Le checksum est une protection de base contre les erreurs de média. Durant la lecture, le VNX calcule un nouveau CRC et le compare avec celui du disque. Si les deux correspondent, les données sont correctes. Dans le cas contraire, le bloc est marqué comme « Mauvais » et une condition erreur de checksum est consignée. Livre blanc VNX MCx™ 53 Un processus VNX interne appelé vérification en arrière-plan examine le fonctionnement des données stockées sur le disque. Il lit les checksums sur les données existantes et les compare aux données calculées. Lorsqu’une incohérence est détectée, la vérification en arrière-plan tente de la réparer avec la protection RAID. Un autre processus appelé Sniffer vérifie l’état physique du disque. Il marque les mauvais blocs média comme erreur de médias. Pour plus d’informations, reportez-vous aux sectionsVérification en arrière-plan et Sniffer. Les incohérences et erreurs médias sur chaque disque sont enregistrées et comptées. Lorsqu’un nombre suffisant d’erreurs est enregistré, le disque est déclaré comme étant non fonctionnel et un processus de remplacement proactif démarre. Même si la vérification en arrière-plan et Sniffer peuvent détecter des erreurs, ils ne peuvent pas restaurer les données sur des groupes RAID de parité dégradés. Les erreurs de médias surviennent pour des raisons naturelles comme une mauvaise condition magnétique de la plaque, une décroissance de l’activité des données Flash ou un mouvement trop important du disque à rotation. Une nouvelle technologie du RAID multicœur appelée Consignation des écritures écrit une entrée de journal sur le même disque avant de procéder à une écriture réelle, comme il est illustré dans la rubrique Figure 46. Consignation des écritures. Si l’écriture de journal est validée sans problème, le système du RAID multicœur procède à la validation de l’écriture vers son adresse de destination sur le disque. Une fois l’écriture correctement validée sur le disque, l’entrée de journal est invalidée et l’écriture est marquée comme propre dans le cache (cache multicœur). Figure 46. Consignation des écritures Les pages de cache multicœur non synchronisées et non validées sont protégées par le mécanisme de chambre forte (qui est abordé dans la section Disques système). Une fois qu’un groupe RAID refonctionne après une condition de défaillance (par exemple, redémarrage après un arrêt imprévu, restauration après la déconnexion de plusieurs disques), les entrées de journal actives sont recherchées dans la zone du journal. Si l’on en trouve, elles sont reproduites aux emplacements adéquats. La consignation des écritures est active uniquement lorsqu’un groupe RAID est à l’état dégradé, tout comme la consignation des reconstructions. Ces deux technologies coexistent. La consignation des écritures écrit le journal dans la zone des métadonnées du groupe RAID dans le disque de destination comme il est illustré dans la rubrique Figure 40. Carte du disque RAID multicœur. Le journal contient l’écriture réelle ainsi que les métadonnées. Son espace est limité et géré Livre blanc VNX MCx™ 54 par un tampon circulaire. Lorsqu’il est plein, les écritures entrantes sont retardées jusqu’à ce que les premières entrées soient invalidées. La consignation des écritures entraîne une dégradation des performances : chaque écriture de disque est désormais doublée. Toutefois, la perte de performance est acceptable au regard des avantages. De plus, la consignation des écritures remplace une ancienne technologie FLARE appelée suspension de la parité [7], qui minimisait la perte de données lorsque le groupe RAID était à l’état dégradé. La suspension de la parité n’est plus utilisée car la consignation des écritures constitue une meilleure solution globale. Disques système MCx modifie la configuration des disques du système VNX. Tout comme FLARE, l’espace du système VNX occupe les quatre premiers disques du premier boîtier DAE ou boîtier du processeur de disques, selon le modèle de la baie VNX. Toutefois, avec MCx, la taille de la zone du système a augmenté de près de 300 Go par disque. Remarque : par simplicité, utilisez des disques 300 Go pour vos disques système. Le système VNX inclut : le secteur de démarrage VNX et des LUN de système d’exploitation internes ; la chambre forte du cache multicœur : une LUN spéciale utilisée par le cache multicœur pour stocker les pages de cache non synchronisées en cas de coupure de courant ; des LUN de contrôle NAS : un ensemble de six LUN utilisé pour les données de fichier. La totalité du contenu de l’espace du système ne peut pas être visualisé par l’utilisateur. Lorsque la chambre forte est construite avec des disques SAS 300 Go, il ne reste plus d’espace utilisateur libre sur le VNX. Des disques plus importants laissent un peu d’espace disponible, comme il est illustré dans Figure 47. Les disques système. Figure 47. Les disques système Livre blanc VNX MCx™ 55 L’espace du système ne nécessite pas de remplacement car le VNX utilise une protection interne spéciale pour les données. Remarque : un disque système en panne doit être remplacé physiquement. Les disques système avec de l’espace utilisable par l’utilisateur fonctionnent comme des disques classiques, avec un espace utile ajusté. Ils peuvent être placés dans des groupes RAID standard mais pas dans des pools. Lorsque le disque de chambre forte tombe en panne, les données de l’espace d’utilisateur sont transférées sur un disque de secours adapté. Si un disque système est déplacé sur un autre slot, le VNX : 1. marque le disque système comme étant « retiré » ; 2. formate et remet à zéro l’ancien disque système dans le nouveau slot : a. toutes les données (y compris les espaces de l’utilisateur et du système privé de chambre forte) sur l’ancien disque de système seront supprimées (remise à zéro). b. Si le disque système déplacé faisait partie d’un groupe RAID, la portion de l’espace dédiée à l’utilisateur sera transférée selon les procédures de reconstruction RAID classique, après un délai de 5 minutes. Si un disque est déplacée vers un slot système (0_0_0 à 0_0_3), le comportement est presque le même, à quelques exceptions près notées en italique. La nouvelle baie VNX : 1. marque le disque comme étant « retiré » : a. entame un compte à rebours de 5 minutes avant le remplacement du disque déplacé par un disque de remplacement adapté. 2. formate et remet à zéro le disque dans le nouveau slot : a. réserve 300 Go d’espace de système ; b. laisse l’espace restant inutilisé (le cas échéant). Exemples de synthèse de RAID multicœur Afin de suivre les exemples suivants, consultez l’exemple RAID5 3+1 dans Figure 48. Consignation des reconstructions et des écritures. Lorsque le disque membre 3 tombe en panne, le groupe RAID devient dégradé et les consignations des reconstructions et des écritures démarrent. Un compte à rebours de 5 minutes démarre retardant le processus de remplacement. Les performances du groupe RAID sont ralenties (surcharge de la consignation des écritures). Livre blanc VNX MCx™ 56 Figure 48. Consignation des reconstructions et des écritures Un hôte écrit 8 Ko sur la LUN1, adresse 0x400. Dans cette exemple, 0x400 est situé sur le disque membre 0 de ce groupe RAID. L’écriture est validée dans le cache VNX (cache multicœur) et marquée comme non synchronisée. À un moment donné, le cache multicœur réalisera un vidage de cette écriture sur le disque. Cela entraîne une lecture du disque membre 2 pour calculer la parité. À présent, les écritures des E/S de l’hôte et de parité sont écrites sur le groupe RAID, les E/S de l’hôte d’origine sur le membre 0 du RAID et la parité sur le membre 1 du RAID. Comme le groupe RAID est dégradé, les entrées du journal sont d’abord écrites sur les deux disques. Une fois les entrées du journal validées, les deux écritures sont traitées à leur emplacement normal. Une fois correctement validées, la consignation des reconstructions marque les blocs comme étant mis à jour et la consignation des écritures invalide les journaux. Scénario A : le disque en panne se reconnecte Lorsqu’un disque en panne se reconnecte (il a été déplacé sur un autre slot, par exemple), le log des reconstructions est examiné et les blocs marqués comme étant modifiés sont reconstruits sur le membre 3. La consignation des écritures et des reconstructions s’arrête et le mode du groupe RAID revient à la normale. Scénario B : un autre disque tombe en panne Si un autre disque tombe en panne (le membre 0 par exemple), le groupe RAID devient défaillant. Un groupe RAID5 dégradé ne peut pas supporter deux pannes de disque. RAID6 reste toutefois en mode dégradé, sauf si trois membres tombent en panne. Lorsque vous déplacez des disques actifs d’un slot à un autre, sachez que le risque de panne augmente. Figure 49. un autre disque tombe en panne Livre blanc VNX MCx™ 57 Pour savoir si des données seront perdues dans le cas d’une seconde panne de disque, lisez les scénarios suivants. La réponse dépend de la cause de la panne. Veuillez consulter Figure 49. un autre disque tombe en panne ci-dessus. B1. Le disque du membre 0 est retiré : a. il reviendra à un moment donné avec toutes ses données intactes. B2. Le disque du membre 0 est irrécupérable : a. il ne reviendra pas B3. Le boîtier DAE est éteint : a. le boîtier DAE se rallumera ou ; b. les disques qu’il contient seront déplacés vers d’autres slots. Pour chacun de ces scénarios, nous supposons que le reste la baie fonctionne normalement. Scénario B1 Le disque du membre 0 est retiré, le groupe RAID passe à l’état défaillant et arrête d’accepter les E/S. Les données écrites sur les autres disques restent intactes. Les données écrites sur le disque membre 0 sont protégées par la consignation des écritures, même s’il existe un trou d’écriture, le journal peut le restituer. Les données n’ayant pas été vidées du cache multicœur sont toujours dans le cache. L’accusé de réception du vidage n’a pas été renvoyé et les données sont toujours marquées comme non synchronisées. Le cache multicœur publiera un avertissement concernant les données non synchronisées ne pouvant pas être sauvegardées sur le disque à cause d’une panne de disque. Toutes les activités d’E/S vers le RAID sont suspendues. Les hôtes recevront des réponses d’erreur d’E/S. Dans le cas où le membre 0 revient, la consignation des écritures est observée et les entrées de log valides sont reproduites. La cohérence du groupe RAID est examinée (similaire à un processus FSCK, si les LUN étaient des systèmes de fichiers). Si aucune incohérence n’est trouvée, le groupe RAID est reconnecté. Les consignations des reconstructions et des écritures sont redémarrées. Le cache non synchronisé est vidé. Dans ce sous-scénario, les données sont indisponibles jusqu’à ce que le disque 0 soit restauré mais aucune donnée n’est perdue. Scénario B2 Si le disque 0 est en panne et irrécupérable, les données s’y trouvant ne sont plus disponibles. Il n’existe aucun moyen de récupérer les données. Toutes les données du groupe RAID sont perdues. Scénario B3 Ce scénario est similaire au scénario B1. Tous les disques deviennent indisponibles en même temps, le journal des écritures et le log des reconstructions ont donc des entrées cohérentes. Lors de la connexion du boîtier DAE, ou du déplacement des disques vers de nouveaux sites, la baie peut redémarrer ce groupe RAID. Livre blanc VNX MCx™ 58 Scénario C : expiration du délai de 5 minutes Quand le délai de 5 minutes a expiré, la baie recherche un disque de secours adapté. Une fois trouvé, le processus de reconstruction du groupe RAID commence. Les LUN sont reconstruites de façon séquentielle, du haut du disque vers le bas. Les processus de consignation des reconstructions et des écritures continuent jusqu’à ce que le disque soit reconstruit à 100 %. Si le disque membre 3 se reconnecte au cours du processus de reconstruction, il sera considéré comme un nouveau disque et remis à zéro. En effet, l’ancien disque membre 3 ne fait plus partie du groupe RAID et son contenu n’est plus pertinent. Le VNX n’interrompt pas une reconstruction de groupe RAID en cours. Livre blanc VNX MCx™ 59 Résumé MCx est l’un des stacks de systèmes de stockage les plus avancés disponibles sur le marché. Comme il est expliqué dans ce document, il apporte beaucoup d’innovation dans une évolution de système multicœur horizontale très efficace. En plus d’une plate-forme plus efficace, le stack optimisé multicœur offre une gestion des médias et une protection des données solide. Avec MCx, FAST Cache multicœur occupe la place qu’il faut dans la hiérarchie de stockage, permettant des écritures sur la DRAM plus rapides tout en offrant jusqu’à 4,2 To de cache de données. MCx élève l’expérience de stockage milieu de gamme VNX d’EMC à un niveau inexploré. Avec une vitesse d’un million d’E/S par seconde, jusqu’à 600 To de mémoire Flash et jusqu’à 6 Po de stockage sur disque, MCx assure une performance régulière, efficace et fiable. Cette solution permet aux clients EMC de réduire les coûts de stockage par machine virtuelle de 300 %. Livre blanc VNX MCx™ 60 Annexe A : Différences majeures entre MCx et FLARE Cette section résume les changements de MCx par rapport à FLARE. Nouveaux disques Tous les disques non reconnus avec des numéros de série n’ayant pas été déjà rencontrés par la baie sont remis à zéro. Tous les disques sont remis à zéro en parallèle. La remise à zéro commence au moment où la baie découvre le nouveau disque ou au premier démarrage du système. Les disques sont disponibles durant leur remise à zéro. Espace utile par disque Des disques de taille équivalente ont le même espace utile sur tous les systèmes VNX (y compris sur du matériel moins récent). La surcharge de groupe RAID est presque la même pour RAID multicœur qu’avec FLARE. La surcharge RAID avec MCx est un peu moins importante. Lors du dimensionnement des nouvelles implémentations VNX, il est plus sûr d’utiliser des numéros de capacité de groupe RAID VNX plus anciens. La capacité utile reste la même pour les disques de taille identique. Remise à zéro des disques et des LUN La baie remet à zéro les disques. Elle peut en faire de même avec les LUN. La remise à zéro des LUN est une mise à jour des métadonnées, si la LUN est liée à un disque déjà remis à zéro. Si une LUN est liée à un disque qui a ÉTÉ utilisé avec une LUN non liée ou dans un pool détruit, la zone de la LUN est remise à zéro après la création de la LUN. Priorité SCSI MCx inclut une technologie qui définit la priorité pour les commandes SCSI pour les disques back-end. La présence de la priorité SCSI garantit le nouveau microprogramme du disque et le formatage. EMC utilisait déjà cette technologie sur les baies VMAX et l’utilise désormais sur les VNX. La première implémentation n’implique que des vidages d’écritures du cache multicœur. Reprise d’erreur d’E/S Contrairement à FLARE qui jugeait du bon fonctionnement d’un disque en comptant le nombre d’échecs d’E/S, la reprise d’erreur d’E/S d’un disque MCx est basée sur le temps. Avec RAID multicœur, si une E/S envoyée au disque est plus longue que prévu, le disque peut être marqué comme étant hors ligne. Le groupe RAID passe à l’état dégradé, jusqu’à ce que le disque réponde de nouveau ou qu’il soit remplacé (après 5 minutes). RAID multicœur garde une trace permanente de toutes les erreurs de disque. Un disque instable devient rapidement candidat pour un remplacement proactif. MCx suit les disques par leur numéro de série. Le suivi de fonctionnement est maintenu même si le disque est déplacé vers un nouveau slot. Livre blanc VNX MCx™ 61 Vérification en arrière-plan La vérification en arrière-plan est un processus interne à la baie qui inspecte et valide les données et la parité des LUN liées. Son but est de détecter et corriger les erreurs de RAID. La vérification en arrière-plan peut démarrer pour différentes raisons : l’utilisateur initie manuellement une opération de vérification en arrièreplan pour détecter et corriger les erreurs : o utilisez la commande setsniffer pour démarrer et la commande getsniffer pour suivre la progression ; le système démarre une opération de vérification en arrière-plan automatiquement dans le cas d’erreur d’écriture incomplète ; le système démarre une opération de vérification en arrière-plan automatiquement lorsqu’une remise à zéro d’une LUN en arrière-plan est terminée. Avec MCx, la vérification en arrière-plan a la possibilité de s’arrêter en cas de charge importante sur le groupe RAID. Remarque : la vérification en arrière-plan fonctionne uniquement pour les LUN classiques et les LUN de pool privées. Remarques Getsniffer/Setsniffer Les arguments –bvtime(temps de vérification en arrière-plan), -snrate(taux sniffer) et l’option [0|1]ne sont plus pris en charge par RAID multicœur. [0|1]n’est pas pris en charge avec cette commande car elle servait à activer une vérification Sniff, qui n’est plus pris en charge par la commande setsniffverify. Les champs dans le rapport de vérification en arrière-plan ont été modifiés. Les lignes Sniffing state(état Sniffer), Sniffing rate(taux Sniffer) et Background verify priority(priorité de vérification en arrière-plan) ont été retirées. Ces propriétés ne sont plus applicables avec cette commande lorsqu’elle est exécutée sur RAID multicœur. L’argument -nonvol n’est pas pris en charge sur la commande getsniffer car le rapport de vérification de restauration non volatile n’est plus applicable. Lors de l’utilisation de la commande setsniffer, l’argument -bv doit être spécifié pour initier une vérification en arrière-plan. La commande accepte également l’argument facultatif -cr pour effacer les rapports. Sniffer La vérification Sniff ou Sniffer est un processus interne qui détecte et corrige les erreurs de médias de disque potentielles avant qu’elles ne deviennent irrécupérables. Dans RAID multicœur, la vérification Sniff fonctionne sur la totalité de la capacité du disque y compris les zones liées et non liées. Avec FLARE, elle ne sonde que les zones liées du disque et délaisse les zones inutilisées. Des erreurs médias ne sont donc pas détectées. Dans FLARE, Livre blanc VNX MCx™ 62 l’opération de vérification Sniff peut être planifiée par LUN et seules les zones liées du disque sont analysées. RAID multicœur ne permet pas de planification de cette vérification. RAID multicœur a ajouté la possibilité d’activer/désactiver la vérification Sniff au niveau du système. L’activation de la vérification Sniff sur un seul disque n’est pas prise en charge. La vérification Sniff est activée/désactivée pour l’ensemble des disques de la baie. Elle est activée par défaut. C:>naviseccli -h VNX-SPA –User user –Password password –Scope 0 setsniffverify sniffverify is ENABLED CLI 7. Activation de la vérification Sniff sur la baie Remplacement proactif Le nouveau système VNX surveille le fonctionnement des disques en comptant le nombre d’erreurs trouvées. Les erreurs sont découvertes à l’aide des processus de vérification Sniff ou de vérification en arrière-plan ou lors de lectures normales de l’hôte. Lorsque le nombre d’erreurs atteint 60, le disque est déclaré comme étant non fonctionnel et est invalidé. Le moteur RAID multicœur entame un processus de remplacement sans période d’attente de 5 minutes. Les disques n’accumulent pas le compte d’erreurs indéfiniment. Une erreur est retirée du compte toutes les 18 000 bonnes opérations d’E/S sur le disque. Fonctionnalités non disponibles dans la gamme VNX nouvelle génération La défragmentation du groupe RAID L’expansion du groupe RAID Livre blanc VNX MCx™ 63 Annexe B : Unisphere Analyzer Lors de la comparaison entre FLARE et MCx, une statistique du cache multicœur de Pages de cache non synchronisées a été utilisée. Dans le cache multicœur, cette statistique est comptée en Mo. Ci-dessous se trouvent de vrais graphiques générés avec des données issues d’Unisphere Analyzer : Figure 50. Données NAR réelles du nouveau système VNX Figure 51. Données NAR réelles de VNX OE 32 Livre blanc VNX MCx™ 64 Notes de configuration du test Le test a été mené sur les baies suivantes : baie VNX7600, exécutant VNX OE 33 (version beta 687) baie VNX5500, exécutant VNX OE 32 (correctif 201) o Les seuils de cache étaient définis à 80 %/60 % (par défaut dans le système) o Le cache d’écriture était défini sur 3 915 Mo o Le cache de lecture était défini sur 435 Mo Un seul groupe RAID RAID5 4+1 a été créé sur cinq disques SAS 300 Go 10 000 t/min. Puis, une seule LUN classique de 100 Go a été définie et présentée à l’hôte Windows. Un seul switch SAN a été utilisé et seuls deux chemins ont été zonés, un chemin par SP VNX. La taille de la LUN a été spécifiquement choisie pour être suffisamment grande pour que la charge de travail sur chaque système surcharge le cache. PowerPath 5.7 a été installé sur l’hôte Windows. Le programme de génération de charge de travail d’E/S (indicateur d’E/S) a été utilisé pour générer la charge. L’indicateur d’E/S a été configuré avec un seul opérateur et 16 E/S en attente par cible. La spécification d’accès a été configurée pour être une écriture non alignée de 8 Ko aléatoire à 100 %. Le test FLARE était plus court que celui pour MCx afin de permettre aux pages non synchronisées du cache multicœur de stagner. Livre blanc VNX MCx™ 65 Annexe C : Gestion du cache multicœur Gestion Pour activer MCx FAST Cache dans Unisphere, accédez à l’onglet System, puis cliquez sur le lien System Management >Manage cache situé à la droite de l’écran. Cliquez sur l’onglet FAST Cache dans la fenêtre Storage System Properties. Si FAST Cache n’est pas créé, le bouton Create est activé. Après avoir cliqué dessus, la fenêtre Create FAST Cache s’ouvre, affichant un formulaire pour sélectionner les disques Flash pour FAST Cache, comme il est illustré dans Figure 52. Création de MCx FAST Cache ci-dessous. Figure 52. Création de MCx FAST Cache Dans la CLI, vous pouvez effectuer le même processus en utilisant la commande suivante : C:>naviseccli -h VNX-SPA –User user –Password password –Scope 0 cache –fast -create 0_0_23 0_0_24 Configuring FAST Cache may take up to several hours to complete. It will also reduce the amount of Storage System memory available for use by SP Cache. Do you want to continue? (y/n) y CLI 8. Création de FAST Cache Destruction de FAST Cache MCx FAST Cache peut être détruit en ligne. Lorsque vous demandez sa destruction, FAST Cache passe immédiatement à l’état Disabling (désactivation en cours), comme il est illustré dans CLI 10. Affichage des informations FAST Cache. Cela arrête toutes les copies de nouvelles données et entame le processus de vidage, qui efface toutes les pages du stockage Flash FAST Cache. Durant le processus de vidage, FAST Cache multicœur continue de traiter les E/S des hôtes pour les pages qui restent dans le cache. Le processus de vidage n’est pas immédiat. Il peut durer plusieurs minutes. Plus FAST Cache est important, plus le temps nécessaire pour vider toutes les données qui s’y trouvent est long. Une fois toutes les pages effacées du stockage Flash, les paires mises en miroir sont détruites et les disques Flash FAST Cache passent à l’état unbound (non lié). Livre blanc VNX MCx™ 66 C:>naviseccli -h VNX-SPA –User user –Password password –Scope 0 cache –fast -destroy To destroy FAST Cache, the Storage System may flush all data to disk. This operation may be time consuming and may impact system performance. You can monitor the progress of this operation by using the following command: cache -fast -info. Do you want to continue? (y/n) y CLI 9. Destruction de FAST Cache C:>naviseccli -h VNX-SPA –User user –Password password –Scope 0 cache –fast –info Disks: Bus 0 Enclosure 0 Disk 21 Bus 0 Enclosure 0 Disk 24 Bus 0 Enclosure 0 Disk 23 Bus 0 Enclosure 0 Disk 22 Mode: Read/Write Raid Type: r_1 Size (GB): 183 State: Disabling Current Operation: Destroying Current Operation Status: Running Current Operation Percent Completed: Percentage Dirty SPA: 0 MBs Flushed SPA: 1585 Percentage Dirty SPB: 70 MBs Flushed SPB: 93345 0 CLI 10. Affichage des informations FAST Cache Code d’activation FAST Cache FAST Cache multicœur est un membre facultatif du stack MCx. Un code d’activation FAST Cache spécial doit être installé sur le système pour permettre le fonctionnement de FAST Cache. L’installation du code d’activation FAST Cache ne requiert pas le redémarrage du processeur de stockage. L’octroi de licence n’est pas abordé dans ce document. Veuillez contacter un responsable de compte EMC pour les questions à ce sujet. Plusieurs disques Flash SAS doivent être groupés dans des paires mises en miroir pour activer FAST Cache. Le nombre maximal de paires mises en miroir varie en fonction du modèle de la baie VNX et des disques Flash disponibles. Pour plus d’informations, consultez la section Options de configuration de FAST Cache multicœur. La présence d’un code d’activation FAST Cache modifie les valeurs par défaut pour la création de nouvelles LUN. Si le code d’activation est installé, l’option FAST Cache est activée par défaut pour les nouveaux pools et LUN classiques11. Pour vérifier si le code d’activation est activé, dans Unisphere accédez à l’onglet System, puis cliquez sur le lien System Management >System Properties à la droite de l’écran, comme il est illustré dans Figure 53. Un code d’activation FAST Cache activé. 11 Les LUN de pool n’ont pas d’option FAST Cache, car elle est définie au niveau du Pool. Livre blanc VNX MCx™ 67 Figure 53. Un code d’activation FAST Cache activé Toutes les LUN créées avant l’installation du code d’activation ont l’option FAST Cache désactivée, même si Unisphere n’affiche pas l’option en l’absence du code d’activation. Pour activer l’utilisation de FAST Cache pour les LUN et/ou pools créés avant l’installation du code d’activation FAST Cache, vérifiez l’option manuellement. Traitement des pannes Le stockage Flash FAST Cache multicœur est basé sur un groupe RAID commun et est soumis à tous les processus de restauration de RAID multicœur, comme la consignation des reconstructions et des écritures. Panne d’un disque Si l’un des disques Flash de FAST Cache multicœur tombe en panne, le groupe RAID1 correspondant passe à l’état dégradé. Les pages appartenant à ce groupe RAID1 sont vidées : les pages propres sont supprimées, les pages non synchronisées sont reproduites sur les LUN d’utilisateur. Les nouvelles pages utilisées issues d’une LUN d’utilisateur seront promues vers les autres périphériques RAID Flash FAST Cache multicœur restants12. RAID multicœur essaie de remplacer le disque en panne. Une fois la réparation terminée, la paire RAID est remise en service, c’est-à-dire que de nouvelles promotions sont stockées sur ce périphérique par exemple. Si toutes les paires RAID de FAST Cache sont dégradées, le système entame un processus de nettoyage et désactive FAST Cache. Tableau des pannes d’alimentation Toutes les pannes d’alimentation figurant dans le Tableau 1 suivant sont plus longues qu’une alimentation sans panne de 15 secondes. 12 Cela ne s’applique pas si seule une paire de disques Flash est attribuée à FAST Cache ou si toutes les paires sont dégradées. Livre blanc VNX MCx™ 68 Tableau 1. Gestion des pannes du cache multicœur Exemple d’utilisation Description Panne d’alimentation CA simple, SP homologue continue de fonctionner L’alimentation CA est retirée Activé d’une alimentation auxiliaire dans un système à plusieurs alimentations auxiliaires (1 ou 2 par SP) Panne d’alimentation auxiliaire simple, SP homologue ne fonctionne pas L’alimentation CA est retirée d’une alimentation auxiliaire dans un système à plusieurs alimentations auxiliaires (1 ou 2 par SP) et le SP homologue n’est pas présent. L’alimentation CA a été retirée de toutes les alimentations auxiliaires. Ce SP ou la source d’alimentation de ce SP signale une condition de surchauffe Une condition de surchauffe est signalée par tous les SP et sources d’alimentation. Une condition de surchauffe a été signalée par au moins une source d’alimentation dans le premier boîtier Une seule source d’alimentation est signalée comme en panne dans le boîtier SPE. Une seule source d’alimentation dans le premier boîtier DAE a été signalée en panne et le premier boîtier est un boîtier à 60 disques Plusieurs sources d’alimentation sont signalées comme étant en panne. Un seul ventilateur est en panne. Panne d’alimentation pour toutes les alimentations auxiliaires Un SP unique en surchauffe Deux SP en surchauffe Boîtier DAE 0 (0_0) en surchauffe Panne d’alimentation simple sur un boîtier DPE/SPE Panne d’alimentation unique dans un boîtier DAE à 60 disques Panne d’alimentation multiple Panne de ventilation unique État du cache multicœur Vidage vers la chambre forte Vidage vers la chambre forte Activé Vidage vers la chambre forte Vidage vers la chambre forte Activé Vidage vers la chambre forte Activé Activé Livre blanc VNX MCx™ 69 Exemple d’utilisation Description État du cache multicœur Panne de ventilation multiple Plusieurs ventilateurs sont signalés comme étant en panne. Un seul disque de système est déconnecté ou a été retiré. Plusieurs disques de système sont déconnectés ou ont été retirés. Le logiciel de la baie est en train d’être modifié Activé Le logiciel de la baie et le microprogramme de l’alimentation sont en train d’être changés Désactivé Un SP dans un système à SP double a été retiré, redémarre, fonctionne de manière inattendue ou connaît une panne matérielle Un SP ne peut communiquer avec une alimentation auxiliaire. Les autres alimentations auxiliaires fonctionnent normalement. Aucun SP ne peut communiquer avec les alimentations auxiliaires qui y sont connectées. Une alimentation auxiliaire n’est pas branchée correctement Plusieurs alimentations auxiliaires ne sont pas correctement branchées sur les deux SP Activé Chambre forte dégradée Chambre forte en panne Mise à niveau sans perturbation sans mise à niveau de microprogramme de l’alimentation Mise à niveau sans perturbation avec mise à niveau de microprogramme de l’alimentation Panne de SP simple Panne simple de communication d’alimentation auxiliaire Panne multiple de communication d’alimentation auxiliaire Panne simple de câblage d’alimentation auxiliaire Panne multiple de câblage d’alimentation auxiliaire Activé Désactivé Activé Activé Désactivé Activé Désactivé Livre blanc VNX MCx™ 70 Références [1] Loi d’Amdahl, “Validity of the single processor approach to achieving large scale computing capabilities”, 1967, http://wwwinst.eecs.berkeley.edu/~n252/paper/Amdahl.pdf [2] SCSI Block Commands - 3 (SBC-3), T10 working draft specification, http://www.t10.org/cgi-bin/ac.pl?t=f&f=sbc3r32.pdf [3] EMC E-Lab Interoperability Navigator, un site Web EMC, https://elabnavigator.emc.com/do/navigator.jsp [4] Applied Best Practices Guide: EMC VNX Unified Best Practices for Performance, site Web de support d’EMC, https://support.emc.com/docu42660_Applied_Best_Practices_Guide:_EMC_VNX _Unified_Best_Practices_for_Performance.pdf?language=en_US [5] Haswell chip, Intel Corporation, http://www.intel.com/content/www/us/en/secure/intelligentsystems/privileged/core-qm87-hm86-chipsets-is-guide.html?wapkw=haswell [6] Cyclic Redundancy Check, “Applications of Matrix Algebra to Network Theory,” Circuit Theory, IRE Transactions on, vol.6, no.5, pp.127, 137, May 1959. http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1086603&isnumber =23613 [7] VNX Data Integrity white paper, site Web de support d’EMC, https://support.emc.com/docu44054_White_Paper:_EMC_Data_Integrity_on_VN X.pdf?language=en_US [8] EMC FAST VP white paper, site Web de support d’EMC, https://support.emc.com/docu32691_White_Paper:_EMC_FAST_VP.pdf?language =en_US Livre blanc VNX MCx™ 71