"…mais ce serait peut-être l'une des plus grandes opportunités manquées de notre époque si le logiciel libre ne libérait rien d'autre que du code…"

Administration sytème: les systèmes RAID et SMART, CNIL, AFSIN

Posted by patrick sur juillet 6, 2007

Quelques définitions sur le système RAID (Redundant Array of Independent Disks, « matrice redondante de disques indépendants »). Je m’intéresse à ce sujet car le serveur GNU/Linux sur le lequel j’ai travaillé était équipé en RAID1.

http://fr.wikipedia.org/wiki/RAID_informatique (« En informatique, le mot RAID désigne une technologie permettant de stocker des données sur de multiples disques durs, en général de manière redondante, afin d’améliorer certaines caractéristiques essentielles de l’ensemble en fonction du type de RAID choisi, qu’il s’agisse de la tolérance aux pannes, de l’intégrité des données, ou des performances de l’ensemble.

RAID était à l’origine l’acronyme de Redundant Array of Inexpensive Disks, ce qui signifie « matrice redondante de disques bons marchés ». Aujourd’hui, le mot est devenu l’acronyme de Redundant Array of Independent Disks, ce qui signifie « matrice redondante de disques indépendants », car les disques durs sont bien meilleurs marchés qu’à l’époque.

Depuis son implémentation originale, la particularité principale de l’architecture RAID est sa capacité à combiner de nombreux périphériques de stockage bons marchés et d’une technologie courante dans une matrice unique, de sorte que ce groupement offre une capacité, une fiabilité et/ou des performances accrues, et ce pour un coût largement inférieur à un périphérique de stockage unique équivalent exploitant des technologies de pointe. L’architecture RAID s’oppose donc à l’architecture SLED (Single Large Expensive Disk), qui est fondée sur l’utilisation d’un seul et même disque dur de grande capacité, et donc d’un prix élevé, car il doit non seulement pouvoir stocker beaucoup d’informations, mais il doit de plus être d’excellente qualité pour en garantir au mieux l’intégrité.

En effet, dans une architecture de type SLED, la bonne conservation des données est dépendante de la moindre défaillance du disque dur. Lorsqu’une panne survient, non seulement le système est inexploitable le temps du remplacement du matériel défectueux, mais la seule manière de récupérer les données est de procéder à une restauration de la dernière sauvegarde, ce qui peut prendre plusieurs heures durant lesquelles le système est toujours inutilisable.

Si un tel temps d’inactivité est acceptable pour l’ordinateur d’un particulier, il est en revanche rédhibitoire pour le système informatique d’une entreprise, pour qui une telle panne peut avoir des conséquences non négligeables sur sa santé financière. L’utilisation d’une architecture RAID, du moins dans la plupart de ses niveaux fonctionnels, permet justement d’apporter une réponse à ces besoins car non seulement la défaillance d’un des disques de la grappe ne gêne pas le fonctionnement des autres disques, ce qui permet au système de continuer de fonctionner, mais de surcroît, une fois le disque en panne échangé, son contenu est reconstruit à partir des autres disques pendant le fonctionnement normal du système. Ainsi, l’activité de l’entreprise continue de façon ininterrompue et transparente pendant toute la durée de l’incident. »

Dans le cas de l’entreprise dans laquelle je travaillais la contrainte était plus forte puisqu’on prévoyait un crash des 2 disques en RAID1. Il fallait donc prévoir 2 autres disques RAID1 en secours.

« Miroitage (mirroring)

Le miroitage (mirroring en anglais) consiste à utiliser plusieurs unités de stockage de données et à stocker des données identiques sur chacune. Ainsi, chaque unité contient à tout moment exactement les mêmes données que les autres, on parle alors de disques miroirs, d’où l’utilisation du mot « miroitage ». Les modifications des données se font de manière simultanée sur toutes les unités de stockage, ainsi, en cas de panne d’une unité de stockage, les données sont toujours accessibles sur les unités restantes. Cette configuration pénalise légèrement les performances, mais a surtout l’inconvénient d’être particulièrement onéreuse, la fiabilité de l’ensemble étant directement proportionnelle au nombre d’unités de stockage. Lors de la défaillance de l’un des disques, le contrôleur RAID désactive, de manière transparente pour l’accès aux données, le disque incriminé. Une fois le disque défectueux remplacé, le contrôleur RAID reconstitue, soit automatiquement, soit sur intervention manuelle, le miroir. Une fois la synchronisation effectuée, le RAID retrouve son niveau initial de redondance. Mathématiquement, l’espérance de vie d’un système RAID 1 est 1,5 supérieure à celle d’un système sans RAID. »

Pour faire remonter les informations de dysfonctionnement et d’après ce que j’ai vu hier, on peut utiliser 2 utilitaires (smartctl and smartd) du package smartmontools (« The smartmontools package contains two utility programs (smartctl and smartd) to control and monitor storage systems using the Self-Monitoring, Analysis and Reporting Technology System (SMART) built into most modern ATA and SCSI hard disks. In many cases, these utilities will provide advanced warning of disk degradation and failure »)

Liens

  • http://www.linuxjournal.com/article/6983 (« it’s a given that all disks eventually die, and it’s easy to see why. The platters in a modern disk drive rotate more than a hundred times per second, maintaining submicron tolerances between the disk heads and the magnetic media that store data. Often they run 24/7 in dusty, overheated environments, thrashing on heavily loaded or poorly managed machines. So, it’s not surprising that experienced users are all too familiar with the symptoms of a dying disk. Strange things start happening. Inscrutable kernel error messages cover the console and then the system becomes unstable and locks up. Often, entire days are lost repeating recent work, re-installing the OS and trying to recover data. Even if you have a recent backup, sudden disk failure is a minor catastrophe. Many users and system administrators don’t know that Self-Monitoring, Analysis and Reporting Technology systems (SMART) are built in to most modern ATA and SCSI hard disks. SMART disk drives internally monitor their own health and performance. In many cases, the disk itself provides advance warning that something is wrong, helping to avoid the scenario described above. Most implementations of SMART also allow users to perform self-tests on the disk and to monitor a number of performance and reliability attributes« )
  • http://fr.wikipedia.org/wiki/Self-Monitoring%2C_Analysis_and_Reporting_Technology (« Self-Monitoring, Analysis, and Reporting Technology, ou S.M.A.R.T., (littéralement Technologie d’Auto-surveillance, d’Analyse et de Rapport) est un système de surveillance du disque dur d’un ordinateur. Il permet de faire un diagnostic selon plusieurs indicateurs de fiabilité dans le but d’anticiper les erreurs sur le disque dur…Les pannes mécaniques, qui sont des défaillances prévisibles, représentent 60 % des pannes de disque[1]. Le but du système S.M.A.R.T. est de prévenir l’utilisateur ou l’administrateur système de l’imminence d’une panne de disque alors qu’il reste encore du temps pour agir – comme par exemple copier les données sur un disque de remplacement. Environ 30 % des défaillances peuvent être prévues par le système S.M.A.R.T… D’un point de vue légal, le terme S.M.A.R.T. ne fait référence qu’à une méthode de communication entre les capteurs électromécaniques internes d’un disque dur et l’ordinateur hôte – donc un fabriquant de disque dur peut inclure un capteur pour uniquement un attribut physique et promouvoir ensuite le produit comme compatible S.M.A.R.T. Par exemple, un fabricant peut déclarer supporter la technologie S.M.A.R.T. mais ne pas inclure de capteur de température, capteur dont le consommateur est raisonnablement en droit d’attendre la présence, étant donné que la température est un paramètre crucial dans la prévision des défaillances (la fiabilité est typiquement proportionnelle à l’inverse de la température). Il se peut que certaines cartes mères compatibles S.M.A.R.T. ou certains logiciels associés ne puissent pas communiquer avec certains disques certifiés S.M.A.R.T. en fonction du type d’interface. Peu de disques externes connectés via USB ou FireWire envoient correctement les données S.M.A.R.T. par l’intermédiaire de ces interfaces. Étant donné le grand nombre de manières de connecter un disque dur (SCSI, Fibre Channel, ATA, SATA, etc.), il est difficile de savoir à l’avance si les rapports S.M.A.R.T. fonctionneront correctement ou pas. Même avec le disque dur et l’interface supportant S.M.A.R.T., les données peuvent ne pas être transmises correctement au système d’exploitation de l’ordinateur. Certains contrôleurs de disques peuvent dupliquer toutes les opérations d’écriture sur un deuxième disque de sauvegarde en temps réel. Cette technique est connue sous le nom de RAID 1 ou RAID mirroring car le second disque est une image miroir du premier. Cependant, de nombreux programmes conçus pour analyser les changements de comportement du disque et pour transmettre les alertes S.M.A.R.T. à l’utilisateur ne fonctionnent pas quand le système est configuré en RAID, parce que, dans les conditions normales de fonctionnement de l’architecture RAID, l’ordinateur n’est pas autorisé à « voir » (ou à accéder directement) les différents disques physiques, il est seulement autorisé à « voir » les volumes logiques à travers le sous-système RAID »).
  • http://smartlinux.sourceforge.net/smart/index.php (« This site contains information about S.M.A.R.T (Self-Monitoring, Analysis and Reporting Technology) – a standard that automatically monitors a disk drive’s health and report potential problems »)
  • http://www.afsin.org/ (« Association francophone des Spécialistes de l’Investigation Numérique. Notre Association Internationale a pour objet de développer une réflexion permanente en langue française sur l’investigation numérique, en tous domaines et en toutes circonstances, ainsi que sous tous ses aspects scientifiques, techniques, philosophiques, déontologiques, méthodologiques, économiques, juridiques, évolutifs et comparatifs avec les autres pays… L’AFSIN a pour vocation d’établir un dialogue constant entre les différents participants à l’investigation numérique, tels que techniciens, enquêteurs, juristes, magistrats… La première action de l’Association est de lancer plusieurs études par l’intermédiaire de son Comité Scientifique (récupération de données sur les téléphones GSM !!, récupération des méta-données, définition et termes de francisation, façons diverses de faire une « image » de disque, outillage utilisé, etc…). »)
  • http://fr.wikipedia.org/wiki/CNIL (« La Commission nationale de l’informatique et des libertés (CNIL) est une autorité administrative indépendante française chargée de veiller à la protection des données à caractère personnel et de la vie privée. Elle a été créée par la loi n° 78-17 du 6 janvier 1978 relative à l informatique, aux fichiers et aux libertés...La CNIL a été créé en 1978, suite au scandale du projet SAFARI (Système Automatisé pour les Fichiers Administratifs et le Répertoire des Individus), qui visait à interconnecter les fichiers nominatifs de l’administration française, notamment par le biais du numéro INSEE. La révélation de ce projet, le 21 mars 1974 par le quotidien le Monde, avait entraîné une vive opposition populaire, et la création de la Commission Nationale de l’Informatique et des Libertés quelques années plus tard.)

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

 
%d blogueurs aiment cette page :