
Eine Festplatte stirbt
Am 1. November erhielt ich erstmals eine E-Mail von meinem Homeserver, in der ich über folgenden Sachverhalt in Kenntnis gesetzt wurde:
Device: /dev/sdb [SAT], ATA error count increased from 0 to 1
Mein Server läuft rund um die Uhr, und besagte Festplatte sollte war letzten November etwa gute 7 Jahre in Betrieb. Okay, da darf mal ein Fehler auftreten. Nur 3 Tage später dann eine neue Meldung:
Device: /dev/sdb [SAT], ATA error count increased from 10 to 16
Die Festplatte läuft in einem RAID1-Verbund, daher sah ich das ganze ziemlich gelassen. Selbst wenn sie die nächste Zeit die Grätsche machen sollte, wird das schon nicht so schlimm sein. Und falls doch: Alle Daten, die in diesem RAID1-Verbund gespeichert sind, sind auch noch anderweitig gesichert. Bis Anfang Februar war dann auch Ruhe, es passierte nichts weiter. Am 2. Februar erreicht mich dann eine neue Wasserstandsmeldung:
Device: /dev/sdb [SAT], ATA error count increased from 33 to 40
Und einen Monat später, am 2. März:
Device: /dev/sdb [SAT], ATA error count increased from 40 to 46
Die Fesplatte zeigte noch keine Ausfallerscheinungen, ich befasste mich aber bereits langsam mit einer Strategie, wie ich weiter vorgehen wollte.
Im März passierte weiterhin nichts mehr, am 6. April erreichte mich die nächste Meldung:
Device: /dev/sdb [SAT], ATA error count increased from 126 to 131
Und dann 2 Wochen später:
Device: /dev/sdb [SAT], ATA error count increased from 137 to 138
Dann war wieder einen guten Monat Ruhe. Ich hatte das Thema schon fast wieder vergessen, aber die Festplatte wollte es nicht vergessen. Am 1. Juni erhielt ich diese Meldung:
Device: /dev/sdb [SAT], ATA error count increased from 139 to 140
Und wieder gut einen Monat später, am 6. Juli:
Device: /dev/sdb [SAT], ATA error count increased from 140 to 143
Nun war es aber scheinbar vorbei mit der Ruhe, einen Tag später bereits ein dramatischer Anstieg:
Device: /dev/sdb [SAT], ATA error count increased from 4674 to 4863
Aufgrund des starken Anstiegs der Fehler wurde es meinem Server wohl auch langsam mulmig:
Device: /dev/sdb [SAT], FAILED SMART self-check. BACK UP DATA NOW!
Device: /dev/sdb [SAT], Failed SMART usage Attribute: 5 Reallocated_Sector_Ct.
Noch am gleichen Tag habe ich die Festplatte aus dem aktiven Betrieb genommen, heute habe ich schließlich die Zeit gefunden, sie komplett aus dem Server zu entfernen. Datenverlust habe ich keinen zu beklagen, RAID1 und Backup sei Dank.
Aus reiner Neugier versuche ich gerade, die Festplatte an einem anderen PC nochmal in Betrieb zu nehmen. Aber das klappt nicht, jetzt ist definitiv Schicht im Schacht. Es ist wirklich interessant, so etwas beobachten zu können. Besonders der rasante Anstieg der Fehler, der dann schließlich zum Festplattentod geführt hat.
Zum Glück kann man mir im Nachhinein nicht mit dem Spruch »Kein Backup, kein Mitleid!« kommen. Ich konnte das nur so entspannt beobachten, weil ein Backup vorhanden war. (Und ich zu faul war, die Festplatte aus dem aktiven Dienst im Server zu entfernen…)