Page 57 - Computer Για Όλους τ. 340

COMPUTER ΓΙΑ ΟΛΟΥΣ
57
λύπτουν ένα χρονικό διάστημα οκτώ μη-
νών του 2008. Όλοι οι υπολογιστές που
μελετήθηκαν επιλέχθηκαν με βάση το συ-
νολικό χρόνο λειτουργίας τους κατά το
διάστημα αυτό. Ο χρόνος αυτός εκφράζε-
ται σε ημέρες συνεχούς λειτουργίας και
αποτελεί το άθροισμα όλων των χρονικών
διαστημάτων που λειτούργησε ο υπολογι-
στής μέσα στο οκτάμηνο. Επειδή ελάχιστοι
προσωπικοί υπολογιστές λειτουργούν ακα-
τάπαυστα, μία ημέρα συνεχούς λειτουρ-
γίας αντιστοιχεί σε πολλές ημέρες κανονι-
κής χρήσης. Οι ερευνητές μελέτησαν δύο
ομάδες υπολογιστών, τη μία με πέντε του-
λάχιστον μέρες συνεχούς λειτουργίας και
μία άλλη, μικρότερη, με τουλάχιστον τριά-
ντα. Ας δούμε όμως τι ανακάλυψαν.
ΒΛΑΒΕΣ ΣΤΗ CPU
Για έναν υπολογιστή με χρόνο συνεχούς
λειτουργίας τουλάχιστον πέντε ημέρες, η
πιθανότητα βλάβης μέσα στο οκτάμηνο
βρέθηκε να είναι 1/330. Από τη στιγμή
όμως που θα συμβεί αυτή η πρώτη βλάβη,
οι πιθανότητες να ξανασυμβούν δεύτερη
και τρίτη ανεβαίνουν κατακόρυφα στο
1/3,3
και στο 1/1,8 αντίστοιχα. Με άλλα λό-
για, οι πιθανότητες δεύτερης και τρίτης
βλάβης είναι αντίστοιχα 100 και 183 φορές
υψηλότερες! Ένας υπολογιστής με χρόνο
συνεχούς λειτουργίας 30 τουλάχιστον ημε-
ρών, είναι αρκετά πιο πιθανό να σημειώσει
βλάβη στη CPU, καθώς η πιθανότητα ανε-
βαίνει στο 1/190, είναι δηλαδή 1,7 φορές
μεγαλύτερη. Οι πιθανότητες για δεύτερη
και τρίτη βλάβη είναι και σε αυτή την ομά-
δα πολύ αυξημένες και ανέρχονται σε
1/2,9
και 1/1,7 αντίστοιχα. Πρόσθετη ανά-
λυση έδειξε ότι, αν συμβεί βλάβη στη CPU,
είναι σχεδόν βέβαιο ότι θα ξανασυμβεί σύ-
ντομα. Το 84% των υπολογιστών με πέντε
μέρες συνεχούς λειτουργίας έπαθαν την
ίδια βλάβη μέσα σε δέκα ημέρες, ενώ σε
ένα μήνα το ποσοστό ανέβηκε στο 97%.
ΣΦΑΛΜΑΤΑ ΣΤΗ ΜΝΗΜΗ
Ως σφάλμα στη μνήμη DRAM ορίστηκε η
αναπάντεχη αλλαγή ενός τουλάχιστον bit
στα περιεχόμενά της. Και σε αυτή την πε-
ρίπτωση παρατηρήθηκε όπως και στις
βλάβες της CPU ότι η πιθανότητα εμφάνι-
σης δεύτερου και τρίτου σφάλματος είναι
εξαιρετικά αυξημένες, καθώς είναι 300 και
1.227
φορές μεγαλύτερες αντίστοιχα από
την πιθανότητα εμφάνισης πρώτου σφάλ-
ματος. Παρ’ όλα αυτά, αξίζει να σημειωθεί
ότι, η πιθανότητα εμφάνισης προβλήματος
για πρώτη φορά στην DRAM είναι οκτώ
τουλάχιστον φορές μικρότερη της αντί-
στοιχης πιθανότητας για την CPU. Πρό-
σθετη ανάλυση έδειξε ότι μετά το πρώτο
σφάλμα στην DRAM οι υπολογιστές με συ-
νεχή χρόνο λειτουργίας πέντε ημερών, πα-
ρουσίασαν σε ποσοστό 94% ίδιο πρόβλη-
μα σε δέκα ημέρες και σε ποσοστό 100%
σε ένα μήνα.
Οι κατασκευαστές μνημών χρησιμοποι-
ούν το μέγεθος FITS (σφάλματα σε δισε-
κατομμύρια χρόνια λειτουργίας) για να πε-
ριγράψουν την πιθανότητα αλλαγής ενός
bit της μνήμης λόγω πρόσκρουσης κάποι-
ου υποατομικού σωματιδίου. Όμως, τα
στοιχεία της μελέτης της Microsoft
Research υποδεικνύουν ότι το συγκεκριμέ-
νο μέγεθος είναι ανεπαρκές όταν χρειάζε-
ται να ληφθούν αποφάσεις για την υλοποί-
ηση συστημάτων υψηλής αξιοπιστίας.
Υπάρχει βέβαια η μνήμη ECC (Error
Correction Code) που μπορεί να ανιχνεύ-
σει και να διορθώσει αυτόματα σφάλματα
στα περιεχόμενά της. Όμως τα chips αυ-
τού του τύπου θεωρούνται «υψηλής ποιό-
τητας» και χρησιμοποιούνται κυρίως σε
servers. Όπως παρατηρούν οι ερευνητές,
μελέτες όπως η δική τους, που βασίζονται
σε παρατήρηση υπολογιστών σε λειτουρ-
γία, αναδεικνύουν το αθροιστικό αποτέλε-
σμα όλων των αρνητικών παραγόντων στη
σωστή λειτουργία των chips μνήμης, όπως
η σκόνη, η υπερθέρμανση και η προβλη-
ματική συναρμολόγηση.
Αναλύοντας ένα μικρότερο υπολογιστών
με επαναλαμβανόμενα προβλήματα στη
μνήμη, οι ερευνητές διαπίστωσαν ότι στον
ίδιο υπολογιστή το πρόβλημα επαναλαμ-
βάνεται σε ποσοστό 79% στο ίδιο bit.
ΥΠΟΣΥΣΤΗΜΑ ΔΙΣΚΩΝ
Και στους δίσκους υπάρχει αναλογία με
όσα συμβαίνουν στον επεξεργαστή και στη
μνήμη. Η πιθανότητα εμφάνισης πρώτης
βλάβης είναι 1/470 και 1/270 για τους υπο-
λογιστές με λειτουργία πέντε και τριάντα
ημερών αντίστοιχα. Οι αριθμοί αυτοί είναι
αρκετά κοντινοί, αν και ελαφρώς καλύτε-
ροι, από τους αντίστοιχους για τη CPU.
Όμως, οι πιθανότητες δεύτερης και τρίτης
βλάβης εξακοντίζονται κατακόρυφα είναι
αντίστοιχα 1/3,4 και 1/1,9 για τους υπολο-
γιστές με πέντε ημέρες λειτουργίας. Πρό-
σθετη ανάλυση στους υπολογιστές αυτής
της ομάδας έδειξε ότι μετά την πρώτη
βλάβη παθαίνουν και δεύτερη μέσα σε δέ-
κα ημέρες σε ποσοστό 84% και σε έναν
μήνα σε ποσοστό 99%. Τα σφάλματα
στους δίσκους μπορεί να στοιχίσουν ακρι-
βά, γιατί συνεπάγονται απώλεια δεδομέ-
νων. Κατά συνέπεια, μετά την πρώτη βλά-
βη, είναι συνετό ο χρήστης να παίρνει αντί-
γραφο ασφαλείας –αν δεν έχει ήδη– και να
Eρευνα για τιΣ ΒΛαΒεΣ
Στη διεύθυνση
βρείτε μία σύντομη περίληψη
για την έρευνα της Microsoft Research και ένα link για να την
κατεβάσετε σε μορφή PDF.
Στο πλήρες κείμενο της έρευνας υπάρχουν πρόσθετες στατιστικές
αναλύσεις και σύγκριση των αποτελεσμάτων με αυτά άλλων
αντίστοιχων εργασιών.