Fehlertolerante Parallelrechnersysteme: Rückblick auf Forschungsarbeiten in Erlangen, Augsburg, Paderborn und Lübeck 1977-2002

Erik Maehle

Abstract

Die hohe Komplexität von Parallelrechnersystemen - heutige Hochleistungsrechner besitzen bis zu ca. 10.000 Prozessoren [Top500] - führt zu einer hohen Wahrscheinlichkeit für Hardwarefehler. Aufgrund der inhärenten Redundanz dieser Systeme bietet sich Fehlertoleranz zur Erhöhung der Zuverlässigkeit und Verfügbarkeit besonders an. Allerdings ist das Hauptziel für Parallelrechner hohe Rechenleistung (heute bis von mehreren Dutzend TeraFlops), die durch die Fehlertoleranz nicht nennenswert beeinträchtigt werden darf. Im Zuge der im Folgenden beschriebenen Arbeiten seit 1976/77 an den Universitäten Erlangen, Augsburg, Paderborn und Lübeck wurden Fehlertoleranzverfahren für verschiedene Generationen von Parallelrechnern entwickelt, angefangen von experimentellen Multiprozessoren auf der Basis der ersten verfügbaren Mikroprozessoren in den 70er Jahren, über Multitransputersysteme in den 80er Jahren bis zu PC-Clustern in den 90er Jahren. Gemeinsame Grundlage ist der Einsatz dynamischer Redundanz, die sich aufgrund ihres niedrigen Ressourcenbedarfs für Parallelrechner besonders anbietet. Weiterhin war Benutzertransparenz ein wesentliches Ziel. Methodisch wurden vor allem graphentheoretische Modelle angewendet, die neben theoretischen Untersuchungen die Basis für die Implementierung und praktische Evaluation der entwickelten Verfahren in realen Prototypen bildeten. Während Parallelrechner sich als Hochleistungsrechner für technisch/wissenschaftliche Anwendungen mittlerweile fest etabliert haben, wird deren Fehlertoleranz - anders als z. B. bei parallelen OLTP (On-Line Transaction Processing)-Systemen - trotz der recht ausgereiften Verfahren immer noch recht rudimentär seitens der Industrie unterstützt – in der Regel nur benutzergesteuerte Varianten (z. B. Checkpointing/Restart). Im Folgenden werden nun in chronologischer Reihenfolge die einzelnen Projekte, die größtenteils drittmittelgefördert waren, kurz beschrieben und die wichtigsten Ergebnisse aufgeführt.
Original languageGerman
Title of host publicationMitteilungen der Fachgruppe Fehlertolerierende Rechensysteme
Number of pages18
Publication date2002
Pages81-98
Publication statusPublished - 2002

Cite this