Meldungen und Artikel

Meldungen und Artikel aus dem RRZE

Inhalt

[Behoben] Netzwerkausfall

Netzwerkausfall am 29.11.2012

Aufgrund einer Störung (Loop) in einem der zentralen Routern der Universität kam es heute zwischen 14:40 und 14:50 Uhr zu einem Netzwerkausfall.

Das Problem wurde von den zuständigen Mitarbeitern schnell selbst entdeckt und umgehend behoben.

Störung der zentralen Suchmaschine (behoben)

Die zentrale Suchmaschine der Universität ist derzeit aufgrund eines Dateisystemfehlers nicht erreichbar.

An der Fehlerbehebung wird gearbeitet.

Update (28. Juni, 16:00)

Mittlerweile wurde die Suchmaschine auf ein neues Rechnersystem umgezogen und ist wieder voll funktionsfähig.

Stromausfall -> Größere Störung (Behoben)

Aufgrund eines ungeplanten Stromausfalls von ca. einer Stunde und eines Problems mit der Notstromversorgung des Serverraumes kam es am Abend des 15.6. zu einem Totalausfall aller Systeme im Serverraum des RRZE in der Martenstraße.

Die Verfügbarkeit aller Dienste konnte daher am Wochenende leider nicht sichergestellt werden.

Chronologie der Ereignisse:

  • 19:26 Stromausfall in Erlangen Sued-Ost und Tennenlohe. Ursache war laut ESTW eine defekte Isolation an einer 20 kV Leitung.
  • 19:27 Der Dieselgenerator fuer das Suedgelaende, der u.a. das RRZE versorgen sollte, schafft es nicht die Notstromversorgung zu uebernehmen
  • 19:42 Die Akkus der RRZE-USV sind leer – Stromausfall und damit Totalausfall aller Systeme im Serverraum
  • 20:22 Erlangen Sued hat wieder Strom, auf dem Uni Suedgelaende ist noch manuelle Nacharbeit noetig um die Stromversorgung wiederherzustellen.
  • 21:00 Strom im Serverraum ist teilweise wieder da. Es dauert (z.B. aufgrund ausgeloester Unterspannungsschutzschalter) bis etwa 21:30 bis alle Systeme wieder mit Strom versorgt werden.
  • 21:05 Erste Teile des Netzes funktionieren wieder

Status of the HPC systems: all systems and services are up and running again

  • all filesystems except /wsfs = $FASTTMP on Woody should be available again
  • filesystem /wsfs = $FASTTMP on Woody: available on the Woody frontends since 2012-06.16, 20:00 (via TCP only, i.e. not via Infiniband)
  • cshpc: up and running again
  • memoryhog: up and running again
  • Transtec cluster: sfront03/sfront04 are available again; batch processing on the Opteron nodes (snode2xx) has been resumed on 2012-06-16, 19:00. Batch processing on the Townsend nodes (snode3xx) has been resumed on 2012.06-18, 17:30 after hardware problems of the Infiniband fabric have been resolved
  • Woodcrest cluster: woody* frontends are available; batch processing has been resumed on 2012-06-17, 21:00 after hardware problems with the Infiniband switch have been solved
  • LiMa cluster: up and running again; lima1/lima2 frontends are available; batch processing has been resumed on 2012-06-16, 16:30
  • Tiny*: up and running again; batch processing hs been resumed on 2012-06-16, 16:30
  • Windows cluster: up and running again since at least 2012-06-16, 23:30; “aycasamba” became available of 2012-06-18 at 13:30

Status OpenVPN (22.06.2012)

  • Der Dienst läuft seit gestern wieder stabil auf neuer Hardware

Netzausfall legt Universität Erlangen-Nürnberg lahm

Aufgrund eines technischen Fehlers in den Netzwerkkomponenten, welche die RRZE-zentralen Dienste verwalten, kam es gestern ab 14:53 Uhr zu massiven Störungen und länger andauernden Ausfällen.

Trotz Einsatz aller Kräfte konnte die volle Funktionalität erst gegen 20:45 Uhr wieder hergestellt werden.

Ursache war eine schwer zu ermittelnde Fehlfunktion innerhalb der für das dynamische Routing (OSPF) beteiligten Prozesse, die wiederum zu einer gegenseitigen Störung der eigentlich redundant ausgelegten Netzwerkkomponenten führte.
Betroffen waren alle zentralen Server der Universität.

Das RRZE bedauert die Unannehmlichkeiten, die sich durch diesen Ausfall der Netzanbindung ergeben haben.

 

Netzwerkprobleme (3. Update)

Zwischen 14:58 Uhr und 21:50 Uhr kam es zu massiven Netzwerkproblemen. Der Zugriff auf zentrale Server ist stark gestört oder nicht möglich. Die Verbindung in und aus dem Netzwerk der Universität war teilweise nicht möglich.

Update 1 (15:40 Uhr)

Nach aktuellen Stand normalisiert sich die Lage wieder. Die Ursachen für die Störungen sind derzeit noch unklar. Sobald genaueres bekannt ist, werden wir hierzu nochmal berichten.

Trotz Eingrenzung der Problemursache auf zentrale Systeme, kann noch keine Entwarnung gegeben werden.

Update 2 (19:34 Uhr)

Blogdienst und Groupware-Server scheinen derzeit wieder in Betrieb zu gehen. Der zentrale Webcluster und andere zentrale Server sind weiterhin unerreichbar.

Update 3 (21:50 Uhr)

Die Ursache des Ausfalls (Fehler in den OSPF-Prozessen zwischen den Routern reliant und sitak (ipv6 war ebenfalls betroffen)) konnte gefunden und eine Lösung hergestellt werden.
Die Netzwerkverbindungen wurde ab 20:45 Uhr wieder vollständig hergestellt. Davon abhängige Server, darunter der Webcluster und dessen Loadbalancer starteten sich danach wieder. Ab 21:50 Uhr war der zentrale Webcluster wieder erreichbar.

 

 

 

Kurzzeitiger Ausfall der Webserver

Aufgrund einer Fehlkonfiguration an einer zentralen Stelle kam es heute zwischen 10:31 Uhr und 11:02 Uhr zu einem Ausfall der zentralen Webserver.

Das Problem und die Ursache wurden behoben.

Wir bitten die Unannehmlichkeiten zu entschuldigen.

 

 

Videoportal kurzfristig ausser Funktion (behoben)

Aufgrund eines technischen Problems ist das zentrale Videoportal der Universität derzeit nicht abrufbar. Betroffen ist auch das iTunes-Angebot.

Das Problem trat zuerst heute vormittag, gegen 10 Uhr auf.

An der Behebung des Problems wird bereits durch mehreren Experten gearbeitet.
Leider kann eine Aussage über die Wiederinbetriebnahme noch nicht gegeben werden.

Update: Das Problem wurde behoben.

Kurzzeitiger Ausfall von Webserver

Heute kam es zwischen 10:24 Uhr und 11:08 Uhr zu einem Ausfall von verschiedenen Servern, darunter einer der zentralen Webserver der Universität.
Ursache war ein Defekt in einem Netzwerkanschluss.

Ausfall infodialog (Behoben)

Derzeit ist der zentrale Dialogserver (infodialog.rrze.uni-erlangen.de , bzw. infofs.rrze.uni-erlangen.de) ausgefallen. Ein Login zur Bearbeitung von Webseiten mittels SSH oder SFTP ist daher derzeit nicht möglich.

Der Server ist seit gestern abend um 22:52 Uhr ausgefallen.
Wir werden darüber informieren, wenn das Problem behoben wurde.

Update (09:36 Uhr)
Das Problem konnte heute früh um 7:45 Uhr behoben werden.