Hardware

Gateway 1

Discusiones [ Anterior | Siguiente ]
Alternar
(fast) Neues Gateway 1
Respuesta
22/03/20 21:19
Gateway 1 ist ja mein derzeitiges Sorgenkind. Das stürzt in unregelmäßigen, immer kürzer werdenden Abständen ab. Weder Updates noch Angleichung der Konfiguration an die der problemlos laufenden anderen Gateways haben bisher geholfen. Nun habe ich eine neue VM für Gateway 1 erstellt, welche eine 1:1 Kopie von Gateway 3 ist. Damit kann ich, falls immer noch Probleme auftreten, Unterschiede in Programmversionen und Konfiguration komplett ausschließen. Aber vieleicht funktioniert es ja jetzt einfach.

Ich mußte natürlich trotzdem einiges von der Gateway3-Konfiguration fürs Gateway1 anpassen. Kann durchaus sein, daß ich etwas vergessen oder falsch gemacht habe. Probleme also bitte hier melden.

Gateway 1
Respuesta
24/03/20 19:17 en respuesta a Jörg.
Das Klonen von Gateway 3 nach Gateway 1 hat leider genau gar nichts gebracht. Damit können unterschiedliche Programmversionen und Konfigurationen nun ausgeschlossen werden. Es muß also woanders gesucht werden und dazu brauche ich teilweise etwas Unterstützung. Meine Ansatzpunkte:
  1. Ein störendes System finden:
    Ich bin recht sicher, daß das zum Routing verwendete Batman die Abstürze verursacht. Jedenfalls deuten die Kernel-Crashmeldungen darauf hin. Um das ordentlich zu debuggen und an die Entwickler zu melden, fehlen mir Kenntisse und Zeit. Kenntnisse könnte ich z.B. hier holen. Bis ich Zeit habe, folg. Überlegung:
    Irgendwas, was zum Crash führt, triit nur beim Gw1 auf. Warum? Evtl. gibts ein "ungewöhnliches" System (also kein normaler FF-Router), welches sich besonders gern oder nur mit Gw1 verbindet und dann bei durch irgendetwas dessen Crash verursacht. Wer hat eine Idee, was das sein könnte?
  2. Anbindung Portalserver:
    Einziger Konfigurations-Unterschied beim Gw1 ist, daß dieses über eine Bridge im Virtualisierungshost mit dem Portalserver verbunden ist. Dies könnte ich wegnehmen, dann würde der Portalserver inkl. Karte in der Luft hängen. Wer hat ähnliche Systeme wie an unser Mesh-Netz angebunden? Einfach mit Fastd oder Tunneldigger?
  3. Virtualisierungshost:
    Gateway 2 und 3 laufen auf den Cloud-Servern von Hetzner problemlos. Gateway 1 läuft auf einem von mir aufgesetzten Root-Server. Ich halte das aber als Ursache nicht für wahrscheinlich. Die anderen VMs auf diesem Server laufen schon ewig ohne das kleinste Problem. ich wüßte auch nicht, was ich auf dem Root-Server ändern sollte. Updates haben bisher zu keinen Änderungen geführt.
  4. Verzicht auf Gw1:
    Wir könnten aufs Gateway 1 verzichten. Wäre aber schade, weil das wegen eigenem Root-Server das leistungsfähigste ist.

Wer noch andere Ideen hat, kann sich gern melden.

RE: Gateway 1
Respuesta
24/03/20 19:58 en respuesta a Jörg.
Zu 1: ich guck morgen mal durch meine Systeme durch ob da noch eins dabei ist, welches sich ausschließlich oder dauerhaft mit gw1 verbindet (letzters wenn mehrer parallele Tunnel konfiguriert sind). Ließe sich der speziellen Vermutung evtl auf den Grund gehen indem du die DNS-Einträge mal tauschst und damit einen der beiden anderen zum Endpoint von 1.vpn.[...] machst?

Zu 2: prinzipiell sind alle anderen Server direkt mit einer Tunneldigger-Verbindung ans Netz angebunden (Anleitung ist im Wiki).

Zu 3: wenn an der Virtualisierung nicht irgendwas ganz besonders ist, kann ich mir das auch nicht so richtig vorstellen. Ausschließen möchte ich es aber ebenfalls nicht.

RE: (fast) Neues Gateway 1
Respuesta
25/03/20 11:19 en respuesta a Jörg.
Zu 1:
Wenn ich raten müsste, würde ich auch auf den Punkt tippen. Ich schau die Backboneserver mal durch, aber da sollten 1-4 dabei sein, die sich nur/hauptsächlich mit GW1 verbinden. Wenn da irgendwas Amok läuft, wäre das zumindest eine hübsche Erklärung.
  • FWS    kein Tunneldigger auf die GWs
  • KHS    kein Tunneldigger auf die GWs
  • GSZ    kein Tunneldigger auf die GWs
  • KUK    td@1 failed, td@2 läuft, td@3 failed
  • ROY    td@1 failed, td@2 läuft, td@3 failed
  • FWM    kein Tunneldigger auf die GWs
  • ZG2    kein Tunneldigger auf die GWs
  • SDF    kein Tunneldigger auf die GWs
  • KAS    nicht erreichbar
  • VHS    td@1 failed, td@2 läuft, td@3 failed (@1 war bisher die einzige Verbindung, das habe ich jetzt mit @2 getauscht)
  • E15    kein Tunneldigger auf die GWs
  • IGS    nicht erreichbar
  • SBT    td@{1,2,3} eingerichtet, aber aus
  • SGZ    td@{1,2,3} eingerichtet, aber aus

Zu 2:
Grundsätzlich habe ich die Anleitung für den Backbone genommen. Eventuell gab es kleinere Abweichungen, aber im groben Überblick würde ich das eher leugnen. (Hmm. Die letzten Seitenversionen sind von mir. Falls es Abweichungen gab, stehen die jetzt drin.)

Zu 3:
Wir haben auf diversen Blechmaschinen (ROY, KUK, FWM, ...) gelegentlich das Problem, dass nach unbestimmter Zeit Batman abraucht, die Interface nicht freigibt und gleichzeitig auch nicht mehr erreichbar macht. Ein normaler Reboot hilft dann nicht mehr weil, sich das System totwartet auf die Schnittstellen. Das würde eventuell erklären, warum es einen Unterschied zwischen GW1 und GW2/3 gibt. Vielleicht ist die Zwischenschicht irgendwie hilfreich.

RE: (fast) Neues Gateway 1
Respuesta
25/03/20 16:11 en respuesta a Matthias Drobny.
@Eric:
DNS tauschen ist eigentlich keine schlechte Idee. Da hängen aber noch mehr Dinge dran (IC-VPN mit Keys, Fastd mit Keys usw.), die dann wohl mit getauscht werden müßten. Und allzuviel ändern möchte ich in den Konfigurationen nicht, meistens wird es dabei nicht besser...

@Matthias:
Den Tunneldigger-Status hast Du Dir sicher angesehen, währed Gw1 wieder down war. Deswegen die "failed". Bei Gw3 ist "failed" aber komisch...
Zu 3.): GW1 läuft ja auch nicht auf Blech, sondern als VM auf dem von mir verwalteten Blech (dem Unitas-Rootserver). Bei Gw2 und Gw3 wird das Blech von Hetzner verwaltet. Die Unterschiede dürften aber nur gering sein, die machen das auch mit Linux unf KVM.

Ich habe in der Zwischenzeit auch mal einen Debug-Kernel gebaut, Gw1 müßte bei einem Crash jetzt einen Core-Dump erzeugen. Ob ich dem dann etwas Sinnvolles entnehmen kann, müssen wir sehen...

RE: (fast) Neues Gateway 1
Respuesta
13/04/20 21:19 en respuesta a Jörg.
Hast du zum Beispiel mit Hilfe des Debug-Kernels irgendwas herausgefunden?

Als Workaround würde ich, wenn es richtige Kernelpanics sind, vorschlagen, dass du den Reboot bei einer Panic aktivierst.
Dann ist das GW1 nicht über längere Zeit nicht mehr erreichbar (wie z.B. aktuell 13 Stunden) und damit bleibt auch die Karte einigermaßen aktuell.

Dafür einfach in der /etc/sysctl.conf den Wert kernel.panic=<number of seconds> aktivieren / hinzufügen.
Auf den anderern beiden GWs ist der Wert auskommentiert auf 3 Sekunden, was ich als guten Wert erachten würde.

Sollte es keine 'richtige' Panic, sondern z.B. ein OOPS sein, müsstest du noch einen der panic_on_ Werte aktivieren.

Edit: Ich habe ersteres auf GW1 mal aktiviert. Wenn aus deiner Sicht was dagegen spricht, kannst du es ja wieder ändern.