• =?UTF-8?Q?Software_RAID_=28mdadm=29_/_Ger=C3=A4t_via_BMC_d?= =?UTF-8?Q?

    From Benny K@21:1/5 to All on Wed Nov 23 16:00:01 2022
    Hi Leute,

    wir haben etwas Streß mit einem IT-Lieferanten/Dienstleister:

    - Wir haben einen Server mit 2 x NVMEs
    - NVMEs via. mdadm als raid1 konfiguriert, lief bisher einige Wochen einwandfrei
    - Kürzlich ist eine NVME ausgefallen

    Auszug syslog:

    Nov 20 01:31:21 server kernel: [4638997.424557] md/raid1:md0: Disk failure on nvme1n1p1, disabling device.
    Nov 20 01:31:21 server kernel: [4638997.424557] md/raid1:md0: Operation continuing on 1 devices.
    Nov 20 01:31:21 server udisksd[2123]: Unable to resolve /sys/devices/virtual/block/md0/md/dev-nvme1n1p1/block symlink
    Nov 20 01:31:21 server udisksd[2123]: Unable to resolve /sys/devices/virtual/block/md0/md/dev-nvme1n1p1/block symlink


    Wir hatten natürlich erstmal die NVME in Verdacht.

    Was haben wir getan?
    lspci: 1 von 2 NVME wurden angezeigt
    nvme list: 1 von 2 NVME wurden angezeigt

    Server rebootet, im BIOS geschaut: nur eine NVME zu sehen

    Server ausgeschaltet, die "defekte" NVME ausgebaut und direkt wieder in denselben Slot eingebaut. Server gestartet:
    - BIOS zeigt 2 x NVME an
    - lspci, nvme list zeigen wieder beide NVMEs an
    - mdadm rebuild hat auch funktioniert


    Beim Dienstleister nachgefragt, was passiert sein könnte - die Antwort:
    "Der Treiber kann bei Systemen mit BMC bei einzelnen Geräten ein disable flag setzen."

    Frage an euch: Kann das wirklich so stimmen? Kann man das irgendwo nachlesen oder zurückverfolgen, ob dies tatsächlich der Fall sein könnte? Hätte das Device dann nicht trotzdem wenigstens im BIOS als "disabled" oder so angezeigt werden müssen,
    anstatt überhaupt gar nicht aufgelistet zu sein?

    Das Ding ist, dass wir eher einen Hardware-Defekt sehen (NVME und/oder Mainboard-Slot) und der Dienstleister behauptet, dass das Software-RAID für die ganze Problematik verantwortlich ist, mit dem Hinweis auf ein Hardware-RAID zu setzen. Bzgl. Hardware-
    RAID gebe ich ihm natürlich Recht, aber kann ein Software-RAID und/oder Treiber wirklich so tief in das System eingreifen, dass die NVME nicht mal mehr in BIOS zu sehen ist?

    Bin auf eure Meinung und Hilfe gespannt!

    Viele Grüße und Danke schonmal!
    Benjamin

    --- SoupGate-Win32 v1.05
    * Origin: fsxNet Usenet Gateway (21:1/5)
  • From Pierre Bernhardt@21:1/5 to All on Tue Nov 29 13:00:01 2022
    Am 23.11.22 um 15:53 schrieb Benny K:
    Moin,

    Du hattest das System nicht ausgeschaltet und neu gestartet gehabt bevor Ihr die Slots getauscht habt? Dann war eher der Powerswitch der behebende Teil.
    In meinen Augen könnte sich die NVMe intern aufgehängt oder nicht mehr gemeldet haben was dann erst mit dem Power-Switch behoben wurde.

    Eine andere Möglichkeit könnten Kommunikationsprobleme mit der NVMe sein durch Kontaktprobleme sein. Dann wäre das neu stecken der NVMe die
    Lösung gewesen.

    Im beiden Fällen müsste es Meldungen im dmesg kurz vor dem Ausfall gegeben haben.

    Wenn es im Moment läuft würde ich einen ausgiebigen Lasttest machen und auf einen der oben genannten Probleme tippen. Hilfreich könnten auch noch
    Tests mit smartctl sein. Die könnte auch bei den NVMe funktionieren. Bei meinen Kingston gibt es aber nur Ausgaben. Die Tests scheinen nicht zu gehen. Ich habe aber nicht weiter experimentiert.

    Vielleicht helfen das nvme-cli Paket mehr. Ich habe es gerade gefunden.

    Ich würde auch mal über den Hersteller schauen ob es nicht neuere FW für
    die Teile gibt. Vielleicht wurde ein Bug getriggert und hat dafür gesorgt
    das sich die eine NVMe vorübergehend „abgemeldet“ hat.

    Das Problem auf den Softwareraid zu schieben halte ich für eine Ausrede.
    Das Softwareraid macht nichts anderes als es das BS ohne machen würde.
    Wenn das SW-Raid das antriggert dann würde es in meinen Augen vermutlich
    auch ohne angetriggert werden.
    Das das OS mit dem SWRaid das BMC des Boards sagt es solle die NVMe „abschalten“ würde ich nicht ausschließen können, da ich mich mit den Möglichkeiten und der Kontrolle des BMC vom OS nicht auskenne, aber ich
    glaube nicht, das da was unkonfiguriert für die HW passiert.

    Und das ein Device als defekt markiert wird und nicht mehr ins System kommt
    ist eher eine Sache die HW-Raids machen. Wegen deren abgeschlossenen und undurchsichtigen Umgang mit den Daten auf den Devices setze ich daher schon lange nur auf Soft-Raid. Das hat mir schon einige male geholfen und ein Umzug auf
    neue HW war damit auch immer seeeeehr einfach. Meine Raidkarte wird auch nur wegen der vielen Anschlüsse noch als reiner Controller verwendet.
    Die Geschwindigkeit ist nicht die beste aber wenn der Controller mal wieder ausfällt, dann muss ich nur einen oder zwei finden die auch ohne RAID die devices zum OS durchreichen.

    MfG,
    Pierre

    --- SoupGate-Win32 v1.05
    * Origin: fsxNet Usenet Gateway (21:1/5)