RAID5 Fallito: Ho (QUASI) perso TUTTI i dati sul mio personal server

แชร์
ฝัง
  • เผยแพร่เมื่อ 4 พ.ย. 2024
  • Questo è uno di quei video che non avrei MAI voluto portare sul canale
    In questo video voglio raccontarvi un po' quello che mi è successo durante lo scorso weekend, e vorrei darvi qualche spunto per non rifare i miei stessi errori e ritrovarvi nella stessa situazione di corsa contro il tempo in cui mi sono ritrovato negli ultimi giorni.
    Da un po' di tempo, ho iniziato a riscontrare una leggera latenza durante la copia dei miei dati da e verso la mia istanza di samba server, copia che partiva velocemente salvo poi avere dei momenti di down. Ho iniziato ad avere questi problemi in concomitanza con l'aggiornamento di Proxmox dalla versione 7 alla versione 8, ho quindi pensato a più cause: dischi del RAID sul viale del tramonto, qualche aggiornamento del software, rete instabile, insomma, ho cercato di escludere tutte queste cause e alla fine mi ero convinto che il problema fosse samba con PVE8, dato che ultimamente il forum di proxmox pullula di queste segnalazioni con problemi simili ai miei.
    Ora la domanda sorge spontanea, come ti sei accertato che il problema non fosse il RAID? Beh, ho fatto probabilmente quello che chiunque avrebbe fatto: ho guardato lo SMART, che per chi non lo sapesse, è una tabellina presente in ogni dispositivo di storage che racconta la vita del nostro disco: ci dice da quanto tempo è stato acceso, quante volte è stato acceso, in quanto tempo le testine raggiungono i piatti dall'accensione, se si sono verificati degli errori in lettura durante la vita del nostro disco, se sono presenti settori danneggiati e se questi sono stati riallocati, insomma, uno strumento molto importante per diagnosticare lo stato di salute dei nostri hard disk ed SSD.
    Esattamente due settimane fa, ho controllato lo smart di tutti e tre i miei hard disk, e tutti e tre i dischi erano in buono stato, ragion per cui ho assolutamente escluso gli hard disk dal banco degli imputati. Tra l'altro, avevo intenzione di aggiornare questi dischi da un annetto a questa parte, e probabilmente se l'avessi fatto mi sarei risparmiato tutto questo stress.
    I primi mesi del 2023 avevo la possibilità di sostituire i tre hard disk ma non l'ho fatto, mi sono fatto influenzare dai grafici dei prezzi che andavano sempre più su.
    Perché dovresti sostituire dei dischi che in realtà sono funzionanti? In generale i dischi non sempre si sostituiscono per rotture o guasti, a volte si cambiano sia perché ovviamente è finito lo spazio e ci serve una casa più grande, e sia perché da specifica questi dischi hanno nel datasheet una informazione che ci dice mediamente quanto può vivere prima di morire inesorabilmente, per questo motivo andrebbero sostituiti a intervalli quasi regolari.
    Ma torniamo a noi, perché il mio RAID5 è fallito? Sabato pomeriggio ho iniziato a riorganizzare i dati sul personal server, la mia intenzione era quella di rimuovere le vecchie macchine virtuali al cui interno girano samba, proxmox, transmission e plex in favore di una gestione più atomica dei servizi: volevo passare ai container, isolando le varie tipologie di dati presenti. Ho iniziato quindi a fare il setup di un nuovo container che si doveva occupare solo ed esclusivamente di servire i dati relativi ai video dei corsi e di youtube. Inizio quindi la copia ma c'è qualcosa che non va, spesso alcuni dati sono lenti da copiare, e altre volte l'OOM killer mi uccide il servizio di samba per timeout.
    Sabato sera, o meglio domenica notte, torno a casa e decido di fare gli aggiornamenti su Proxmox. Riavvio il server per applicare le modifiche e lì inizia l'inferno.
    Dopo qualche minuto proxmox non viene su, mi collego quindi a PiKVM e scopro che il sistema è in avvio protetto, non solo, mdadm ha espulso uno dei miei dischi dal RAID.
    Mi raccomando seguite il video fino alla fine perché probabilmente imparerete qualcosa di nuovo su come gestire una situazione di disaster recovery come la mia, situazione che potrebbe capitare a tutti prima o poi.
    Cosa possiamo imparare da questa esperienza? Che sicuramente il RAID non sostituisce un backup, sicuramente ci aiuta ad evitare di dipendere dalla salute di un disco singolo, ma è importante avere sempre un backup dei dati a disposizione. Io ne avevo uno ma non recentissimo, sicuramente sono riuscito a recuperare la maggior parte dei dati più importanti, altri dati come film, software e sistemi operativi ho deciso deliberatamente di perderli perché avrei potuto riscaricarli senza problemi.
    Inoltre, impariamo a leggere lo SMART dei nostri dischi ma a non considerarlo come verità assoluta e soprattutto cerchiamo di garantire il giusto turnover ai dischi presenti sui nostri NAS o sui nostri server consultando il tempo di vita media sul datasheet.
    Abbonati a questo canale per accedere ai vantaggi:
    / @angelocassano
    Iscriviti sul mio canale Telegram per restare sempre aggiornato sulle novità! t.me/angelocas...

ความคิดเห็น • 19

  • @marconwps
    @marconwps 8 หลายเดือนก่อน +3

    Il raid 5 non è una backup!! Regola del 3-2-1 molto valida. ;)

  • @zbearbosecondo5278
    @zbearbosecondo5278 3 หลายเดือนก่อน

    Ribadisco che un raid NON E' un backup, e conosco gente che ha perso tutto pensando che un raid fosse sicuro al 100%. E giusto per dire ho avuto lo stesso problema su un raid 5 con 4 dischi uguali WD blue da 3.0 TB su un raid hardware 9650SE-8. Prima è morto un hdd: sostituito subito con un disco da 3TB Toshiba che tenevo di scorta. Dopo circa 16 ore il raid era riscostruito e perfetto. DOPO MENO DI 24 ORE il secondo disco è andato fuori linea!! Il raid con 3 dischi ancora andava, ma è PERICOLOSISSIMO tenerlo in quella situazione. Il bello è che i 2 dischi espulsi dal raid SONO RISULTATI PERFETTI ai test, smart compreso, ma il raid OSTINATAMENTE li dichiara DIFETTOSI e si rifiuta di rimontarli. QUINDI: con i 2 dischi espulti più un terzo disco che il raid si rifiutava di usare ho installato i 3 dischi sotto windows, li ho usati per fare il backup del raid, e poi l'ho staccato, in attesa dell'arrivo di 2 dischi nuovi WD ordinati. Il raid è TOTALMENTE spento per sicurezza totale dei miei dati e lavoro con i backup, per ora. PER LA SICUREZZA VERA, comunque, CONSIGLIO CALDAMENTE RAID 6 FINO AD UN MASSIMO DI 10 DISCHI!!

  • @AndreaVenturi
    @AndreaVenturi 8 หลายเดือนก่อน +2

    Ora vado a controllare i miei dischi, terrore!

  • @rrgg1220
    @rrgg1220 8 หลายเดือนก่อน +2

    Ho 30 anni di esperienza sugli hard disk, non vi fidate troppo dei parametri smart, ho visto personalmente dischi con salute ottimi rompersi dopo 1 ora, ho un disco coi parametri sballati che funziona "usò home" da 5 anni

    • @acwebdesigner
      @acwebdesigner 7 หลายเดือนก่อน

      ecco perche esistono i cloud

  • @Giovanni-ej4jo
    @Giovanni-ej4jo 8 หลายเดือนก่อน +1

    Ciao Angelo, ho notato che hai dei WD Red x NAS. Mi permetto solo di consigliarti di andare a guardare in giro per verificare che in realtà i WD x NAS anche se riportano la scritta NAS, non sono effettivamente adatti per un sistema di aggregazione e sono da evitare.
    Complimenti per il resto.

    • @AngeloCassano
      @AngeloCassano  8 หลายเดือนก่อน

      Ciao Giovanni, c'è molta disinformazione in giro in merito all'argomento. Il "problema", se così si può definire, ha a che fare con la combinazione di tecnologia di scrittura dei dati e la tipologia di utilizzo che se ne fa del disco.
      I dischi WD RED per NAS da "scandalo" passami il termine, sono quelli con tecnologia SMR, poco performanti in determinati ambiti, specie quando ad esempio si usano con alcune tecniche di RAID.
      Lo scandalo è nato quando WD ha iniziato a spezzare la lineup di dischi in dischi RED standard, plus e pro. I miei WD RED sono di prima generazione, e sono tutti e tre con tecnologia CMR, quindi perfetti per una configurazione RAID, e di conseguenza NAS.
      Anche i nuovi che ho appena acquistato sono tutti e tre CMR e sono dei WD RED PRO, la nuova lineup Western Digital pensata appositamente per questo tipo di soluzione.
      Ma di questo ne parlerò in un altro video!

  • @Danny-ml2ny
    @Danny-ml2ny 8 หลายเดือนก่อน

    Dovrebbe fare una serie di video in cui spiega come creare un raid oggi (raid 1, 5 ecc.) da zero con linux (Ubuntu, Mint o Zorin che sia essendo basati su Ubuntu).
    Una guida semplice sarebbe molto interessante. Senza impegno naturalmente, io provo a fare un suggerimento perché tante persone non son esperte come Lei e vorrebbero farsi un raid senza comprare Synology o altri.
    Grazie per questo video

  • @cicciowinks
    @cicciowinks 8 หลายเดือนก่อน

    È successo anche a me ringrazio tantissimo qnap per aver perso tutto

  • @marconwps
    @marconwps 8 หลายเดือนก่อน

    Per le tech raid meglio ZFS lato negativo molto esoso in risorse o approcci SDS esoso sulle dimensioni "perse" esempio 6Tb di dischi visti e utilizzabili 3 ( dato ridondato 3 volte). MA RIPETIAMOLO IL RAID NON È UNA BACKUP!!! 😊

  • @PasqualeLassandro
    @PasqualeLassandro 8 หลายเดือนก่อน

    Da qualche mese ho messo su anche io un piccolo server ed utilizzo il sistema operativo Unraid. Ottimo perchè puoi mischiare hdd di diversi tagli di memoria ed utilizzare 1 o 2 dischi di parità, a patto che siano più grandi di un altro disco qualsiasi. Come logica di utilizzo e sicurezza mi pare eccezionale ed inoltre sommi la capacità di ogni singolo hdd.
    Se qualcuno dovesse rompersi, va in emulazione tramite il parity disk e si può ricostruire l'array.
    Ps: ottimo il case, sembra il mio Fractal Design Node 804

    • @AngeloCassano
      @AngeloCassano  8 หลายเดือนก่อน +1

      Ciao Pasquale, è proprio il node 804!
      Purtroppo Unraid non fa proprio per me perché ho tutta un’altra serie di necessità, però nella gestione dei dischi è un sistema operativo molto buono e pensato solo per fare quello e poche altre cose

    • @PasqualeLassandro
      @PasqualeLassandro 8 หลายเดือนก่อน

      @@AngeloCassano docker e vm si possono usare. Io ci faccio girare anche un’istanza di Home Assistant e anche Klipper per la stampante 3d!
      Magari hai necessità ancora piu specifiche

  • @Mago39
    @Mago39 8 หลายเดือนก่อน

    Avendo proxmox perchè non hai messo tutto sotto zfs ,oltre alla robustezza , hai possibilita' di fare lo scrub per rilevare e prevenire errori prima che si traducano in errori hardware

    • @AngeloCassano
      @AngeloCassano  8 หลายเดือนก่อน +1

      Ciao Marco, quando ho installato questo array, ZFS non era ancora disponibile su Proxmox. I nuovi dischi li installerò proprio in ZFS :)

  • @OlindoPindaro
    @OlindoPindaro 8 หลายเดือนก่อน

    Per questo uso raidz2

  • @marco-nk2np
    @marco-nk2np 8 หลายเดือนก่อน

    Ma un raid con dischi comprati tutti insieme e quindi stessa età e stesso logorio è un ottimo presupposto per un crollo simultaneo di più dischi in "quasi" contemporanea. Io preferisco età diverse e al tuo posto ricostituirei il raid con due nuovi dischi e il vecchio se regge, Fra 6 mesi aggiungi il terzo disco nuovo passando da raid 5 a raid 6 e quando ti molla il vecchio disco lo sostituisci con un'altro nuovo. risultato Raid6 con solo due dischi con usura uguale. IMHO

    • @AngeloCassano
      @AngeloCassano  8 หลายเดือนก่อน

      Ciao Marco, in realtà non è detto, però può accadere soprattutto se i dischi sono tutti dello stesso lotto. Nel mio caso i dischi provenivano da tre lotti differenti, tant'è che il primo disco è morto nel 2020 ed è stato sostituito in garanzia da Western Digital.
      Quello che poi ha preso più schiaffi, anche se è stato espulso per ultimo dal RAID, è proprio quello che mi avevano sostituito via RMA, oggi al momento della disconnessione contava quasi 500 settori danneggiati.
      In ogni caso li sto sostituendo tutti e tre perché ognuno di essi presenta settori danneggiati