Lunedì mattina, 8:15. Arrivi in ufficio, accendi il PC e… niente. Il server aziendale non risponde. Nessuno riesce ad aprire i file, la posta non funziona, il gestionale è irraggiungibile. Il telefono squilla, i colleghi si ammassano alla tua scrivania. Ogni minuto che passa costa soldi. Questa guida ti aiuta a capire in fretta cosa non va e a decidere quando puoi risolvere da solo e quando è il momento di chiamare qualcuno.
Indice dei Contenuti
- 1. RAID Degradato: Il Killer Silenzioso
- 2. Errori RAM e Instabilità di Sistema
- 3. PSU Failure e Problemi di Alimentazione
- 4. BSOD e Kernel Panic: Crash di Sistema
- 5. Active Directory e Problemi di Autenticazione
- 6. DNS/DHCP Down: Nessuno Naviga
- 7. Storage Pieno: Quando lo Spazio Finisce
- 8. Surriscaldamento e Problemi Ambientali
- 9. Quando Chiamare un MSP
- 10. Domande Frequenti
1. RAID Degradato: Il Problema Silenzioso
Il RAID (in parole semplici: il sistema che protegge i dati del server usando più dischi in parallelo). Quando un disco si guasta, il RAID passa in stato "degradato": il server continua a funzionare, ma senza rete di sicurezza. Se un secondo disco cede prima della sostituzione, i dati sono persi.
Segnali di RAID degradato
- • LED ambra/rosso sul frontalino del server o sui dischi
- • Alert nel controller RAID (Dell PERC, HP Smart Array, Lenovo ServeRAID)
- • Prestazioni I/O drasticamente ridotte (lentezza generale)
- • Errori S.M.A.R.T. nei log di sistema
- • Rumori anomali dai dischi (click, grind)
Cosa fare subito: accedi all'interfaccia di gestione hardware del server (iDRAC per Dell, iLO per HP, XClarity per Lenovo) e verifica lo stato del RAID. Se un disco risulta "Failed" o "Predictive Failure", non spegnere il server — sostituisci il disco hot-swap il prima possibile. Se non hai un disco di ricambio compatibile, contatta immediatamente il supporto hardware o il tuo MSP.
Prevenzione: configura gli alert email/SMS del controller RAID, tieni sempre un disco hot-spare pronto e monitora i parametri S.M.A.R.T. con un tool di monitoraggio proattivo. Un MSP controlla questi parametri ogni 5 minuti e interviene prima che il guasto diventi critico.
2. Errori RAM: Quando la Memoria Ti Tradisce
I moduli RAM dei server hanno una tecnologia chiamata ECC (Error-Correcting Code) che corregge automaticamente i piccoli errori. Ma quando i moduli iniziano a degradarsi, gli errori diventano troppi e il server diventa instabile — riavvii improvvisi, schermate blu, blocchi casuali.
Errori corretti (CE)
La RAM ECC corregge l'errore automaticamente. Uno sporadico è normale, ma centinaia in poche ore indicano un modulo in fase di cedimento. Controlla Event Viewer > System per eventi WHEA-Logger.
Errori non corretti (UCE)
L'errore è troppo grave per essere corretto. Causa BSOD immediato (WHEA_UNCORRECTABLE_ERROR) o kernel panic su Linux. Richiede sostituzione immediata del modulo DIMM difettoso.
Diagnosi rapida: su Windows Server, apri il Visualizzatore Eventi > Registri di Windows > Sistema e filtra per "WHEA-Logger". Su Linux, usa edac-util -s o controlla dmesg | grep -i "memory". Il tool di gestione hardware (iDRAC/iLO/XClarity) indica esattamente quale slot DIMM è difettoso.
Intervento: spegni il server, identifica il modulo DIMM difettoso (il tool di gestione indica lo slot esatto), sostituiscilo con un modulo identico (stesso produttore, stessa velocità, stessa capacità). Non mischiare moduli di brand diversi nei server — può causare instabilità anche con RAM funzionante.
3. Alimentatore Guasto: Il Server Si Spegne di Colpo
I server enterprise hanno due alimentatori (dual PSU): se uno si guasta, l'altro tiene acceso tutto. Il guaio è che se non te ne accorgi e anche il secondo cede, il server si spegne senza preavviso.
LED ambra sull'alimentatore
Un PSU in fault mostra LED ambra o rosso. Il server funziona ancora con l'altro PSU, ma hai perso la ridondanza. Sostituisci il PSU guasto il prima possibile — sono hot-swap, non serve spegnere il server.
Server si spegne improvvisamente
Se il server si spegne senza motivo, controlla: 1) entrambi i PSU (LED, log hardware), 2) stato dell'UPS (batteria scarica? sovraccarico?), 3) presa elettrica e cablaggio. Un UPS con batteria vecchia (>3 anni) può non reggere il carico durante un micro-blackout.
Riavvii ciclici (boot loop)
Il server si accende, gira per pochi secondi e si spegne di nuovo. Causa comune: PSU insufficiente dopo aggiunta di hardware (dischi, RAM, GPU), oppure cortocircuito su una periferica. Prova a scollegare le periferiche non essenziali e riavvia.
Best practice: configura alert SNMP per la ridondanza PSU nel tuo tool di monitoraggio, sostituisci le batterie UPS ogni 3 anni e assicurati che l'UPS sia dimensionato per reggere il carico di tutti i server + switch + firewall per almeno 15 minuti (il tempo per uno shutdown ordinato).
4. Schermata Blu (BSOD): Quando il Server Va in Tilt
La temuta "schermata blu" (Blue Screen of Death) su Windows Server o il kernel panic su Linux significa che il sistema ha incontrato un errore così grave da non riuscire a gestirlo. Le cause più comuni nei server aziendali:
| Codice Errore | Causa Probabile | Azione |
|---|---|---|
| WHEA_UNCORRECTABLE_ERROR | RAM o CPU difettosa | Diagnostica hardware con tool OEM |
| KERNEL_DATA_INPAGE_ERROR | Disco/RAID in fault | Controlla stato RAID e S.M.A.R.T. |
| DRIVER_IRQL_NOT_LESS_OR_EQUAL | Driver incompatibile | Rollback ultimo driver installato |
| CRITICAL_PROCESS_DIED | File di sistema corrotto | sfc /scannow + DISM repair |
| INACCESSIBLE_BOOT_DEVICE | Controller storage, BIOS update | Verifica ordine boot e driver storage |
Diagnosi: dopo un BSOD, il server crea un file di dump della memoria (in C:\Windows\Minidump). Analizza il dump con WinDbg (comando!analyze -v) per identificare il driver o il componente responsabile. Su Linux, controlla /var/log/kern.log e journalctl -k per i messaggi precedenti al crash.
Se i BSOD sono ricorrenti e il dump punta sempre allo stesso driver, aggiorna o rimuovi quel driver. Se punta a ntoskrnl.exe o a errori hardware, il problema è quasi certamente hardware (RAM, CPU, controller RAID) e richiede intervento fisico.
Stanco di rincorrere i guasti?
Con il monitoraggio proattivo rileviamo RAID degradati, errori RAM, temperature anomale e spazio disco in esaurimento prima che causino un fermo. Con noi, il tuo server viene controllato ogni 5 minuti, 24/7.
5. Active Directory: Nessuno Riesce a Fare il Login
Active Directory (AD) è il sistema che gestisce utenti e password in azienda. Quando non funziona, nessuno riesce a fare il login, le cartelle di rete sono inaccessibili e le applicazioni che usano l'autenticazione di dominio si bloccano.
I problemi AD più comuni e le relative soluzioni:
Servizio NTDS fermo
Apri services.msc e verifica che 'Active Directory Domain Services' sia in esecuzione. Se non parte, controlla lo spazio disco (NTDS.dit può crescere molto) e i log in Event Viewer > Directory Service.
Replica tra Domain Controller fallita
Se hai più DC, verifica la replica con 'repadmin /replsummary'. Errori comuni: porta TCP 389/636 bloccata dal firewall, orologi non sincronizzati (Kerberos richiede max 5 minuti di differenza), o DC offline.
Account lockout di massa
Se molti utenti vengono bloccati contemporaneamente, potrebbe essere un attacco brute-force o un dispositivo/servizio con credenziali vecchie. Usa 'Account Lockout and Management Tools' di Microsoft per tracciare la fonte dei tentativi falliti.
Group Policy non si applicano
Esegui 'gpresult /r' sulla macchina interessata per verificare quali policy sono applicate. Se nessuna policy risulta, controlla la connettività al DC, il servizio 'Group Policy Client' e la raggiungibilità della share SYSVOL.
Regola d'oro: non avere mai un solo Domain Controller. Un secondo DC costa poche centinaia di euro (può essere anche una VM) e garantisce continuità operativa in caso di guasto del DC principale. Se il tuo unico DC muore e non hai un backup dello System State, ricostruire Active Directory da zero può richiedere giorni.
6. DNS/DHCP: Nessuno Naviga, Nessuno si Connette
DNS e DHCP sono due servizi che spesso girano sul server aziendale. Il DNS (la rubrica che traduce i nomi dei siti in indirizzi IP) e il DHCP (quello che assegna gli indirizzi IP ai dispositivi). Se il DNS non funziona, nessun PC riesce ad aprire siti o risorse interne. Se il DHCP non funziona, i nuovi dispositivi non riescono nemmeno a connettersi alla rete.
DNS non risponde
Verifica: 'nslookup google.com <IP-server>'. Se fallisce, controlla il servizio DNS Server (services.msc). Verifica che le zone DNS siano caricate (dnsmgmt.msc). Causa frequente: aggiornamento Windows che ferma il servizio DNS.
DHCP non assegna IP
Verifica: 'ipconfig /release && ipconfig /renew'. Se il PC ottiene un IP 169.254.x.x (APIPA), il DHCP non risponde. Controlla il servizio DHCP, il pool di indirizzi (potrebbe essere esaurito) e i lease attivi.
Workaround immediato se il DNS del server non funziona: configura temporaneamente i PC per usare DNS pubblici (8.8.8.8 e 1.1.1.1) per ripristinare la navigazione Internet. Attenzione: la risoluzione dei nomi interni (server, share, applicazioni) continuerà a non funzionare fino al ripristino del DNS aziendale.
7. Disco Pieno: Il Problema Più Banale (e Frequente)
Il disco pieno al 100% è una delle cause più comuni di blocco del server, eppure è facilmente prevenibile. Quando il disco di sistema si riempie, il server può piantarsi del tutto: i servizi non partono, i log non si scrivono, Active Directory non funziona, il database si corrompe.
Le cause più frequenti di storage pieno:
Intervento immediato: usa TreeSize Free (Windows) o du -sh /* | sort -hr (Linux) per identificare cosa occupa spazio. Elimina i file temporanei con Disk Cleanup (Pulizia Disco) con l'opzione "Pulizia file di sistema". Controlla e elimina gli snapshot VM dimenticati.
Prevenzione: configura alert quando lo spazio disco scende sotto il 20% e sotto il 10%. Implementa la rotazione automatica dei log, le quote disco per le cartelle utente e una policy di retention per i backup locali.
8. Surriscaldamento: Il Server Ha Caldo
I server generano un sacco di calore e sono progettati per funzionare in ambienti climatizzati (18-27°C, umidità 40-60%). Quando la temperatura sale troppo, il server prima rallenta da solo (thermal throttling), poi si spegne per proteggere i componenti.
Segnali di surriscaldamento
- • Ventole del server che girano al massimo (rumore anomalo)
- • Temperature CPU > 80°C nel tool di gestione hardware
- • Thermal throttling: prestazioni calano senza motivo apparente
- • Shutdown automatico con evento "thermal trip" nei log
- • Server room/armadio rack caldo al tatto
Interventi: verifica che il condizionatore della sala server funzioni correttamente. Controlla che le prese d'aria del server e dell'armadio rack non siano ostruite. Assicurati che il flusso d'aria nell'armadio sia corretto (aria fredda davanti, aria calda dietro). Pulisci i filtri antipolvere delle ventole. Se il server è in un ufficio senza condizionamento dedicato, d'estate le temperature possono facilmente superare i limiti.
9. Quando È Ora di Chiamare un Professionista
Alcuni problemi li puoi risolvere seguendo le procedure qui sopra. Ma ci sono situazioni in cui è meglio non improvvisare e chiamare subito:
RAID degradato con disco da sostituire
Se non hai esperienza con la sostituzione hot-swap o non hai il disco di ricambio giusto, non improvvisare. Un disco sbagliato o una procedura errata può distruggere l'intero array.
Active Directory corrotto
La ricostruzione di AD richiede competenze specialistiche. Un errore può cancellare tutti gli account utente, le policy e le configurazioni. Serve un restore da backup dello System State.
Dati persi o corrotti
Non tentare il recupero dati fai-da-te su server. Ogni operazione di scrittura sul disco può sovrascrivere dati recuperabili. Chiama un professionista e, se il danno è fisico, un laboratorio di data recovery.
Sospetto attacco informatico
Se trovi file criptati, processi sospetti o accessi non autorizzati, NON spegnere il server (perdi le prove). Disconnettilo dalla rete e chiama il tuo MSP o un team di incident response.
La vera soluzione, però, non è reagire ai guasti ma prevenirli. Con un servizio di monitoraggio proattivo, il 90% dei problemi che hai letto qui viene intercettato e risolto prima che causi un fermo. Il costo (€50-100/server/mese) è irrisorio rispetto al costo di un fermo non previsto.
Domande Frequenti
Come capisco se il RAID del server è degradato?
I segnali principali sono: LED ambra/rosso sul controller RAID o sui dischi, notifiche nel software di gestione RAID (Dell OpenManage, HP iLO, Lenovo XClarity), prestazioni I/O significativamente ridotte, e messaggi di warning nei log di sistema. È fondamentale controllare regolarmente lo stato RAID tramite il tool di gestione del controller e configurare alert via email per essere avvisati immediatamente in caso di degradazione.
Ogni quanto dovrei sostituire i dischi del server aziendale?
I dischi HDD enterprise hanno una vita media di 5-7 anni, mentre gli SSD enterprise durano 5-10 anni in base al carico di scrittura (DWPD). Tuttavia, il dato più affidabile è il monitoraggio S.M.A.R.T.: parametri come Reallocated Sectors Count, Current Pending Sectors e Uncorrectable Errors indicano un disco in fase di cedimento. Un MSP monitora questi parametri in tempo reale e pianifica la sostituzione preventiva prima del guasto.
Il server si spegne improvvisamente: cosa devo controllare per primo?
Lo spegnimento improvviso è quasi sempre causato da: 1) surriscaldamento (controlla ventole e temperature in iLO/iDRAC), 2) alimentatore in fault (verifica LED PSU e log eventi hardware), 3) errori critici RAM (controlla Event Viewer per WHEA errors), 4) interruzione di corrente (verifica stato UPS). Se il server non si riaccende, controlla i LED diagnostici sulla scheda madre — ogni produttore ha codici specifici documentati nel manuale hardware.
Active Directory non risponde: tutti gli utenti sono bloccati fuori. Cosa faccio?
Primo: verifica che il Domain Controller sia raggiungibile in rete (ping). Secondo: controlla i servizi di Active Directory (NTDS, DNS Server, Kerberos KDC) — se sono fermi, riavviali. Terzo: controlla lo spazio disco sulla partizione NTDS e SYSVOL. Quarto: verifica la replica tra Domain Controller con 'repadmin /replsummary'. Se hai un solo DC e non risponde, è un single point of failure critico — hai bisogno di almeno due DC per la ridondanza. Questo è il motivo per cui il monitoraggio proattivo è essenziale.
Quanto costa un'ora di downtime del server per una PMI?
Il costo varia enormemente in base al settore e alla dimensione aziendale. Per una PMI manifatturiera con 30 dipendenti, un'ora di fermo server può costare tra €1.500 e €5.000 considerando: stipendi dei dipendenti inattivi (€900/ora), mancata produzione/fatturazione (€500-3.000/ora), stress e straordinari per il recupero. Per aziende con e-commerce o servizi online, il costo sale ulteriormente. Un contratto di monitoraggio proattivo che costa €50-100/mese per server previene la maggior parte di questi fermi.
Quando è il momento di sostituire un server aziendale invece di ripararlo?
La sostituzione è consigliata quando: il server ha più di 7 anni (fuori garanzia estesa, parti di ricambio introvabili), i guasti hardware si ripetono più di 2 volte in 6 mesi, il sistema operativo è fuori supporto (Windows Server 2012/2016), le prestazioni non soddisfano le esigenze aziendali nonostante gli upgrade, il costo di riparazione supera il 40% del valore di un server nuovo. Un MSP può aiutarti a pianificare la sostituzione con una migrazione graduale e senza downtime.
Un server aziendale che non funziona non è solo un problema tecnico — è un'emergenza che blocca produttività, fatturato e reputazione. La differenza tra chi risolve in 30 minuti e chi resta fermo per giorni sta nella preparazione: monitoraggio proattivo, backup testati, procedure chiare e un partner IT pronto a intervenire.
Contattaci per un checkup gratuito del tuo server. Analizziamo lo stato di salute, identifichiamo i rischi e ti proponiamo un piano di gestione server su misura.