Le 8:15 di un lunedì mattina. Arrivi in ufficio, accendi il PC e… niente. Il server aziendale non risponde. Nessuno riesce ad accedere ai file condivisi, la posta non funziona, il gestionale è irraggiungibile. Il telefono squilla, i colleghi si ammassano alla tua scrivania. Ogni minuto che passa costa denaro. Questa guida ti aiuta a diagnosticare rapidamente il problema e capire quando puoi risolverlo internamente e quando serve chiamare un professionista.
Indice dei Contenuti
- 1. RAID Degradato: Il Killer Silenzioso
- 2. Errori RAM e Instabilità di Sistema
- 3. PSU Failure e Problemi di Alimentazione
- 4. BSOD e Kernel Panic: Crash di Sistema
- 5. Active Directory e Problemi di Autenticazione
- 6. DNS/DHCP Down: Nessuno Naviga
- 7. Storage Pieno: Quando lo Spazio Finisce
- 8. Surriscaldamento e Problemi Ambientali
- 9. Quando Chiamare un MSP
- 10. Domande Frequenti
1. RAID Degradato: Il Killer Silenzioso
Il RAID (Redundant Array of Independent Disks) è il sistema che protegge i dati del server dalla rottura di un singolo disco. Quando un disco del RAID si guasta, l'array passa in stato "degradato": il server continua a funzionare, ma senza ridondanza. Se un secondo disco cede prima della sostituzione, i dati sono persi.
Segnali di RAID degradato
- • LED ambra/rosso sul frontalino del server o sui dischi
- • Alert nel controller RAID (Dell PERC, HP Smart Array, Lenovo ServeRAID)
- • Prestazioni I/O drasticamente ridotte (lentezza generale)
- • Errori S.M.A.R.T. nei log di sistema
- • Rumori anomali dai dischi (click, grind)
Cosa fare subito: accedi all'interfaccia di gestione hardware del server (iDRAC per Dell, iLO per HP, XClarity per Lenovo) e verifica lo stato del RAID. Se un disco risulta "Failed" o "Predictive Failure", non spegnere il server — sostituisci il disco hot-swap il prima possibile. Se non hai un disco di ricambio compatibile, contatta immediatamente il supporto hardware o il tuo MSP.
Prevenzione: configura gli alert email/SMS del controller RAID, tieni sempre un disco hot-spare pronto e monitora i parametri S.M.A.R.T. con un tool di monitoraggio proattivo. Un MSP controlla questi parametri ogni 5 minuti e interviene prima che il guasto diventi critico.
2. Errori RAM e Instabilità di Sistema
I moduli RAM dei server sono progettati con tecnologia ECC (Error-Correcting Code) che corregge automaticamente gli errori a singolo bit. Tuttavia, quando i moduli iniziano a degradarsi, gli errori diventano troppi per essere corretti e il server diventa instabile.
Errori corretti (CE)
La RAM ECC corregge l'errore automaticamente. Uno sporadico è normale, ma centinaia in poche ore indicano un modulo in fase di cedimento. Controlla Event Viewer > System per eventi WHEA-Logger.
Errori non corretti (UCE)
L'errore è troppo grave per essere corretto. Causa BSOD immediato (WHEA_UNCORRECTABLE_ERROR) o kernel panic su Linux. Richiede sostituzione immediata del modulo DIMM difettoso.
Diagnosi rapida: su Windows Server, apri il Visualizzatore Eventi > Registri di Windows > Sistema e filtra per "WHEA-Logger". Su Linux, usa edac-util -s o controlla dmesg | grep -i "memory". Il tool di gestione hardware (iDRAC/iLO/XClarity) indica esattamente quale slot DIMM è difettoso.
Intervento: spegni il server, identifica il modulo DIMM difettoso (il tool di gestione indica lo slot esatto), sostituiscilo con un modulo identico (stesso produttore, stessa velocità, stessa capacità). Non mischiare moduli di brand diversi nei server — può causare instabilità anche con RAM funzionante.
3. PSU Failure e Problemi di Alimentazione
I server enterprise hanno alimentatori ridondanti (dual PSU): se uno si guasta, l'altro mantiene il server acceso. Ma se non te ne accorgi e anche il secondo cede, il server si spegne senza preavviso.
LED ambra sull'alimentatore
Un PSU in fault mostra LED ambra o rosso. Il server funziona ancora con l'altro PSU, ma hai perso la ridondanza. Sostituisci il PSU guasto il prima possibile — sono hot-swap, non serve spegnere il server.
Server si spegne improvvisamente
Se il server si spegne senza motivo, controlla: 1) entrambi i PSU (LED, log hardware), 2) stato dell'UPS (batteria scarica? sovraccarico?), 3) presa elettrica e cablaggio. Un UPS con batteria vecchia (>3 anni) può non reggere il carico durante un micro-blackout.
Riavvii ciclici (boot loop)
Il server si accende, gira per pochi secondi e si spegne di nuovo. Causa comune: PSU insufficiente dopo aggiunta di hardware (dischi, RAM, GPU), oppure cortocircuito su una periferica. Prova a scollegare le periferiche non essenziali e riavvia.
Best practice: configura alert SNMP per la ridondanza PSU nel tuo tool di monitoraggio, sostituisci le batterie UPS ogni 3 anni e assicurati che l'UPS sia dimensionato per reggere il carico di tutti i server + switch + firewall per almeno 15 minuti (il tempo per uno shutdown ordinato).
4. BSOD e Kernel Panic: Crash di Sistema
La temuta "schermata blu" (Blue Screen of Death) su Windows Server o il kernel panic su Linux indicano un errore critico che il sistema operativo non riesce a gestire. Le cause più comuni nei server aziendali sono:
| Codice Errore | Causa Probabile | Azione |
|---|---|---|
| WHEA_UNCORRECTABLE_ERROR | RAM o CPU difettosa | Diagnostica hardware con tool OEM |
| KERNEL_DATA_INPAGE_ERROR | Disco/RAID in fault | Controlla stato RAID e S.M.A.R.T. |
| DRIVER_IRQL_NOT_LESS_OR_EQUAL | Driver incompatibile | Rollback ultimo driver installato |
| CRITICAL_PROCESS_DIED | File di sistema corrotto | sfc /scannow + DISM repair |
| INACCESSIBLE_BOOT_DEVICE | Controller storage, BIOS update | Verifica ordine boot e driver storage |
Diagnosi: dopo un BSOD, il server crea un file di dump della memoria (in C:\Windows\Minidump). Analizza il dump con WinDbg (comando!analyze -v) per identificare il driver o il componente responsabile. Su Linux, controlla /var/log/kern.log e journalctl -k per i messaggi precedenti al crash.
Se i BSOD sono ricorrenti e il dump punta sempre allo stesso driver, aggiorna o rimuovi quel driver. Se punta a ntoskrnl.exe o a errori hardware, il problema è quasi certamente hardware (RAM, CPU, controller RAID) e richiede intervento fisico.
Stanco di rincorrere i guasti?
Il monitoraggio proattivo rileva RAID degradati, errori RAM, temperature anomale e spazio disco in esaurimento prima che causino un fermo. Con BullTech, il tuo server è controllato ogni 5 minuti, 24/7.
5. Active Directory e Problemi di Autenticazione
Active Directory (AD) è il cuore dell'autenticazione in azienda. Quando AD non funziona, nessun utente riesce a fare il login, le cartelle di rete sono inaccessibili e le applicazioni che usano l'autenticazione di dominio si bloccano.
I problemi AD più comuni e le relative soluzioni:
Servizio NTDS fermo
Apri services.msc e verifica che 'Active Directory Domain Services' sia in esecuzione. Se non parte, controlla lo spazio disco (NTDS.dit può crescere molto) e i log in Event Viewer > Directory Service.
Replica tra Domain Controller fallita
Se hai più DC, verifica la replica con 'repadmin /replsummary'. Errori comuni: porta TCP 389/636 bloccata dal firewall, orologi non sincronizzati (Kerberos richiede max 5 minuti di differenza), o DC offline.
Account lockout di massa
Se molti utenti vengono bloccati contemporaneamente, potrebbe essere un attacco brute-force o un dispositivo/servizio con credenziali vecchie. Usa 'Account Lockout and Management Tools' di Microsoft per tracciare la fonte dei tentativi falliti.
Group Policy non si applicano
Esegui 'gpresult /r' sulla macchina interessata per verificare quali policy sono applicate. Se nessuna policy risulta, controlla la connettività al DC, il servizio 'Group Policy Client' e la raggiungibilità della share SYSVOL.
Regola d'oro: non avere mai un solo Domain Controller. Un secondo DC costa poche centinaia di euro (può essere anche una VM) e garantisce continuità operativa in caso di guasto del DC principale. Se il tuo unico DC muore e non hai un backup dello System State, ricostruire Active Directory da zero può richiedere giorni.
6. DNS/DHCP Down: Nessuno Naviga, Nessuno si Connette
Il DNS (Domain Name System) e il DHCP (Dynamic Host Configuration Protocol) sono due servizi fondamentali che spesso risiedono sul server aziendale. Se il DNS non funziona, i PC non riescono a risolvere i nomi (né interni né Internet). Se il DHCP non funziona, i nuovi dispositivi non ottengono un indirizzo IP.
DNS non risponde
Verifica: 'nslookup google.com <IP-server>'. Se fallisce, controlla il servizio DNS Server (services.msc). Verifica che le zone DNS siano caricate (dnsmgmt.msc). Causa frequente: aggiornamento Windows che ferma il servizio DNS.
DHCP non assegna IP
Verifica: 'ipconfig /release && ipconfig /renew'. Se il PC ottiene un IP 169.254.x.x (APIPA), il DHCP non risponde. Controlla il servizio DHCP, il pool di indirizzi (potrebbe essere esaurito) e i lease attivi.
Workaround immediato se il DNS del server non funziona: configura temporaneamente i PC per usare DNS pubblici (8.8.8.8 e 1.1.1.1) per ripristinare la navigazione Internet. Attenzione: la risoluzione dei nomi interni (server, share, applicazioni) continuerà a non funzionare fino al ripristino del DNS aziendale.
7. Storage Pieno: Quando lo Spazio Finisce
Lo storage pieno al 100% è una delle cause più comuni di malfunzionamento del server, eppure è facilmente prevenibile. Quando il disco di sistema si riempie, il server può bloccarsi completamente: i servizi non partono, i log non si scrivono, Active Directory non funziona, il database si corrompe.
Le cause più frequenti di storage pieno:
Intervento immediato: usa TreeSize Free (Windows) o du -sh /* | sort -hr (Linux) per identificare cosa occupa spazio. Elimina i file temporanei con Disk Cleanup (Pulizia Disco) con l'opzione "Pulizia file di sistema". Controlla e elimina gli snapshot VM dimenticati.
Prevenzione: configura alert quando lo spazio disco scende sotto il 20% e sotto il 10%. Implementa la rotazione automatica dei log, le quote disco per le cartelle utente e una policy di retention per i backup locali.
8. Surriscaldamento e Problemi Ambientali
I server moderni generano molto calore e sono progettati per funzionare in ambienti climatizzati (18-27°C, umidità 40-60%). Quando la temperatura sale troppo, il server prima rallenta (thermal throttling), poi si spegne automaticamente per proteggere i componenti.
Segnali di surriscaldamento
- • Ventole del server che girano al massimo (rumore anomalo)
- • Temperature CPU > 80°C nel tool di gestione hardware
- • Thermal throttling: prestazioni calano senza motivo apparente
- • Shutdown automatico con evento "thermal trip" nei log
- • Server room/armadio rack caldo al tatto
Interventi: verifica che il condizionatore della sala server funzioni correttamente. Controlla che le prese d'aria del server e dell'armadio rack non siano ostruite. Assicurati che il flusso d'aria nell'armadio sia corretto (aria fredda davanti, aria calda dietro). Pulisci i filtri antipolvere delle ventole. Se il server è in un ufficio senza condizionamento dedicato, d'estate le temperature possono facilmente superare i limiti.
9. Quando È il Momento di Chiamare un MSP
Alcuni problemi del server possono essere risolti internamente seguendo le procedure descritte sopra. Ma ci sono situazioni in cui serve un intervento professionale immediato:
RAID degradato con disco da sostituire
Se non hai esperienza con la sostituzione hot-swap o non hai il disco di ricambio giusto, non improvvisare. Un disco sbagliato o una procedura errata può distruggere l'intero array.
Active Directory corrotto
La ricostruzione di AD richiede competenze specialistiche. Un errore può cancellare tutti gli account utente, le policy e le configurazioni. Serve un restore da backup dello System State.
Dati persi o corrotti
Non tentare il recupero dati fai-da-te su server. Ogni operazione di scrittura sul disco può sovrascrivere dati recuperabili. Chiama un professionista e, se il danno è fisico, un laboratorio di data recovery.
Sospetto attacco informatico
Se trovi file criptati, processi sospetti o accessi non autorizzati, NON spegnere il server (perdi le prove). Disconnettilo dalla rete e chiama il tuo MSP o un team di incident response.
La vera soluzione, però, non è reagire ai guasti ma prevenirli. Con un servizio di monitoraggio proattivo, il 90% dei problemi descritti in questo articolo viene rilevato e risolto prima che causi un fermo. Il costo di un monitoraggio proattivo (€50-100/server/mese) è irrisorio rispetto al costo di un downtime non pianificato.
Domande Frequenti
Come capisco se il RAID del server è degradato?
I segnali principali sono: LED ambra/rosso sul controller RAID o sui dischi, notifiche nel software di gestione RAID (Dell OpenManage, HP iLO, Lenovo XClarity), prestazioni I/O significativamente ridotte, e messaggi di warning nei log di sistema. È fondamentale controllare regolarmente lo stato RAID tramite il tool di gestione del controller e configurare alert via email per essere avvisati immediatamente in caso di degradazione.
Ogni quanto dovrei sostituire i dischi del server aziendale?
I dischi HDD enterprise hanno una vita media di 5-7 anni, mentre gli SSD enterprise durano 5-10 anni in base al carico di scrittura (DWPD). Tuttavia, il dato più affidabile è il monitoraggio S.M.A.R.T.: parametri come Reallocated Sectors Count, Current Pending Sectors e Uncorrectable Errors indicano un disco in fase di cedimento. Un MSP monitora questi parametri in tempo reale e pianifica la sostituzione preventiva prima del guasto.
Il server si spegne improvvisamente: cosa devo controllare per primo?
Lo spegnimento improvviso è quasi sempre causato da: 1) surriscaldamento (controlla ventole e temperature in iLO/iDRAC), 2) alimentatore in fault (verifica LED PSU e log eventi hardware), 3) errori critici RAM (controlla Event Viewer per WHEA errors), 4) interruzione di corrente (verifica stato UPS). Se il server non si riaccende, controlla i LED diagnostici sulla scheda madre — ogni produttore ha codici specifici documentati nel manuale hardware.
Active Directory non risponde: tutti gli utenti sono bloccati fuori. Cosa faccio?
Primo: verifica che il Domain Controller sia raggiungibile in rete (ping). Secondo: controlla i servizi di Active Directory (NTDS, DNS Server, Kerberos KDC) — se sono fermi, riavviali. Terzo: controlla lo spazio disco sulla partizione NTDS e SYSVOL. Quarto: verifica la replica tra Domain Controller con 'repadmin /replsummary'. Se hai un solo DC e non risponde, è un single point of failure critico — hai bisogno di almeno due DC per la ridondanza. Questo è il motivo per cui il monitoraggio proattivo è essenziale.
Quanto costa un'ora di downtime del server per una PMI?
Il costo varia enormemente in base al settore e alla dimensione aziendale. Per una PMI manifatturiera con 30 dipendenti, un'ora di fermo server può costare tra €1.500 e €5.000 considerando: stipendi dei dipendenti inattivi (€900/ora), mancata produzione/fatturazione (€500-3.000/ora), stress e straordinari per il recupero. Per aziende con e-commerce o servizi online, il costo sale ulteriormente. Un contratto di monitoraggio proattivo che costa €50-100/mese per server previene la maggior parte di questi fermi.
Quando è il momento di sostituire un server aziendale invece di ripararlo?
La sostituzione è consigliata quando: il server ha più di 7 anni (fuori garanzia estesa, parti di ricambio introvabili), i guasti hardware si ripetono più di 2 volte in 6 mesi, il sistema operativo è fuori supporto (Windows Server 2012/2016), le prestazioni non soddisfano le esigenze aziendali nonostante gli upgrade, il costo di riparazione supera il 40% del valore di un server nuovo. Un MSP può aiutarti a pianificare la sostituzione con una migrazione graduale e senza downtime.
Un server aziendale che non funziona non è solo un problema tecnico — è un'emergenza aziendale che impatta su produttività, fatturato e reputazione. La differenza tra un'azienda che risolve in 30 minuti e una che resta ferma per giorni sta nella preparazione: monitoraggio proattivo, backup testati, procedure documentate e un MSP pronto a intervenire.
Contattaci per un assessment gratuito della tua infrastruttura server. Analizziamo lo stato di salute del tuo server, identifichiamo i rischi e ti proponiamo un piano di gestione server su misura.