[LUG.ro] Problema SATA timeout ??

Sebastian Dominguez sebaminguez en gmail.com
Lun Nov 23 17:42:57 ARST 2009


Buenas tardes a todos.

Estoy experimentando algunos problemas en un equipo con discos sata.
El equipo posee dos discos sata en RAID 1 por soft con particiones
para /, /home y /var (espejado por particiones, claro).

El problema, que se ha dado recientemente, es que una de las
particiones se marca como dañanda. Tras revisar e incluir nuevamente
en el arreglo (sin encontrar problemas) se reconstruye normalmente
para volver a suceder a los pocos dias. Lo extraño es que no siempre
es el mismo disco ni las mismas particiones. Sospecho que esto
comienza al actualizar el kernel (de 2.6.28-11 a 2.6.28-16).

El equipo cumple funciones básicas sin exigencias de ningún tipo.

Caracteristicas de la instalación:
_sudo lsb_release ­-rd _
Description: Ubuntu 9.04
Release:      9.04
_uname ­-a_
Linux gateway 2.6.28­-16­server #55­Ubuntu SMP Tue Oct 20 20:37:10 UTC
2009 x86_64 GNU/Linux

Según lo que pude ver hasta ahora (en el equipo, en documentación e
internet) el problema parece pasar por la controladora SATA. Si la
memoria no me falla esta colocada en modo AHCI y sus caracteristicas
son:
_lspci ­-vv_
00:1f.2 IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family)
SATA IDE Controller (rev 01)
(prog­if 8f [Master SecP SecO PriP PriO])
         Subsystem: Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA
IDE Controller
         Control: I/O+ Mem­ BusMaster+ SpecCycle­ MemWINV­ VGASnoop­
ParErr­ Stepping­ SERR­ FastB2B­
DisINTx­
         Status: Cap+ 66MHz+ UDF­ FastB2B+ ParErr­ DEVSEL=medium
>TAbort­ <TAbort­ <MAbort­ >SERR­
<PERR­ INTx­
         Latency: 0
         Interrupt: pin B routed to IRQ 17
         Region 0: I/O ports at c0e0 [size=8]
         Region 1: I/O ports at c0d0 [size=4]
         Region 2: I/O ports at c0c0 [size=8]
         Region 3: I/O ports at c0b0 [size=4]
         Region 4: I/O ports at c0a0 [size=16]
         Capabilities: [70] Power Management version 2
                Flags: PMEClk­ DSI­ D1­ D2­ AuxCurrent=0mA
PME(D0­,D1­,D2­,D3hot+,D3cold­)
                Status: D0 PME­Enable­ DSel=0 DScale=0 PME­
         Kernel driver in use: ata_piix

El error en dmesg es:
[21795.621502] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
[21795.621544] ata4.00: BMDMA stat 0x26
[21795.621579] ata4.00: cmd ca/00:08:3f:90:3b/00:00:00:00:00/e0 tag 0
dma 4096 out
[21795.621581]          res 51/84:01:3f:90:3b/84:00:00:00:00/e0 Emask
0x30 (host bus error)
[21795.621700] ata4.00: status: { DRDY ERR }
[21795.621732] ata4.00: error: { ICRC ABRT }
[21795.621772] ata4: soft resetting link
[21795.907614] ata4.00: configured for UDMA/33
[21795.907623] ata4: EH complete
[21795.912731] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
[21795.912772] ata4.00: BMDMA stat 0x26
[21795.912807] ata4.00: cmd ca/00:08:3f:90:3b/00:00:00:00:00/e0 tag 0
dma 4096 out
[21795.912809]          res 51/84:01:3f:90:3b/84:00:00:00:00/e0 Emask
0x30 (host bus error)
[21795.912927] ata4.00: status: { DRDY ERR }
[21795.912959] ata4.00: error: { ICRC ABRT }
[21795.912998] ata4: soft resetting link
[21796.197619] ata4.00: configured for UDMA/33
[21796.197629] ata4: EH complete
[21796.197658] sd 3:0:0:0: [sdb] 312581808 512­byte hardware sectors:
(160 GB/149 GiB)
[21796.198072] sd 3:0:0:0: [sdb] Write Protect is off
[21796.198076] sd 3:0:0:0: [sdb] Mode Sense: 00 3a 00 00
[21796.207367] sd 3:0:0:0: [sdb] Write cache: enabled, read cache:
enabled, doesn't support DPO or
FUA
[21796.207408] sd 3:0:0:0: [sdb] 312581808 512­byte hardware sectors:
(160 GB/149 GiB)
[21796.207430] sd 3:0:0:0: [sdb] Write Protect is off
[21796.207434] sd 3:0:0:0: [sdb] Mode Sense: 00 3a 00 00
[21796.207470] sd 3:0:0:0: [sdb] Write cache: enabled, read cache:
enabled, doesn't support DPO or
FUA

aunque no siempre para el mismo disco / partición.

Desde ya agradezco el tiempo.

A la brevedad estoy:
- cambiando cables sata (que medio descarto),
- desactivando la opcion AHCI que parece no ser soportada totalmetne
por la controladora
- probando la version anterior de kernel para verificar en cual se
produce el fallo.

Cualquier aporte es mas que bienvendido. Muchisimas gracias
-- 
Sebastian Dominguez
Msn/jabber/gtalk: sebaminguez[en]gmail.com

//When I wrote this, only God and I understood what I was doing
//Now, God only knows

Sent from Rosario, Argentina


Más información sobre la lista de distribución Lugro