Identificar y sustituir un disco duro defectuoso (Servidor Dedicado Linux con hardware RAID)

En este artículo, aprenderás cómo identificar un disco duro defectuoso en un Servidor Dedicado Linux con hardware RAID y cómo preparar el servidor para reemplazar el soporte de datos defectuoso.

Nota

Para seguir correctamente los pasos descritos en este artículo se necesitan conocimientos básicos de la administración de servidores Linux. Si tiene alguna pregunta o necesita ayuda con respecto a la sustitución de un disco duro defectuoso, póngase en contacto con la Atención al Cliente.

Para asegurar la mayor fiabilidad posible, es necesario que monitorees el hardware RAID de tu Servidor Dedicado. Si te das cuenta de que un disco duro está defectuoso o recibes una notificación por e-mail sobre un disco duro defectuoso, debes ponerte en contacto con el servicio de atención al cliente para proeceder con la sustitución del disco duro. Esto requiere que antes identifiques el disco duro defectuoso y prepares el servidor para reemplazarlo.

Atención

Los sistemas RAID ofrecen una mayor fiabilidad y/o una mayor velocidad. Sin embargo, no pueden sustituir la realización de copias de seguridad regulares. Para evitar la pérdida de datos, te recomendamos que realice copias de seguridad de tus datos con regularidad. Asegúrate de realizar una copia de seguridad de tus datos antes de realizar los siguientes pasos para garantizar la seguridad de tus datos. Para obtener más información sobre la creación de copias de seguridad, haz clic aquí:

Soluciones de backup

Hacer una copia de seguridad de datos en el servidor de backup (Linux)

Controlador de hardware RAID: información general

Un controlador de hardware RAID es un controlador físico que está integrado en el servidor como componente de hardware. Este controlador tiene su propio procesador para el cálculo de las operaciones RAID. Este procesador organiza y gestiona el espacio de memoria. Así la CPU del servidor no es cargada por los cálculos de RAID. Para los controladores de hardware RAID, el RAID funciona independientemente del sistema operativo. Se gestionan mediante programas especiales de interfaz de línea de comandos (CLI), que pueden variar según el fabricante y el modelo.

Identificar fallos y determinar los datos necesarios para la sustitución del disco duro

Para detectar errores en el disco duro, te recomendamos que procedas de la siguiente manera:

Instala el programa Smartctl, un programa de línea de comandos para monitorear volúmenes utilizando SMART (Self-Monitoring, Analysis and Reporting Technology). Con este programa puedes comprobar si un disco duro está defectuoso. Es un componente de los Smartmontools. Los Smartmontools están disponibles como paquetes para muchas distribuciones de Linux.

Nota

En algunos casos puede ocurrir que un defecto del disco duro no pueda ser detectado por los valores SMART. Por lo tanto, recomendamos que también analices el archivo de registro /var/log/messages.

Instalar Smartctl

Para instalar Smartctl, escribe el siguiente comando:

CentOS

yum install smartmontools

Ubuntu

sudo apt-get install smartmontools

Determinar el tipo de controlador de hardware

Para comprobar qué controlador de hardware está instalado en tu servidor, puedes utilizar el programa lshw. Este programa crea información detallada sobre los componentes de hardware.

Para instalar el programa, introduce el siguiente comando:

CentOS

um install lshw

Ubuntu

sudo apt-get install lshw

Visualización de la información del hardware

Para mostrar un resumen de la información de hardware, escribe el siguiente comando:

lshw –short

Para ver la información de hardware como un archivo de texto, escribe el siguiente comando:

lshw > hardware-info.txt

En el siguiente ejemplo, se instala un controlador de hardware PERC H330 en el servidor:

root@829F6DF:~# lshw -short
H/W path             Device     Class          Description
==========================================================
                                system         PowerEdge R230 (SKU=NotProvided;ModelName=PowerEdge R230)
/0                              bus            0DWX9P
/0/0                            memory         64KiB BIOS
/0/400                          processor      Intel(R) Xeon(R) CPU E3-1270 v6 @ 3.80GHz
/0/400/700                      memory         256KiB L1 cache
/0/400/701                      memory         1MiB L2 cache
/0/400/702                      memory         8MiB L3 cache
/0/1000                         memory         32GiB System Memory
/0/1000/0                       memory         16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/1                       memory         16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/2                       memory         [empty]
/0/1000/3                       memory         [empty]
/0/100                          bridge         Intel Corporation
/0/100/1                        bridge         Skylake PCIe Controller (x16)
/0/100/1/0           scsi0      storage        MegaRAID SAS-3 3008 [Fury]
/0/100/1/0/2.0.0     /dev/sda   disk           799GB PERC H330 Adp
/0/100/1/0/2.0.0/1   /dev/sda1  volume         2047KiB BIOS Boot partition
/0/100/1/0/2.0.0/2   /dev/sda2  volume         27GiB EXT3 volume
/0/100/1/0/2.0.0/3   /dev/sda3  volume         9536MiB Linux swap volume
/0/100/1/0/2.0.0/4   /dev/sda4  volume         707GiB LVM Physical Volume
/0/100/1.1                      bridge         Skylake PCIe Controller (x8)
/0/100/14                       bus            Sunrise Point-H USB 3.0 xHCI Controller
/0/100/14/0          usb1       bus            xHCI Host Controller
/0/100/14/0/3                   bus            Gadget USB HUB
/0/100/14/1          usb2       bus            xHCI Host Controller
/0/100/14.2                     generic        Sunrise Point-H Thermal subsystem
/0/100/16                       communication  Sunrise Point-H CSME HECI #1
/0/100/16.1                     communication  Sunrise Point-H CSME HECI #2
/0/100/17                       storage        Sunrise Point-H SATA controller [AHCI mode]
/0/100/1d                       bridge         Sunrise Point-H PCI Express Root Port #9
/0/100/1d/0          eth0       network        NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d/0.1        eth1       network        NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d.2                     bridge         Sunrise Point-H PCI Express Root Port #11
/0/100/1d.2/0                   bridge         SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0                 bridge         SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0/0               bridge         SH7758 PCIe-PCI Bridge [PPB]
/0/100/1d.2/0/0/0/0             display        G200eR2
/0/100/1f                       bridge         Sunrise Point-H LPC Controller
/0/100/1f.2                     memory         Memory controller
/0/100/1f.4                     bus            Sunrise Point-H SMBus

Visualizar la información del disco duro

Para utilizar Smartctl para acceder a la información del disco duro, siempre debes especificar el comando apropiado en combinación con una opción y un dispositivo de destino. El dispositivo de destino depende del fabricante del controlador.

Utilizae los comandos que se indican a continuación para acceder a la información necesaria para el diagnóstico a través del disco duro:

Fabricante	Disco duro	Comando
ARECA	1	smartctl -iHAl error /dev/sg1 -d areca,1
ARECA	2	smartctl -iHAl error /dev/sg1 -d areca,2
LSI / 3Ware	1	smartctl -iHAl error /dev/twe0 -d 3ware,0
LSI / 3Ware	2	smartctl -iHAl error /dev/twe0 -d 3ware,1
Adaptec	1	smartctl -iHAl error /dev/sg2 -d sat
Adaptec	2	smartctl -iHAl error /dev/sg3 -d sat
Adaptec	(3)	smartctl -iHAl error /dev/sg4 -d sat
Adaptec	(4)	smartctl -iHAl error /dev/sg5 -d sat
Dell	1	smartctl -iHAl error -d sat+megaraid,0 /dev/sda
Dell	2	smartctl -iHAl error -d sat+megaraid,1 /dev/sda
Broadcom	1	smartctl -iHAl error -d sat+megaraid,0 /dev/sda
Broadcom	2	smartctl -iHAl error -d sat+megaraid,1 /dev/sda

En esta página se pueden encontrar comandos adicionales para los controladores de hardware compatibles: https://www.smartmontools.org/wiki/Supported_RAID-Controllers

Ejemplo:

[root@localhost ~]# smartctl -iHAl error /dev/sg1 -d areca,1

smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

Interpretar los parámetros

Analiza la información detallada a la que accediste. La primera sección enumera la información que puedes utilizar para identificar el disco duro. Por ejemplo, esta sección muestra el modelo del dispositivo, el número de serie y el tamaño del disco duro que se está comprobando.

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

En la segunda sección se evalúa el estado actual del disco duro mediante Smartctl. Si, por ejemplo, se visualiza el valor Failed o UNKNOWN en lugar del valor PASSED, debe reemplazar el disco duro lo antes posible.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

En la tercera sección, se enumeran en detalle los valores SMART determinados. Junto a cada valor porcentual actual(VALOR), se listan el peor valor medido(WORST) y el correspondiente valor límite(THRESH). Si el valor porcentual actual(VALUE) o el peor valor medido(WORST) supera el valor límite(THRESH), aparece una advertencia SMART en la columna WHEN_FAILED (p. ej. FAILING_NOW).

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

Los siguientes parámetros pueden indicar un fallo inminente del disco duro antes de que se muestre una advertencia SMART:

Reallocated_Sector_Ct: Especifica el número de sectores reasignados debido a errores de lectura. Si un sector ya no se puede leer, escribir o verificar correctamente, se le asigna automáticamente un sector de reemplazo. El sector defectuoso se marca permanentemente como ilegible. Esta es una clara señal de advertencia para problemas incipientes en la superficie. Si este valor no es igual a cero, una falla del disco duro es a menudo inminente. Este valor es el indicador más importante para el reemplazo de un disco duro.
Current_Pending_Sector_Ct: Especifica el número de sectores inestables que esperan una redistribución. Si un sector no se puede leer y escribir correctamente, recibe primero el status Sector pendiente actual. El sector no se reasigna en este estado, ya que se desconocen los datos del sector. Sólo después de varios intentos fallidos de lectura o escritura se asigna un sector de reemplazo y el sector defectuoso se marca permanentemente como ilegible. El valor Current_Pending_Sector_Ct es un indicador importante para la sustitución de un disco duro. Si este valor no es igual a cero, una falla del disco duro es a menudo inminente.
Offline_Uncorrectable: Especifica el número de errores de escritura y lectura no corregibles.

La última sección trata del registro interno del disco duro. Los errores se registran aquí si las órdenes de trabajo del servidor no han sido procesadas correctamente por el disco duro. Si el número de errores en esta sección es de al menos dos dígitos, debes reemplazar el disco duro lo antes posible.

SMART Error Log Version: 1
No Errors Logged

Acceder a los archivos de registro

Consulta la documentación del fabricante correspondiente para obtener información sobre el acceso de los archivos de registro.

Areca
http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software

3ware
http://www.3ware.com/support/userdocs.asp

Adaptec
http://download.adaptec.com/pdfs/user_guides/microsemi_raid_controller_iug_6_2017.pdf

Dell
https://www.dell.com/support/home/mx/es/mxbsdt1/product-support/product/poweredge-rc-h330/manuals?lwp=rt

Broadcom
https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation

Preparar la sustitución del disco duro

Acceder a información detallada para el reemplazo de disco

La siguiente información es necesaria para reemplazar el disco duro defectuoso:

Nombre del disco duro en el RAID
Número de serie
Modelo
Archivo de registro (opcional)

Crear un registro SMART

Utiliza los comandos que se indican a continuación para generar un registro SMART:

Fabricante	Disco duro	Comando
ARECA	1	smartctl -x /dev/sg1 -d areca,1
ARECA	2	smartctl -x /dev/sg1 -d areca,2
LSI / 3Ware	1	smartctl -x /dev/twe0 -d 3ware,0
LSI / 3Ware	2	smartctl -x /dev/twe0 -d 3ware,1
Adaptec	1	smartctl -x /dev/sg2 -d sat
Adaptec	2	smartctl -x /dev/sg3 -d sat
Adaptec	(3)	smartctl -x /dev/sg4 -d sat
Adaptec	(4)	smartctl -x /dev/sg5 -d sat
Dell	1	smartctl –x -d sat+megaraid,0 /dev/sda
Dell	2	smartctl –x -d sat+megaraid,1 /dev/sda
Broadcom	1	smartctl –x -d sat+megaraid,0 /dev/sda
Broadcom	2	smartctl –x -d sat+megaraid,1 /dev/sda

Consejos

Si el registro SMART se ha creado como se ha descrito anteriormente, contiene suficiente información. A continuación, puedes proceder con la solicitud de sustitución del disco duro defectuoso. Ponte en contacto con la Atención al Cliente.
Si no puedes acceder el número de serie del disco duro defectuoso con smartctl, también puedes proporcionar al servicio de atención al cliente el número de serie de los discos duros en funcionamiento.
Si no puedes determinar la información necesaria para la sustitución y desea sustituir el disco duro, debes comprobar el hardware antes de sustituirlo. Durante esta comprobación, el servidor normalmente no está disponible temporalmente. Si se detecta un defecto en el disco duro durante esta prueba, se sustituye.

Solicitar la sustitución del disco duro

A continuación, puedes solicitar la sustitución del disco duro defectuoso. Ponte en contacto con la Atención al Cliente.

Después de la sustitución

Después de que el disco duro defectuoso ha sido reemplazado, la reconstrucción del sistema RAID normalmente se inicia automáticamente. Comprueba si la reconstrucción del sistema RAID se ha iniciado y se ha llevado a cabo correctamente.

Contenido

Controlador de hardware RAID: información general
Identificar fallos y determinar los datos necesarios para la sustitución del disco duro
Interpretar los parámetros
Acceder a los archivos de registro
Preparar la sustitución del disco duro
Solicitar la sustitución del disco duro
Después de la sustitución
Arriba