Tipos de almacenamiento empresarial IT

En los últimos años con el auge de la virtualización y más recientemente con Big Data (manejo de grandes volúmenes de datos) han aparecido variantes de las soluciones existentes cubriendo nuevas necesidades, brindando aún mayores capacidades de almacenamiento y mayor redundancia. Algunos ejemplos serían el almacenamiento en malla o modular para SAN y la VTL.

Aquí se listan algunas de estas soluciones existentes:

DAS (Direct Attached Storage)

Este tipo de almacenamiento lo podemos encontrar desde las PCs hogareñas hasta en los servidores. El o los discos se encuentran conectados directamente al bus de la placa madre. Generalmente de bajo costo y no suele estar optimizado como repositorio de información ya que es multipropósito. Almacena el Sistema operativo y cualquier otro software que sea necesario ejecutar.

Para mejorar su funcionalidad, con dos o más discos es posible configurar distintos tipos de RAID (Redundant Array of Independent Disks) según la necesidad del usuario. En todos los casos la información se divide en bloques y la forma de almacenar estos bloques da paso a distintas configuraciones lógicas.

RAID0 (Stripping)

Se divide y distribuye la información (bloques) en forma pareja entre dos o más discos. Se suele utilizar para incrementar el rendimiento (de lectura/escritura) pero no dispone de paridad o redundancia alguna, de fallar cualquier disco configurado en RAID0 la información se pierde completamente.

RAID1 (Mirroring)

También utiliza dos o más discos, donde la información es almacenada de forma duplicada (espejada), por lo que consume el doble discos (uno para la información y el otro para su espejo) por lo que suele ser económicamente la opción más costosa.

La pérdida de un integrante del conjunto no afecta la disponibilidad de la información.

RAID 0+1 / 1+0

Combinación de los dos anteriores. Se dispondrá de la velocidad de RAID0 y la redundancia (y el coste) de discos de RAID1.

RAID5 (Con paridad simple)

Es necesario disponer de al menos tres discos. Utiliza una paridad que se distribuye a lo largo de todos los integrantes. El cálculo de almacenamiento disponible es: total de los discos menos uno.

Si fallara un disco, se utiliza la paridad distribuida para calcular la información faltante, lo cual conlleva a una penalidad en cuanto a performance pero la información aún será accesible.

RAID6 (Con paridad doble)

Configuración muy similar a RAID 5 pero es posible acceder a los datos hasta con la pérdida de dos discos. Estadísticamente hablando es mucho más improbable que exista pérdida de información, una probabilidad estimada de 1/120.000 en comparación a RAID5 en un grupo de discos funcionando durante 5 años.

Para ambas configuraciones con paridad, al reemplazar el/los discos que han fallado, el sistema deberá reconstruir la información utilizando los demás discos. Este lapso de tiempo dependerá del tipo de discos.
Con respecto al espacio disponible, aquí hay una tabla comparativa si se tratara de 10 discos de 1 Tb.

SAN (Storage Area Network)

Es una red de alto rendimiento, donde el objetivo principal es brindarle a los sistemas computacionales almacenamiento de gran capacidad, yendo de algunos terabytes hasta petabytes o más...

Originalmente las SANs utilizaban exclusivamente el protocolo Fibre Channel donde la información viaja a través de la fibra óptica como un haz de luz, hoy en día también se ha incorporado iSCSI utilizando cableado Ethernet y más recientemente redes convergentes FCoE, que es el mismo protocolo Fibre Channel pero encapsulado en un paquete IP. La información es accesible a nivel de bloque.

Los dispositivos de almacenamiento suelen estar compuesto por dos o más controladoras (redundantes entre sí) que administran un conjunto de discos. Ahora también, es posible conectar a esta red SAN Librerías de Backup, almacenamiento y servidores, entre otros.

A la hora de diseñar una SAN habrá que considerar:

Cómo asegurar la alta disponibilidad, ya sea a través de que sus componentes sean todos redundantes (controladoras, switches, cableado, alimentación, discos, etc.),

la escalabilidad, al momento de crecer si se decidiera reemplazar partes específicas del equipo, reemplazarla o adquirir otro para que trabajen en conjunto.

O características específicas del producto que se ajuste a nuestras necesidades. Cada fabricante ofrece distintos tipos de funcionalidades y licenciamientos.

SAN (Almacenamiento modular)

Por lo general, la configuración de una SAN se compone de dos controladoras funcionando activo-activo (para evitar puntos únicos de fallas) y un conjunto de discos configurados en los tipos de RAID anteriormente mencionados. Cada controladora es multifunción, independientemente podrá administrar la comunicación con el host, la cache interna y el conjunto de discos. Ante la falla de una de ellas, la restante soportará la carga transaccional total, en la mayoría de los casos con la consecuente disminución del rendimiento general del sistema.

Dentro del almacenamiento SAN es una opción económicamente efectiva pero tiene como contrapartida la complejidad en la escalabilidad. Siendo que dos controladoras o nodos son el máximo soportado en la mayoría de las configuraciones, para ampliar el esquema de almacenamiento se deberá reemplazar los controladores por otros de mayor desempeño o añadir otra SAN con el consecuente costo económico y administrativo.

En los últimos años, dos compañías introdujeron al mercado un nuevo concepto en almacenamiento SAN. El mismo es un clúster multi-nodo, donde inicialmente al igual que la configuración estándar SAN, se compone de dos nodos multifunción redundantes. La principal diferencia radica en una interconexión de las controladoras a través de switches formando una malla o red entre todos los integrantes. La información se encuentra distribuida entre todos los integrantes y es accesible desde cualquier controladora, escalando en performance cada vez que se agrega un nodo.

Discos (Tipos de discos / conectores)

Fibre Channel

Es un protocolo de transporte que transmite comandos SCSI a través de canales de fibra. Cronológicamente, los discos Fibre Channel fueron los primeros en usarse en las SANs. Este tipo de conectividad de alta velocidad permite hasta 127 discos (a diferencia de los 15 para SCSI) en una distancia de hasta 30 metros.

Se utilizan en centros de cómputos de medio y alto rendimiento, aunque hoy en día debido al costo de los discos la industria informática tiende al uso de SAS, dejando FC para un nicho específico.

Serial Attached SCSI o SAS

Serial Attached SCSI o SAS es el reemplazo de (Paralel) SCSI, que se ha utilizado por más de dos décadas. Con rendimiento similar a los discos FC, menor costo y estando sujeto a los mismos rigurosos controles en sus componentes, paulatinamente ha sabido introducirse en el segmento high-end empresarial.

NearLine SAS (NL-SAS)

Fue la respuesta para la demanda de almacenamiento con bajo costo en entorno empresarial. Se podría decir que son discos SATA con un mejor control de calidad e interfaz SAS (heredando así sus funcionalidades), como resultado permite tener grandes capacidades donde el rendimiento no es lo primordial.

Enterprise SSD

Enterprise SSD (Disco de estado sólido empresarial), aunque su costo por Gb es aún alto brinda el mayor rendimiento comparándolo con otro tipo de discos. Al no tener partes móviles los tiempos de acceso a la información se reducen drásticamente. Disponibles con interfaz SAS o SATA y en capacidades que llegan al terabyte, su vida útil es un tanto inferior que un disco SAS. Frecuentemente se los utiliza como memoria cache.

A grandes rasgos, hay tres categorías de discos si los clasificáramos por su rendimiento general (IOPS, Input Output Per Second): siendo NL-SAS el más lento y ubicándose el Enterprise SSD en el otro extremo de la lista. Este tipo de agrupamiento o capas de performance se los llama tiers.

Varios fabricantes ofrecen, embebido en el firmware de sus controladoras o a través de software, funcionalidades como “auto tiering”, colocando la información más frecuentemente accedida en el grupo de dispositivos más rápidos y al decrecer su solicitud será reasignada a otros dispositivos de menor desempeño y costo.

NAS (Network Attached Storage)

También llamado “servidor NAS”, es un equipo de menor valor económico con Sistema Operativo y/o software optimizado para almacenamiento de información accesible a nivel de archivo. No necesita de infraestructura de red especial ya que la comunicación con los clientes es a través de TCP/IP y los protocolos utilizados para compartir archivos son: CIFS (Common Internet File System) popular en el ambiente Windows o NFS (Network File System) nativo de Linux.

Tradicionalmente se utiliza para compartir archivos (documentos y multimedia), auditoría, repositorio, etc., aunque recientemente como su disponibilidad y rendimiento ha mejorado también se los suele utilizar para cierto tipo de bases de datos relacionales y virtualización.

A pesar de las diferencias que mantiene con SAN, no son mutuamente excluyentes.

Backup (Copia de seguridad a cinta)

Este es el tipo de almacenamiento masivo más antiguo (y todavía se usa!).
El backup a cinta ha enfrentado duras pruebas a lo largo de su existencia, más aún cuando tecnologías emergentes son más prácticas y rápidas. Las cintas siempre han disfrutado de disponer grandes cantidades de almacenamiento en comparación a un disco rígido, estamos hablando del orden de los 15 Tb comprimiendo los datos (en una cinta de última generación LTO7).

Con la tecnología actual, cada cinta tiene una expectativa de vida de 30 años o más y eso la hace el medio preferido para el archivado de información. Es importante mencionar que cada generación de cintas (LTO-x) tiene la compatibilidad dos generaciones hacia atrás para lectura y una para escritura.

Hoy en día se siguen utilizando por su portabilidad y relación costo/beneficio.

VTL (Virtual Tape Library)

En los últimos años, el respaldo basado en discos ha ganado popularidad debido a la baja en los precios de los discos y también una menor intervención del usuario. Generalmente su rendimiento es mayor ya que no depende de la búsqueda secuencial como la cinta.

Es un dispositivo que se comunica con el software de backup comportándose como una librería de cintas, pero el almacenamiento resulta en un conjunto de discos. Simplificándolo, es un hibrido. Ha tenido cierta aceptación en los centros de cómputos que las utilizan como etapa intermedia previa al volcado a cinta disminuyendo las ventanas de resguardo y restauración. En algunos casos se ha utilizado para reemplazar los robots de backup sin sacrificar el esquema en funcionamiento. Hay más de un producto en el mercado que cumple la misma función pero que conceptualmente se distancian de una librería virtual.