Mejores prácticas de deduplicación

La deduplicación es un proceso complejo que depende de muchos factores.

Los factores más importantes que tienen influencia sobre la velocidad de la deduplicación son:

  • La velocidad de acceso a la base de datos de deduplicación
  • La capacidad de RAM del nodo de almacenamiento
  • El número de ubicaciones de deduplicación creado en el nodo de almacenamiento.

Para incrementar el rendimiento de la deduplicación, siga las recomendaciones a continuación.

Coloque la base de datos de deduplicación y la ubicación de deduplicación en equipos físicos independientes

La base de datos de deduplicación incluye los valores hash de todos los elementos almacenados en la ubicación, excepto aquellos que no pueden deduplicarse, como los archivos cifrados.

Para aumentar la velocidad de acceso a una base de datos de deduplicación, la base de datos y la ubicación deben estar colocadas en dispositivos físicos independientes.

Es mejor asignar dispositivos exclusivos para la ubicación y la base de datos. Si esto no es posible, al menos no coloque una ubicación o una base de datos en el mismo disco con el sistema operativo. El motivo es que el sistema operativo realiza una gran cantidad de operaciones de lectura/escritura en el disco duro, lo que ralentiza en gran medida la deduplicación.

Selección de un disco para una base de datos de deduplicación

  • La base de datos deberá residir en una unidad fija. No intente colocar la base de datos de deduplicación en unidades extraíbles externas.
  • Para minimizar el tiempo de acceso a la base de datos, almacénela en una unidad que esté conectada directamente en lugar de en un volumen de red montado. La latencia de la red puede reducir de forma considerable el rendimiento de la deduplicación.
  • El espacio de disco necesario para una base de datos de deduplicación puede estimarse utilizando la siguiente fórmula:

S = U * 90 / 65536 + 10

Aquí,

S es el tamaño del disco en GB

U es la cantidad planificada de datos únicos en el almacén de datos de deduplicación en GB

Por ejemplo, si la cantidad planificada de datos únicos en el almacén de datos de deduplicación es U=5 TB, la base de datos de deduplicación necesitará, como mínimo, el espacio libre que se indica a continuación:

S = 5000 * 90 / 65536 + 10 = 17 GB

Selección de un disco para una ubicación de deduplicación

Con el fin de impedir la pérdida de datos, se recomienda utilizar RAID 10, 5 o 6. No es recomendable usar RAID 0 porque no es tolerante a errores. RAID 1 no es recomendable debido a su velocidad relativamente baja. No existe preferencia sobre discos locales o SAN, ambos son adecuados.

De 40 a 160 MB de RAM por 1 TB de datos únicos

Cuando se alcanza el límite, la deduplicación se detendrá, pero la copia de seguridad y la recuperación continuarán. Si añade más RAM al nodo de almacenamiento, la deduplicación se reanudará después de la siguiente copia de seguridad. En general, cuanta más memoria RAM tenga, mayores volúmenes de datos únicos podrá almacenar.

Solo una ubicación de deduplicación en cada nodo de almacenamiento

Le recomendamos encarecidamente que cree una sola ubicación de deduplicación en un nodo de almacenamiento. De lo contrario, todo el volumen de RAM disponible puede distribuirse en proporción a la cantidad de ubicaciones.

Ausencia de aplicaciones que compitan por recursos

El equipo con el nodo de almacenamiento no debe ejecutar aplicaciones que necesiten muchos recursos del sistema; por ejemplo, sistemas de gestión de bases de datos (DBMS) o sistemas de planificación de recursos empresariales (ERP).

Procesador de varios núcleos con al menos 2,5 GHz de frecuencia del reloj

Se recomienda utilizar un procesador con al menos cuatro núcleos y una frecuencia de al menos 2,5 GHz.

Espacio libre suficiente en la ubicación

La deduplicación en destino requiere tanto espacio libre como el ocupado por los datos de los que se ha realizado la copia de seguridad inmediatamente después de guardarse en la ubicación. Sin una compresión o deduplicación en el origen, este valor es igual al tamaño original de los datos incluidos en la copia de seguridad durante la operación de copia de seguridad dada.

LAN de alta velocidad

Se recomienda una LAN de 1 Gbit. Permite que el software realice 5-6 copias de seguridad con deduplicación en paralelo y la velocidad no disminuirá considerablemente.

Copia de seguridad de un equipo típico antes de la copia de seguridad de varios equipos con contenido similar

Al realizar la copia de seguridad de varios equipos con contenido similar, es recomendable que realice la copia de seguridad de un equipo primero y espere hasta que finalice la indexación de los datos incluidos en la copia de seguridad. Después de esto, los demás equipos se incluirán en la copia de seguridad más rápidamente debido a una eficaz deduplicación. Como la copia de seguridad del primer equipo se ha indexado, la mayoría de los datos ya se encuentran en el almacén de datos de deduplicación.

Copia de seguridad de distintos equipos en diferentes momentos

Si realiza la copia de seguridad de un gran número de equipos, divida la s operaciones de copia de seguridad en el tiempo. Para ello, cree varios planes de protección con varias programaciones.