Cómo proteger Prism Central: HA, resiliencia y Disaster Recovery en Nutanix


Introducción

En entornos Nutanix, Prism Central actúa como el plano de control que permite gestionar múltiples clústeres desde una única interfaz. Funciones críticas como automatización, políticas de protección, gestión de infraestructura o análisis dependen directamente de este componente.

Dado que Prism Central se despliega como una appliance virtual dedicada, surge una cuestión clave para arquitectos y administradores de plataforma:

¿Cómo garantizar la disponibilidad y resiliencia de Prism Central?

A diferencia de Prism Element, que está distribuido en todos los nodos del clúster, Prism Central requiere un diseño específico para asegurar su continuidad.

En este artículo analizamos cómo proteger Prism Central a tres niveles complementarios:

  • Alta disponibilidad dentro del clúster

  • Resiliencia mediante Scale-Out de Prism Central

  • Disaster Recovery entre sitios utilizando PCDR

Arquitectura de Prism Central

Prism Central es una máquina virtual basada en microservicios que se ejecuta sobre el hipervisor AHV.

Dependiendo del tamaño del entorno puede desplegarse en diferentes configuraciones:

  • Small

  • Large

  • X-Large



Internamente ejecuta múltiples servicios encargados de:

  • gestión multi-cluster

  • analítica y monitorización

  • automatización

  • gestión de políticas

Aunque se ejecuta como una VM, su arquitectura interna distribuye servicios para mejorar tolerancia a fallos.

Alta disponibilidad dentro del clúster

La primera capa de resiliencia proviene de las capacidades nativas de Nutanix.

HA del clúster AHV

La VM de Prism Central se beneficia directamente del mecanismo de High Availability (HA) del clúster.

Cuando el host donde se ejecuta Prism Central falla:

  1. AHV detecta el fallo del nodo

  2. La VM se reinicia automáticamente en otro nodo del clúster

  3. Los servicios de Prism Central se restauran

El tiempo de recuperación suele ser de unos pocos minutos.

Buenas prácticas para HA

Para mejorar la disponibilidad dentro del clúster se recomienda:

  • habilitar HA en el clúster

  • garantizar capacidad reservada suficiente

  • evitar sobre-compromiso excesivo de recursos

  • ubicar Prism Central en clústeres estables

Esto protege frente a fallos de hardware.

Qué ocurre si Prism Central deja de estar disponible

Una duda frecuente es si la caída de Prism Central afecta a las máquinas virtuales.

La respuesta es no directamente.

Las cargas de trabajo continúan ejecutándose porque dependen de:

  • AHV

  • Prism Element

Sin embargo, sí se ven afectadas funciones de control como:

  • automatización

  • operaciones multi-cluster

  • políticas de protección

  • gestión centralizada

Por ello Prism Central es crítico para el control plane, aunque no para el data plane.

Scale-Out de Prism Central

Para mejorar resiliencia y escalabilidad, Nutanix permite desplegar Prism Central en modo Scale-Out.

Qué es Prism Central Scale-Out

En un despliegue básico, Prism Central se ejecuta como una sola VM.

Con Scale-Out es posible añadir instancias adicionales de Prism Central, creando un cluster interno de gestión.


Estas instancias trabajan conjuntamente distribuyendo servicios y carga de trabajo.

Beneficios de Scale-Out

El modo Scale-Out aporta varias ventajas:

Mayor resiliencia

Si una instancia falla, las demás continúan operando.

Escalabilidad

Permite gestionar entornos con:

  • múltiples clústeres

  • miles de máquinas virtuales

Distribución de carga

Las tareas de automatización y gestión se distribuyen entre las distintas instancias.

Cuándo utilizar Scale-Out

Se recomienda utilizar Scale-Out cuando:

  • se gestionan varios clústeres

  • el entorno supera miles de VMs

  • se utilizan funcionalidades avanzadas como Calm o LCM

  • se requiere mayor resiliencia del plano de control

Disaster Recovery para Prism Central

Para proteger Prism Central frente a la pérdida completa de un datacenter se requiere una estrategia de Disaster Recovery.

Sin embargo, es importante entender que no todos los mecanismos de replicación de Nutanix son válidos para Prism Central.

Tecnologías como:

  • Metro Availability

  • Near-Sync replication

  • replicación síncrona

están diseñadas para workloads y almacenamiento, no para el plano de control.

La solución recomendada para Prism Central es PCDR.

PCDR: Prism Central Disaster Recovery

PCDR (Prism Central Disaster Recovery) es la funcionalidad nativa de Nutanix diseñada para proteger Prism Central entre sitios.

Permite replicar la VM de Prism Central hacia un clúster remoto manteniendo:

  • configuración del entorno

  • inventario de clústeres

  • políticas y automatización

  • estado interno de la plataforma

En caso de desastre, Prism Central puede iniciarse en el sitio secundario.

Arquitectura típica de PCDR

Una arquitectura habitual incluye:

Sitio primario

  • Prism Central activo

  • clusters gestionados

Sitio secundario

  • réplica de Prism Central

  • cluster preparado para recuperación

Flujo de protección con PCDR

El proceso general es el siguiente:

  1. habilitar PCDR desde Prism Central

  2. definir el clúster de destino

  3. replicar la VM de Prism Central

  4. mantener sincronización periódica

Proceso de recuperación

En caso de desastre en el sitio principal:

  1. se inicia Prism Central en el clúster DR

  2. los clústeres gestionados se reconectan al nuevo control plane

  3. se restauran las operaciones de gestión

Posteriormente puede realizarse un failback al sitio original.

Arquitectura completa de resiliencia de Prism Central

La protección de Prism Central puede diseñarse en tres niveles.

Nivel 1
HA del cluster Nutanix

Nivel 2
Scale-Out de Prism Central

Nivel 3
PCDR entre datacenters

Esto proporciona resiliencia en:

  • infraestructura

  • aplicación

  • geografía

Mejores prácticas de diseño

Para proteger Prism Central de forma efectiva se recomienda:

  • habilitar HA en el clúster

  • utilizar Scale-Out en entornos grandes

  • implementar PCDR para recuperación entre sitios

  • mantener backups periódicos

  • documentar y probar procedimientos de recuperación

Conclusión

Prism Central es el control plane de la plataforma Nutanix, por lo que su resiliencia debe diseñarse cuidadosamente.

La estrategia más completa combina:

  • HA del clúster para fallos locales

  • Scale-Out de Prism Central para resiliencia y escalabilidad

  • PCDR para recuperación ante desastres entre datacenters

Este enfoque permite construir una plataforma Nutanix robusta y preparada para entornos multi-cluster y multi-site.

Comentarios