Introducción

En entornos Nutanix, Prism Central actúa como el plano de control que permite gestionar múltiples clústeres desde una única interfaz. Funciones críticas como automatización, políticas de protección, gestión de infraestructura o análisis dependen directamente de este componente.

Dado que Prism Central se despliega como una appliance virtual dedicada, surge una cuestión clave para arquitectos y administradores de plataforma:

¿Cómo garantizar la disponibilidad y resiliencia de Prism Central?

A diferencia de Prism Element, que está distribuido en todos los nodos del clúster, Prism Central requiere un diseño específico para asegurar su continuidad.

En este artículo analizamos cómo proteger Prism Central a tres niveles complementarios:

Alta disponibilidad dentro del clúster
Resiliencia mediante Scale-Out de Prism Central
Disaster Recovery entre sitios utilizando PCDR

Arquitectura de Prism Central

Prism Central es una máquina virtual basada en microservicios que se ejecuta sobre el hipervisor AHV.

Dependiendo del tamaño del entorno puede desplegarse en diferentes configuraciones:

Small
Large
X-Large

Internamente ejecuta múltiples servicios encargados de:

gestión multi-cluster
analítica y monitorización
automatización
gestión de políticas

Aunque se ejecuta como una VM, su arquitectura interna distribuye servicios para mejorar tolerancia a fallos.

Alta disponibilidad dentro del clúster

La primera capa de resiliencia proviene de las capacidades nativas de Nutanix.

HA del clúster AHV

La VM de Prism Central se beneficia directamente del mecanismo de High Availability (HA) del clúster.

Cuando el host donde se ejecuta Prism Central falla:

AHV detecta el fallo del nodo
La VM se reinicia automáticamente en otro nodo del clúster
Los servicios de Prism Central se restauran

El tiempo de recuperación suele ser de unos pocos minutos.

Buenas prácticas para HA

Para mejorar la disponibilidad dentro del clúster se recomienda:

habilitar HA en el clúster
garantizar capacidad reservada suficiente
evitar sobre-compromiso excesivo de recursos
ubicar Prism Central en clústeres estables

Esto protege frente a fallos de hardware.

Qué ocurre si Prism Central deja de estar disponible

Una duda frecuente es si la caída de Prism Central afecta a las máquinas virtuales.

La respuesta es no directamente.

Las cargas de trabajo continúan ejecutándose porque dependen de:

AHV
Prism Element

Sin embargo, sí se ven afectadas funciones de control como:

automatización
operaciones multi-cluster
políticas de protección
gestión centralizada

Por ello Prism Central es crítico para el control plane, aunque no para el data plane.

Scale-Out de Prism Central

Para mejorar resiliencia y escalabilidad, Nutanix permite desplegar Prism Central en modo Scale-Out.

Qué es Prism Central Scale-Out

En un despliegue básico, Prism Central se ejecuta como una sola VM.

Con Scale-Out es posible añadir instancias adicionales de Prism Central, creando un cluster interno de gestión.

Estas instancias trabajan conjuntamente distribuyendo servicios y carga de trabajo.

Beneficios de Scale-Out

El modo Scale-Out aporta varias ventajas:

Mayor resiliencia

Si una instancia falla, las demás continúan operando.

Escalabilidad

Permite gestionar entornos con:

múltiples clústeres
miles de máquinas virtuales

Distribución de carga

Las tareas de automatización y gestión se distribuyen entre las distintas instancias.

Cuándo utilizar Scale-Out

Se recomienda utilizar Scale-Out cuando:

se gestionan varios clústeres
el entorno supera miles de VMs
se utilizan funcionalidades avanzadas como Calm o LCM
se requiere mayor resiliencia del plano de control

Disaster Recovery para Prism Central

Para proteger Prism Central frente a la pérdida completa de un datacenter se requiere una estrategia de Disaster Recovery.

Sin embargo, es importante entender que no todos los mecanismos de replicación de Nutanix son válidos para Prism Central.

Tecnologías como:

Metro Availability
Near-Sync replication
replicación síncrona

están diseñadas para workloads y almacenamiento, no para el plano de control.

La solución recomendada para Prism Central es PCDR.

PCDR: Prism Central Disaster Recovery

PCDR (Prism Central Disaster Recovery) es la funcionalidad nativa de Nutanix diseñada para proteger Prism Central entre sitios.

Permite replicar la VM de Prism Central hacia un clúster remoto manteniendo:

configuración del entorno
inventario de clústeres
políticas y automatización
estado interno de la plataforma

En caso de desastre, Prism Central puede iniciarse en el sitio secundario.

Arquitectura típica de PCDR

Una arquitectura habitual incluye:

Sitio primario

Prism Central activo
clusters gestionados

Sitio secundario

réplica de Prism Central
cluster preparado para recuperación

Flujo de protección con PCDR

El proceso general es el siguiente:

habilitar PCDR desde Prism Central
definir el clúster de destino
replicar la VM de Prism Central
mantener sincronización periódica

Proceso de recuperación

En caso de desastre en el sitio principal:

se inicia Prism Central en el clúster DR
los clústeres gestionados se reconectan al nuevo control plane
se restauran las operaciones de gestión

Posteriormente puede realizarse un failback al sitio original.

Arquitectura completa de resiliencia de Prism Central

La protección de Prism Central puede diseñarse en tres niveles.


Nivel 1
HA del cluster Nutanix

Nivel 2
Scale-Out de Prism Central

Nivel 3
PCDR entre datacenters

Esto proporciona resiliencia en:

infraestructura
aplicación
geografía

Mejores prácticas de diseño

Para proteger Prism Central de forma efectiva se recomienda:

habilitar HA en el clúster
utilizar Scale-Out en entornos grandes
implementar PCDR para recuperación entre sitios
mantener backups periódicos
documentar y probar procedimientos de recuperación

Conclusión

Prism Central es el control plane de la plataforma Nutanix, por lo que su resiliencia debe diseñarse cuidadosamente.

La estrategia más completa combina:

HA del clúster para fallos locales
Scale-Out de Prism Central para resiliencia y escalabilidad
PCDR para recuperación ante desastres entre datacenters

Este enfoque permite construir una plataforma Nutanix robusta y preparada para entornos multi-cluster y multi-site.

Virtual Control Plane

Cómo proteger Prism Central: HA, resiliencia y Disaster Recovery en Nutanix