Ayer el laboratorio quedó ciego. Al intentar escalar a una segunda VM, el passthrough de la GPU falló, bloqueando el host de Proxmox.
Conflictos entre los drivers del host y los de la VM. No habíamos deshabilitado correctamente los drivers open-source en el Proxmox.
En hardware real, la configuración del host es tan crítica como el código de la aplicación.
Hemos estandarizado un script de “Pre-vuelo” para cada nodo del cluster que valida el estado del PCIe antes de arrancar cualquier modelo.