El otro dia estuve dándole muchas vueltas a un problema de conectividad en cluster que daba muchos errores de comunicación HA. Estos errores eran aleatorios y no parecían tener mucho sentido, en ocasiones desaparecían pero al final siempre estaban un par de nodos dando guerra.
Para poder verificar la conectividad tuve que ir uno por uno probando todos los nodos del clúster y verificando la correcta comunicación de todos con todos y aquí fue donde se encontró el problema: Todos los nodos comunicaban con todos los demás excepto el 6 y el 10 que no se veían entre ellos. Revisamos todas las configuraciones de red y no parecía haber ningún problema hasta que por fin lo encontramos teníamos una MAC duplicada.
Resulta que el nodo 6 tenía en el vmk0 la misma MAC que una de las tarjetas del nodo 10, sorprendente. Esto nos ha ocurrido pora unos perfiles de «HPE virtual connect» que temporalmente se asignaron incorrectamente y el hos ESXi guardo la MAC de otro perfil. Para solucionarlo solo tenemos que actualizar la MAC del vmk0.
Con el comando esxcfg-vmknic –l podemos verificar la MAC del vmk0
Interface Port Group/DVPort/Opaque Network IP Family IP Address Netmask Broadcast MAC Address vmk0 Management Network IPv4 10.67.32.176 255.255.254.0 10.67.33.255 00:50:56:6a:c2:14 vmk0 Management Network IPv6 fe80::250:56ff:fe6a:c214 64 00:50:56:6a:c2:14
Vamos confirmando las MAC de las tarjetas físicas con el comando esxcfg-nics -l
Name PCI Driver Link Speed Duplex MAC Address MTU Description vmnic0 0000:06:00.0 bnx2x Up 10000Mbps Full 00:17:a4:77:fc:10 1500 Broadcom Corporation QLogic 57840 10 Gigabit Ethernet Adapter vmnic1 0000:06:00.1 bnx2x Up 10000Mbps Full 00:17:a4:77:fc:12 1500 Broadcom Corporation QLogic 57840 10 Gigabit Ethernet Adapter vmnic4 0000:06:00.4 bnx2x Up 10000Mbps Full 00:17:a4:77:fc:14 1500 Broadcom Corporation QLogic 57840 10 Gigabit Ethernet Adapter vmnic5 0000:06:00.5 bnx2x Up 10000Mbps Full 00:17:a4:77:fc:16 1500 Broadcom Corporation QLogic 57840 10 Gigabit Ethernet Adapter vmnic6 0000:06:00.6 bnx2x Up 10000Mbps Full 00:17:a4:77:fc:18 1500 Broadcom Corporation QLogic 57840 10 Gigabit Ethernet Adapter vmnic7 0000:06:00.7 bnx2x Up 10000Mbps Full 00:17:a4:77:fc:1a 1500 Broadcom Corporation QLogic 57840 10 Gigabit Ethernet Adapter
Y la configuración de los vswitch con el comando esxcfg-vswitch -l
Asi podemos borrar vmknic con esxcfg-vmknic -d -p pgName. Siendo pgName «Management Network» en nuestro caso
Y añadirlo con esxcfg-vmknic -a -i x.x.x.x -n 255.255.255.0 pgName
Tras esta operación es necesario reiniciar el host ESXi para que tenga efecto y podamos restablecer la configuracion de al comunicación HA