Grafana 5.3 y panel de VMware vSphere

Recientemente he actualizado a la última versión de grafana, la 5.3. Esta actualización no tendría nada especialmente novedoso sino fuera porque también he tenido que actualizar telegraf. Esto es por la inclusión del nuevo plugin nativo para vSphere, la verdad es que ya era hora. Realmente gran parte de la información, así como los paneles básicos los he sacado del blog de Jorge de la Cruz, que tiene una información realmente espectacular, realmente un blog muy recomendable.

El proceso para incorporar los paneles de Vsphere es muy sencillo, actualizar grafana y telegraf y añadir la parte nueva de configuración del plugin a la configuración de telegraf. En el fichero /etc/telegraf/telegraf.conf

[[inputs.vsphere]]

   ## List of vCenter URLs to be monitored. These three lines must be uncommented
   ## and edited for the plugin to work.
   vcenters = [ "https://HOSTNAME/sdk" ]
   username = "USERNAME"
   password = "PASSWORD"
   insecure_skip_verify = true

## Typical VM metrics (if omitted or empty, all metrics are collected)
   vm_metric_include = [
     "cpu.demand.average",
     "cpu.usage.average",
     "cpu.idle.summation",
     "cpu.latency.average",
     "cpu.readiness.average",
     "cpu.ready.summation",
     "cpu.run.summation",
     "cpu.usagemhz.average",
     "cpu.used.summation",
     "cpu.wait.summation",
     "mem.active.average",
     "mem.granted.average",
     "mem.latency.average",
     "mem.swapin.average",
     "mem.swapinRate.average",
     "mem.swapout.average",
     "mem.swapoutRate.average",
     "mem.usage.average",
     "mem.vmmemctl.average",
     "net.bytesRx.average",
     "net.bytesTx.average",
     "net.droppedRx.summation",
     "net.droppedTx.summation",
     "net.usage.average",
     "power.power.average",
     "virtualDisk.numberReadAveraged.average",
     "virtualDisk.numberWriteAveraged.average",
     "virtualDisk.read.average",
     "virtualDisk.readOIO.latest",
     "virtualDisk.throughput.usage.average",
     "virtualDisk.totalReadLatency.average",
     "virtualDisk.totalWriteLatency.average",
     "virtualDisk.write.average",
     "virtualDisk.writeOIO.latest",
     "sys.uptime.latest",
  ]
  # vm_metric_exclude = [] ## Nothing is excluded by default
  # vm_instances = true ## true by default

   ## Hosts
   ## Typical host metrics (if omitted or empty, all metrics are collected)
host_metric_include = [
     "cpu.coreUtilization.average",
     "cpu.costop.summation",
     "cpu.demand.average",
     "cpu.idle.summation",
     "cpu.latency.average",
     "cpu.readiness.average",
     "cpu.ready.summation",
     "cpu.swapwait.summation",
     "cpu.usage.average",
     "cpu.usagemhz.average",
     "cpu.used.summation",
     "cpu.utilization.average",
     "cpu.wait.summation",
     "disk.deviceReadLatency.average",
     "disk.deviceWriteLatency.average",
     "disk.kernelReadLatency.average",
     "disk.kernelWriteLatency.average",
     "disk.numberReadAveraged.average",
     "disk.numberWriteAveraged.average",
     "disk.read.average",
     "disk.totalReadLatency.average",
     "disk.totalWriteLatency.average",
     "disk.write.average",
     "mem.active.average",
     "mem.latency.average",
     "mem.state.latest",
     "mem.swapin.average",
     "mem.swapinRate.average",
     "mem.swapout.average",
     "mem.swapoutRate.average",
     "mem.totalCapacity.average",
     "mem.usage.average",
     "mem.vmmemctl.average",
     "net.bytesRx.average",
     "net.bytesTx.average",
     "net.droppedRx.summation",
     "net.droppedTx.summation",
     "net.errorsRx.summation",
     "net.errorsTx.summation",
     "net.usage.average",
     "power.power.average",
     "storageAdapter.numberReadAveraged.average",
     "storageAdapter.numberWriteAveraged.average",
     "storageAdapter.read.average",
     "storageAdapter.write.average",
     "sys.uptime.latest",
   ]
   # host_metric_exclude = [] ## Nothing excluded by default
   # host_instances = true ## true by default

## Clusters
   cluster_metric_include = [] ## if omitted or empty, all metrics are collected
   # cluster_metric_exclude = [] ## Nothing excluded by default
   # cluster_instances = true ## true by default
## Datastores
   datastore_metric_include = [] ## if omitted or empty, all metrics are collected
   # datastore_metric_exclude = [] ## Nothing excluded by default
   # datastore_instances = false ## false by default for Datastores only
## Datacenters
   datacenter_metric_include = [] ## if omitted or empty, all metrics are collected
   # datacenter_metric_exclude = [ "*" ] ## Datacenters are not collected by default.
   # datacenter_instances = false ## false by default for Datastores only

Os dejo una foto del panel resultante.

Y un enlace al blog de Jorge de la Cruz. Mirad también los enlaces a sus paneles, que son muy útiles y nos van a ahorrar mucho trabajo.

3 comentarios en “Grafana 5.3 y panel de VMware vSphere”

  1. Estimado, tengo telegraf y grafana en sus últimas versiones.
    Edito el archivo telegraf.conf tal como indicas y luego de reiniciar el servicio de telegraf el mismo no levanta más. A qué puede deberse ? He buscado bastante documentación pero no he encontrado mucho

    root@osiris:/etc/telegraf# service telegraf status
    ● telegraf.service – The plugin-driven server agent for reporting metrics into InfluxDB
    Loaded: loaded (/lib/systemd/system/telegraf.service; enabled; vendor preset: enabled)
    Active: failed (Result: exit-code) since Fri 2019-11-08 14:05:09 EST; 32s ago
    Docs: https://github.com/influxdata/telegraf
    Process: 2257 ExecStart=/usr/bin/telegraf -config /etc/telegraf/telegraf.conf -config-directory /etc/telegraf/telegraf.d
    Main PID: 2257 (code=exited, status=1/FAILURE)

    Nov 08 14:05:09 osiris systemd[1]: telegraf.service: Service hold-off time over, scheduling restart.
    Nov 08 14:05:09 osiris systemd[1]: telegraf.service: Scheduled restart job, restart counter is at 5.
    Nov 08 14:05:09 osiris systemd[1]: Stopped The plugin-driven server agent for reporting metrics into InfluxDB.
    Nov 08 14:05:09 osiris systemd[1]: telegraf.service: Start request repeated too quickly.
    Nov 08 14:05:09 osiris systemd[1]: telegraf.service: Failed with result ‘exit-code’.
    Nov 08 14:05:09 osiris systemd[1]: Failed to start The plugin-driven server agent for reporting metrics into InfluxDB.

    Responder
    • Hola
      obviamente hay un error en el fichero de configuracion de telegraf

      en principio se me ocurre que es un error de copy-paste, aunque imagino que lo habras verificado.
      tambien que al pegarlo te llevases el cierre de configuracion de la parte superior
      tambien hay que revisar versiones de grafana (5.3+) y telegraf (1.11 no recuerdo desde que version exacta funciona).
      creo recordad que se peude ejecutar telegraf con el parametro -test.v y te proporciona informacion mas detallada.
      a ver si damos con el error.

      Responder
  2. Hola Oscar, he estado tratando de montar tu solucion y tambien vi el blog de Jorge, en un ambiente cerrado. este ambiente esta dentro de una DMZ, instale grafana, telegraf y influxdb, realice la config del .conf tal cual como lo indicas y he estado teniendo bastantes problemas con la conexion al vcenter.

    netamente relacionado a certificados, pero lo que he estado mirando es que al tratar de conectar al vcenter intenta realizar una conexion para salir por el proxy y estos equipos no tienen salida a internet, no se si iria por ahi el tema

    agregue el Skip para el SSL, pero aun asi me da distintos tipos de errores cada vez que intento conectar

    2019-11-28T02:48:55Z E! [agent] Service for [inputs.vsphere] failed to start: Post https://vcenter.localdomain/sdk: Unable to connect
    2019-11-28T02:48:55Z E! [telegraf] Error running agent: Post https://vcenter.localdomain/sdk: Unable to connect

    2019-11-28T02:48:49Z E! [agent] Service for [inputs.vsphere] failed to start: 404 Not Found
    2019-11-28T02:48:49Z E! [telegraf] Error running agent: 404 Not Found

    2019-11-28T02:48:12Z E! [agent] Service for [inputs.vsphere] failed to start: Post https://vcenter.localdomain/sdk: x509: certificate signed by unknown authority
    2019-11-28T02:48:12Z E! [telegraf] Error running agent: Post https://vcenter.localdomain/sdk: x509: certificate signed by unknown authority

    Responder

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.