Error Message Hist Queue Is Filling Up
by: [ date ] [ thread ] [ subject ] [ author ] All, I discovered the source of this problem: I am running pf (firewall software) on both systems. I had enabled the "scrub" ruleset for the interfaces transmitting the heartbeat packets. This apparently causes problems with the transmitting of the crm data from node to node. This did not affect the actual heartbeat. I removed the scrub ruleset from both nodes and these messages have disappeared. Matt On 12/7/06, Matt Wilder
añadir un tercer nodo, pues lo tipico, como la configuración de heartbeat es idéntica en todos los nodos, copias. Erroooooor! Por lo visto parece ser https://eltioe1000.wordpress.com/2014/02/16/error-message-hist-queue-is-filling-up/ un bug, o no bug, no me quedó claro pero francamente no me apetecía seguir leyendo memeces en foros; en el que se conoce que si copias ficheros de configuración de https://www.mail-archive.com/linux-ha@lists.linux-ha.org/msg23522.html un nodo a otro, mágicamente, la comunicación entre nodos deja de funcionar. De ahí que no se envíen correctamente los mensajes, de ahí que se llene la cola de mensajes. En un error message primer momento pensé: firewall o similares. Así que el puerto que tengo configurado en mi ha.cf en heartbeat (que es UDP) lo abrí en todos los nodos, incluído en el que me daba problemas (yo que sé…). Pero nada, al cabo de un rato se vuelve a llenar la cola y en los logs, lloros. Seguí investigando. En mi caso estaba utilizando broadcast a error message hist lo loco para la comunicación entre nodos. Lo cual es guay y cómodo si tienes bien montada tu red. Leyendo, leyendo, encontré un artículo en el que hablaba de este mismo bug (no he podido volver a encontrar la fuente, así que no puedo dar crédito al logro. Espero que los Dioses de Internet sepan perdonarme). El colega sufría de la misma dolencia y, por el mismo motivo, copió los ficheros de un nodo a otro a lo loco pensando, ingenuo de él, que como eran iguales iba a dar lo mismo. Lo resuelve de una forma efectiva, segura pero poco eficiente o cómoda en el caso de que tu heartbeat controle muchos nodos. Esto es, unicast. En tu ficherito de ha.cf te comentas la línea mágica y maravillosa que reza bcast a tu interfaz de red, en mi caso: bcast bond0 Y la sustituyes por: ucast bond0
cluster problems in Linux-based Vyatta and more recent VyOS networking/router appliances. These are currently based on Debian Squeeze, and thus are using: Package: heartbeat Version: 1:3.0.3-2 VyOS bug report: http://bugzilla.vyos.net/show_bug.cgi?id=244 The problem is that when there are (unexpected) networking problems causing multicast issues, which cause problems in the inter-cluster communications, the heartbeat processes will die on the cluster nodes, which is bad, right? I assume heartbeat should never die, especially not because of temporary networking issues.. I've also seen heartbeat dying because of temporary network maintenance breaks.. Basicly first I'm seeing this kind of messages: Jun 23 17:55:02 vyos03 heartbeat: [4119]: WARN: node vyos01: is dead Jun 23 17:59:23 vyos03 heartbeat: [4119]: CRIT: Cluster node vyos01 returning after partition. Jun 23 17:59:23 vyos03 heartbeat: [4119]: WARN: Deadtime value may be too small. Jun 23 17:59:23 vyos03 heartbeat: [4119]: WARN: Late heartbeat: Node vyos01: interval 273580 ms Jun 23 17:59:23 vyos03 harc[4961]: info: Running /etc/ha.d//rc.d/status status Jun 23 17:59:25 vyos03 ResourceManager[4991]: info: Releasing resource group: vyos01 IPaddr2-vyatta::10.0.0.10/24/eth1 Jun 23 17:59:25 vyos03 ResourceManager[4991]: info: Running /etc/ha.d/resource.d/IPaddr2-vyatta 10.0.0.10/24/eth1 stop Jun 23 17:59:26 vyos03 heartbeat: [4119]: WARN: 1 lost packet(s) for [vyos01] [421:423] Jun 23 17:59:39 vyos03 heartbeat: [4119]: WARN: Logging daemon is disabled --enabling logging daemon is recommended Jun 23 17:59:40 vyos03 harc[5102]: info: Running /etc/ha.d//rc.d/status status Which seem normal in the case of networking problem.. But then later: Jun 23 19:31:22 vyos03 heartbeat: [10921]: ERROR: Message hist queue is filling up (494 messages in queue) Jun 23 19:31:22 vyos03 heartbeat: [10921]: ERROR: Message hist queue is filling up (495 messages in queue) Jun 23 19:31:23 vyos03 heartbeat: [10921]: ERROR: Message hist queue is filling up (496 messages in queue) Jun 23 19:31:24 vyos03 heartbeat: [10921]: ERROR: Message hist queue is filling u