El Punto JS

Jorge Saavedra

·12 de febrero, 2024·4 min de lectura

kafkaoperacionesmonitoreomensajeriabuenas-practicas

Configurar un productor y un consumidor es solo el inicio. Operar Kafka en un entorno real implica gestionar topics, particiones, consumer groups, monitoreo y recuperación ante fallos. Este artículo cubre las operaciones más comunes y las buenas prácticas que todo equipo necesita conocer.

Herramientas de línea de comandos

Kafka incluye una serie de scripts de consola que permiten administrar el clúster sin necesidad de interfaces gráficas. Son la forma más directa de inspeccionar y modificar el estado del sistema.

bash

# Crear un topic con 3 particiones y factor de replicación 2
kafka-topics.sh --create \
  --bootstrap-server localhost:9092 \
  --topic orders \
  --partitions 3 \
  --replication-factor 2

# Listar todos los topics
kafka-topics.sh --list --bootstrap-server localhost:9092

# Describir un topic (ver particiones, réplicas, ISR)
kafka-topics.sh --describe \
  --bootstrap-server localhost:9092 \
  --topic orders

# Aumentar particiones (no se pueden reducir!)
kafka-topics.sh --alter \
  --bootstrap-server localhost:9092 \
  --topic orders \
  --partitions 6

Consumer Groups: la pieza clave del escalamiento

Los consumer groups son el mecanismo que permite a Kafka escalar el consumo horizontalmente. La regla fundamental es que cada partición solo puede ser consumida por un consumidor del mismo grupo al mismo tiempo. Esto implica lo siguiente:

Si tienes 3 particiones y 3 consumidores, cada uno lee una partición.
Si tienes 3 particiones y 5 consumidores, 2 estarán ociosos en todo momento.
Si un consumidor muere, Kafka realiza un rebalanceo automático y redistribuye las particiones entre los consumidores restantes.

bash

# Listar consumer groups
kafka-consumer-groups.sh --list \
  --bootstrap-server localhost:9092

# Ver el estado de un consumer group (lag, offsets, etc.)
kafka-consumer-groups.sh --describe \
  --bootstrap-server localhost:9092 \
  --group order-processor

# Resetear offsets (útil para reprocesar mensajes)
kafka-consumer-groups.sh --reset-offsets \
  --bootstrap-server localhost:9092 \
  --group order-processor \
  --topic orders \
  --to-earliest \
  --execute

# Resetear a una fecha específica
kafka-consumer-groups.sh --reset-offsets \
  --bootstrap-server localhost:9092 \
  --group order-processor \
  --topic orders \
  --to-datetime 2024-01-15T00:00:00.000 \
  --execute

Monitoreo: métricas que debes vigilar

Operar Kafka sin monitoreo es operar a ciegas. Estas son las métricas más importantes que debes tener en tu dashboard:

Consumer Lag: La métrica más importante. Es la diferencia entre el último offset producido y el último offset consumido. Un lag creciente significa que los consumidores no pueden seguir el ritmo de producción.
Under-replicated partitions: Particiones cuyas réplicas no están sincronizadas. Indica problemas de salud del clúster.
Request rate y latencia: Tanto del productor como del consumidor. Permiten detectar cuellos de botella antes de que se conviertan en incidentes.
Disk usage: Kafka almacena mensajes en disco. Si el disco se llena, el broker deja de funcionar.

Retención de mensajes

Por defecto, Kafka retiene los mensajes durante 7 días. Este comportamiento se puede ajustar por topic según las necesidades del negocio, ya sea por tiempo o por tamaño en disco.

bash

# Configurar retención a 7 días para un topic
kafka-configs.sh --alter \
  --bootstrap-server localhost:9092 \
  --entity-type topics \
  --entity-name orders \
  --add-config retention.ms=604800000

# Configurar retención por tamaño (1GB)
kafka-configs.sh --alter \
  --bootstrap-server localhost:9092 \
  --entity-type topics \
  --entity-name orders \
  --add-config retention.bytes=1073741824

# Compactación de logs (mantener último valor por key)
kafka-configs.sh --alter \
  --bootstrap-server localhost:9092 \
  --entity-type topics \
  --entity-name user-profiles \
  --add-config cleanup.policy=compact

La compactación de logs es especialmente útil para topics que representan el estado actual de una entidad (como perfiles de usuario). En lugar de retener todos los eventos históricos, Kafka mantiene solo el mensaje más reciente por clave.

Configuración del productor en Spring Boot para producción

La configuración por defecto del productor de Kafka prioriza la velocidad por sobre la garantía de entrega. En producción, es fundamental ajustar estos parámetros para evitar pérdida de mensajes.

kotlin

@Configuration
class KafkaProducerConfig {
    @Bean
    fun producerFactory(): ProducerFactory<String, String> {
        val config = mapOf(
            ProducerConfig.BOOTSTRAP_SERVERS_CONFIG to "localhost:9092",
            ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG to StringSerializer::class.java,
            ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG to StringSerializer::class.java,
            // Garantizar entrega
            ProducerConfig.ACKS_CONFIG to "all",
            ProducerConfig.RETRIES_CONFIG to 3,
            ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG to true,
            // Rendimiento
            ProducerConfig.BATCH_SIZE_CONFIG to 16384,
            ProducerConfig.LINGER_MS_CONFIG to 5,
            ProducerConfig.COMPRESSION_TYPE_CONFIG to "snappy"
        )
        return DefaultKafkaProducerFactory(config)
    }
}

El parámetro acks=all exige que todas las réplicas del líder confirmen la escritura antes de considerar el mensaje como entregado. Combinado con la idempotencia, garantiza exactamente una entrega incluso ante reintentos por fallos de red.

Configuración del consumidor para producción

El consumidor requiere atención especial en dos aspectos: el commit de offsets y la concurrencia. Desactivar el auto-commit te da control total sobre cuándo se marca un mensaje como procesado.

kotlin

@Configuration
class KafkaConsumerConfig {
    @Bean
    fun consumerFactory(): ConsumerFactory<String, String> {
        val config = mapOf(
            ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG to "localhost:9092",
            ConsumerConfig.GROUP_ID_CONFIG to "order-processor",
            ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG to StringDeserializer::class.java,
            ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG to StringDeserializer::class.java,
            ConsumerConfig.AUTO_OFFSET_RESET_CONFIG to "earliest",
            ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG to false,
            ConsumerConfig.MAX_POLL_RECORDS_CONFIG to 100,
            ConsumerConfig.MAX_POLL_INTERVAL_MS_CONFIG to 300000
        )
        return DefaultKafkaConsumerFactory(config)
    }

    @Bean
    fun kafkaListenerContainerFactory(
        consumerFactory: ConsumerFactory<String, String>
    ): ConcurrentKafkaListenerContainerFactory<String, String> {
        val factory = ConcurrentKafkaListenerContainerFactory<String, String>()
        factory.consumerFactory = consumerFactory
        factory.containerProperties.ackMode = ContainerProperties.AckMode.MANUAL
        factory.setConcurrency(3) // Número de consumidores concurrentes
        return factory
    }
}

El valor de MAX_POLL_INTERVAL_MS_CONFIG define cuánto tiempo puede tardar el procesamiento de un lote antes de que Kafka considere al consumidor como caído y dispare un rebalanceo. Ajústalo según la complejidad de tu lógica de negocio.

Dead Letter Queue: un plan para los mensajes problemáticos

No todos los mensajes se pueden procesar correctamente. Un mensaje malformado, una dependencia no disponible o un error de lógica pueden hacer que el procesamiento falle de forma repetida. La solución es la Dead Letter Queue (DLQ): un topic especial donde se redirigen los mensajes que no se pudieron procesar después de N reintentos.

kotlin

@KafkaListener(topics = ["orders"], groupId = "order-processor")
fun processOrder(
    record: ConsumerRecord<String, String>,
    acknowledgment: Acknowledgment
) {
    try {
        val order = objectMapper.readValue(record.value(), Order::class.java)
        orderService.process(order)
        acknowledgment.acknowledge()
    } catch (e: Exception) {
        logger.error("Error procesando orden: ${record.key()}", e)
        // Enviar a DLQ después de N reintentos
        kafkaTemplate.send("orders.dlq", record.key(), record.value())
        acknowledgment.acknowledge() // Acknowledge para avanzar el offset
    }
}

Es importante hacer el acknowledge incluso cuando el mensaje va a la DLQ. De lo contrario, el offset no avanza y el consumidor quedará procesando el mismo mensaje indefinidamente, bloqueando la partición completa.

Buenas prácticas: resumen operativo

Estas son las recomendaciones que marcan la diferencia entre un clúster estable y uno que genera incidentes constantemente:

Define una convención de nombres para topics, por ejemplo: dominio.evento.version.
No crees topics con demasiadas particiones desde el inicio. Puedes agregar más, pero no reducir.
Usa acks=all e idempotencia en el productor para garantizar entrega.
Desactiva el auto-commit en producción y usa commit manual.
Implementa una DLQ para mensajes problemáticos.
Monitorea el consumer lag como tu alarma principal.
Usa compresión (snappy o lz4) para reducir el ancho de banda.

Conclusión

Gestionar Kafka no es difícil si conoces las herramientas y los patrones correctos. La clave está en monitorear el consumer lag como indicador principal de salud, configurar la retención adecuada para cada topic según su naturaleza, y tener un plan concreto para los mensajes que fallan. Con estas bases, tu clúster será predecible, observable y resiliente.

Gestión de Kafka: operaciones y buenas prácticas

Herramientas de línea de comandos

Consumer Groups: la pieza clave del escalamiento

Monitoreo: métricas que debes vigilar

Retención de mensajes

Configuración del productor en Spring Boot para producción

Configuración del consumidor para producción

Dead Letter Queue: un plan para los mensajes problemáticos

Buenas prácticas: resumen operativo

Conclusión

Posts que podrian interesarte