Sincronice datos de varias tablas en Hive con Clickhouse para proporcionar consultas en tiempo real. Cada tabla tiene 200 millones de registros. Los requisitos para la herramienta de sincronización son: primero, puede darse cuenta de que el tiempo de extracción no debe ser demasiado largo; segundo, puede personalizar el control para extraer datos a la instancia de nodo especificada del clúster de clickhouse; Como desarrollador de Java, naturalmente no quiero depender demasiado de Hadoop. Después de buscar en línea, decidí usar Seatunnel, que puede extraer datos mediante una configuración simple.
Apache SeaTunnel (Incubating) es una plataforma de integración de datos distribuida, de alto rendimiento y fácilmente escalable para la sincronización y transformación de datos masivos (fuera de línea y en tiempo real).
Documentación oficial: https://interestinglab.github.io/seatunnel-docs/#/
La instalación es relativamente simple, solo consulte la documentación oficial.
config.conf La siguiente configuración es para extraer datos de Hive e insertarlos en Clickhouse. La fuente de datos es una tabla en Hive. El complemento Seatunnel se utiliza para fragmentar de acuerdo con el campo de identificación e insertar. en diferentes fragmentos del grupo clickhouse.