Cortesía de chatgpt En Apache NiFi, una herramienta para la automatización del flujo de datos entre sistemas, los conceptos de paralelismo y particiones también existen, aunque se manejan de manera diferente en comparación con Sqoop:Paralelismo:En NiFi, el paralelismo se gestiona principalmente a través de la configuración de concurrencia en cada procesador individual. Cada procesador tiene una configuración llamada "Concurrent Tasks" que determina cuántas tareas puede ejecutar en paralelo. Incrementar esta configuración permite que el procesador maneje múltiples flujos de datos simultáneamente, lo cual es útil para operaciones que pueden ser paralelizadas sin conflicto.Además, NiFi puede operar varios flujos de datos en paralelo utilizando diferentes grupos de procesadores o múltiples instancias de NiFi trabajando en conjunto a través de un clúster.Particiones:En NiFi, las particiones se pueden manejar de manera flexible mediante procesadores específicos diseñados para dividir o agrupar datos. Procesadores como PartitionRecord pueden ser usados para agrupar datos en base a atributos o campos específicos, similar a como las particiones funcionan en bases de datos.Otros procesadores que pueden manejar particiones de datos incluyen aquellos para dividir archivos grandes en partes más pequeñas, como SplitText para archivos de texto o SplitJson para archivos JSON, lo cual puede facilitar el procesamiento paralelo de estos fragmentos en pasos subsecuentes del flujo.El enfoque de NiFi hacia el paralelismo y las particiones es altamente configurable y adaptable a diferentes necesidades de procesamiento de datos, permitiendo un control granular sobre cómo se manejan y se procesan los datos en el flujo de trabajo
En cuanto a volumen de datos no he tenido problemas hasta el momento, considerando que no lo he probado el clúster con alta carga , he probado un server con cientos y miles de millones y no hay problema. Mucho depende del hardware que tengas y el tunning, de estar preparado para altos volúmenes de datos si está preparado, es uno de sus objetivos principales.
Gracias mi hermano por todo el apoyo!!!!!!!! un feliz año para toda tu familia desde Colombia!!!! un ABRAZO!!!!!
Muchas Gracias, un abrazo!!
Excelente aporte y la explicación mas que clara, muchas gracias!!
Gracias,Saludos
Buenos videos Gonzalo!
Gracias!
Muchas gracias!!!!😊
Gracias!!!!
EXCELENTE!!!!!!!!!!!!!
😄
Gracias por la explicación , que tal es Nifi para ingesta de gran volumetría de data, maneja paralelismo y particiones , como sqoop? Gracias
Cortesía de chatgpt En Apache NiFi, una herramienta para la automatización del flujo de datos entre sistemas, los conceptos de paralelismo y particiones también existen, aunque se manejan de manera diferente en comparación con Sqoop:Paralelismo:En NiFi, el paralelismo se gestiona principalmente a través de la configuración de concurrencia en cada procesador individual. Cada procesador tiene una configuración llamada "Concurrent Tasks" que determina cuántas tareas puede ejecutar en paralelo. Incrementar esta configuración permite que el procesador maneje múltiples flujos de datos simultáneamente, lo cual es útil para operaciones que pueden ser paralelizadas sin conflicto.Además, NiFi puede operar varios flujos de datos en paralelo utilizando diferentes grupos de procesadores o múltiples instancias de NiFi trabajando en conjunto a través de un clúster.Particiones:En NiFi, las particiones se pueden manejar de manera flexible mediante procesadores específicos diseñados para dividir o agrupar datos. Procesadores como PartitionRecord pueden ser usados para agrupar datos en base a atributos o campos específicos, similar a como las particiones funcionan en bases de datos.Otros procesadores que pueden manejar particiones de datos incluyen aquellos para dividir archivos grandes en partes más pequeñas, como SplitText para archivos de texto o SplitJson para archivos JSON, lo cual puede facilitar el procesamiento paralelo de estos fragmentos en pasos subsecuentes del flujo.El enfoque de NiFi hacia el paralelismo y las particiones es altamente configurable y adaptable a diferentes necesidades de procesamiento de datos, permitiendo un control granular sobre cómo se manejan y se procesan los datos en el flujo de trabajo
En cuanto a volumen de datos no he tenido problemas hasta el momento, considerando que no lo he probado el clúster con alta carga , he probado un server con cientos y miles de millones y no hay problema. Mucho depende del hardware que tengas y el tunning, de estar preparado para altos volúmenes de datos si está preparado, es uno de sus objetivos principales.
very helpful vide. If I want to transfer data from Elasticsearch to snowflake, do you suggest use Apache Nifi over Logstash or python script? Thanks
Sorry, i dont have info with this use case
Great content!
Please, can i have English subtitle.
Thank you sir.
I have published a new video to activate subtitles in English
Hi, you can setup your TH-cam, in order to have automátic subtitle in english
Thank you. I would do that right away.
tu voz se puede escuchar al 2x
Lo lamento, en adelante sere mas rápido. Saludos