[ETL]: Integrando datos con Talend DI

Uno de mis artículos más visitados ha cumplido 10 años, cómo cargar datos desde un archivo coma separado en MySQL. Por ello, he decidido crear un conjunto de entradas de una herramienta de ETL (Extracción, Transformación y Carga) muy versátil y completa; Talend Data-Integrator.

¿Qué es Talend?

Talend DI es una herramienta de integración de datos, permite construir de manera visual “jobs” (trabajos) que conectan orígenes heterogéneos de datos, por ejemplo: podemos leer un buzón de email, extraer los emails con ciertas características, transformar sus datos y cargarlos en una base de datos.

Talend DI es Open Source y posee licencia Apache.

talend1

¿Cómo se organiza Talend?

Como todos los proyectos basados en Eclipse, los trabajos se organizan en “Espacios de Trabajo” (workspaces), puedes tener un workspace project por cada proyecto con el que estés trabajando.

talend2

Talend es expandible con “plugins” y está escrito en Java.

¿Cómo instalar Talend DI?

Obtener Talend

Para obtenerlo accedemos a la página web de Talend, allí hacemos clic en “Download”, y de allí obtendremos un archivo comprimido de Talend (actualmente, versión 6.4).

Al descomprimir, les creará un directorio llamado TOS_DI.

Ejecutar Talend en Debian/Ubuntu

Luego de que obtenemos Talend, debemos ejecutarlo, sin embargo, si van a usarlo en Linux/Ubuntu habrá que hacer algunos cambios adicionales.

  • Editar archivo: TOS_DI-linux-gtk-x86.sh
#!/bin/bash
unset UBUNTU_MENUPROXY
export GDK_NATIVE_WINDOWS=1
export SWT_GTK3=0
/home/jesuslara/Talend/TOS_DI/TOS_DI-linux-gtk-x86_64

La idea es corregir unos detalles de GTK3 en Ubuntu/debian y que podamos ejecutarlo al hacer click en este acceso directo.

  • Editar el archivo: TOS_DI-linux-gtk-x86_64.ini

-vmargs
-Xms2048m
-Xmx8192m
-XX:MaxPermSize=1024m
-Dfile.encoding=UTF-8
-Dosgi.requiredJavaVersion=1.8

La idea de este es pasarle los parámetros al JVM para que utilice más RAM de la que viene por defecto,

-Xms indica la memoria inicial con la que inicia la JVM

-Xmx cantidad máxima del memory allocation pool del JVM.

Luego de esto, podemos hacer que el archivo .sh sea ejecutable:

chmod +x TOS_DI-linux-gtk-x86.sh

Y hacer clic para ejecutarlo.

Primeros pasos

Lo primero que nos pregunta Talend es si contamos con una cuenta para la ayuda, es importante contar con ella, ya que nos permite acceder gratuitamente a los foros, a la ayuda en línea y a la descarga de módulos.

Posteriormente nos preguntará si deseamos crear un workspace y un proyecto:

talend3

Y hemos accedido a Talend DI.

talend4

Actualizando módulos

Instalar y actualizar módulos en Talend implica acceder a la vista de módulos, para ello:

  1. Click en Menú “Ventana”
  2. Click en la opción “Show View”
  3. Desplegar el directorio de vistas “Talend” y hacer click en “Modules”
  4. Hacer click en “OK”

Nos aparecerá una pestaña como esta:

talend5.png

Acá podemos ver todos los módulos disponibles para todas los tipos de conexiones que podemos hacer con Talend.

Dos de los módulos que hay que actualizar son los de mySQL y los de PostgreSQL.

Hacer click en el módulo que indica “Not Installed”, y presionar en la flecha verde:

talend6.png

Hacemos click en la opción “Install all modules”:

talend7

Y aceptar la licencia (botón: Accept All)

talend8

 

Luego, reiniciamos el Talend DI y podemos comenzar a usarlo.

En próxima entrega, nuestro primer trabajo ETL.

Anuncios

6 comentarios sobre “[ETL]: Integrando datos con Talend DI

  1. Buenos días y Feliz Año nuevo.
    Revisando por mi teléfono leo “Luego de esto, podemoshacer” no se si es por donde lo estoy viendo, pero debería quedar “Luego de esto, podemos hacer …”

    Excelente material, deberías abrir una academia virtual.

    Saludos

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s