Buscar
Cerrar este cuadro de búsqueda.
Buscar
Cerrar este cuadro de búsqueda.
Business Intelligence, Big Data, Pentaho y Curie Platform

¿Qué es Pentaho Data Integration (PDI) y para qué sirve?

academy@itop.es
Compartir:

En las empresas, pymes y negocios la toma de decisiones es un proceso fundamental para tener éxito. Por ello, hacerlo de forma rápida y efectiva es de vital importancia si se quiere ser más competitivo, estar por delante de la competencia y evitar la obsolescencia.

Si no se es rápido en la toma de decisiones o, peor aún, si no se toma ninguna decisión ni acción por miedo, incertidumbre o indecisión (nunca mejor dicho), las empresas se verán superadas y se encontrarán al borde del fracaso y la desaparición.

Lo positivo es que existen softwares y herramientas que nos ayudan a tomar mejores decisiones, como es el caso de los Sistemas de Analítica Avanzada, en lo cuales se emplean tecnologías como el Big Data o el Business Intelligence que permiten analizar los datos y la información existentes en una empresa.

Todos estos datos se extraen por medio de técnicas ETL (extraer, transformar y cargar) y se almacenan. Posteriormente se representan en forma de Cuadros de Mandos, los cuales muchas empresas utilizan como base para poder elaborar los informes y hacer un seguimiento del cumplimiento de los objetivos fijados.

Esto se traduce en que todas aquellas empresas que cuenten con estos sistemas o herramientas van a conseguir grandes ventajas como, por ejemplo, poder mejorar su capacidad de análisis, tomar decisiones de una forma mucho más rápida, reducir el tiempo que se tarda en recopilar la información o mejorar el seguimiento y gestión de su estrategia.

Un ejemplo de este tipo de sistemas de inteligencia empresarial es Pentaho.

Pentaho se creó en 2004 y es una plataforma opensource, es decir, totalmente gratuita, y muy completa, ya que incorpora un conjunto de componentes que incluyen, como se mencionó anteriormente, tecnologías como Big Data o Internet de las Cosas (IoT).

Algunas de estas herramientas o componentes más conocidos son Pentaho Business Analytics (Pentaho BA) para ejecutar recursos como los informes o cuadro de mandos, CTools para crear y gestionar Dashboards, o Pentaho Data Integration (PDI), tema principal de este artículo.

Pentaho Data Integration (PDI), cuyo nombre en clave es Kettle, es una de las herramientas o componentes de Pentaho Suite que permite que se utilicen técnicas ETL, es decir, poder implementar procesos de extracción, transformación y carga de datos. Kettle, además, ofrece datos analíticos muy precisos, eliminando las complejidades involucradas en la codificación al proporcionar bibliotecas en profundidad para el mismo.

¿Cuál es la ventaja de utilizar una herramienta como Kettle?

Pues que las empresas van a ahorrarse muchísimo tiempo y esfuerzo en hacer esto de forma manual, lo cual es frecuentemente difícil.

 

¿Cómo funciona esta herramienta?

Kettle es un componente de Pentaho muy sencillo de utilizar. Con el siguiente caso práctico de transformación de datos lo vais a comprobar:

En esta imagen hemos accedido a Spoon, la cual es una interfaz de gráfica de usuario (GUI) que permite diseñar transformaciones y trabajos que se pueden ejecutar con las herramientas de Kettle.

Como podéis ver, a mano izquierda tenemos un panel con los diferentes procesos que podemos realizar en dicha herramienta, los cuales iremos arrastrando hacia la pestaña “Transformation 1”. En esta pestaña, nos encontramos también con funciones como el “Play”, “Pause” o “Stop” cuando queramos iniciar la transformación, pausarla o pararla.

En el siguiente ejemplo podemos ver cómo Spoon nos permite seleccionar cualquier formato de archivo de datos, desde un archivo CSV hasta un excel.

Desde el panel situado a la izquierda iremos arrastrando aquellos procesos que queramos que se inicien. En este caso, hemos optado por mandar la orden “Select Values” para cada uno de los archivos. De esta manera, la herramienta sabrá que tendrá que seleccionar ciertos valores que nosotros especifiquemos de cada uno de esos procesos (los valores se definen haciendo doble click en cada caja “Select Values”).

Además, también hemos seleccionado “Merge Join” para fusionar los datos del archivo CSV con los datos del JSON, y “Sort rows” y “Filter rows” para que Spoon clasifique y filtre las columnas del archivo excel y la tabla. Finalmente, para la primera pareja de archivos hemos decidido ingresar “User Defined Java Expression” o Expresión Java definida por el usuario, y para la segunda la ejecución del script SQL.

En Spoon contamos, además, con la posibilidad de transformar datos pertenecientes a herramientas tan útiles como Google Analytics.

Siguiendo con el ejemplo de antes, hemos mandado la orden de que el “User Defined Java Expression” se transforme en una base de datos de búsqueda (Database lookup) y que una vez se ejecute el script SQL, se agrupen los datos y se reflejen en una tabla.

Una vez tengamos nuestro esquema hecho con todos los pasos que deseemos que se realicen, no hay más que darle al “Play” de la pestaña y comenzarán a iniciarse todos los procesos al mismo tiempo. Por si existen dudas, hay procesos que se realizarán con mayor rapidez que otros, pero en aquellos casos donde dos procesos se “crucen”, el que ha terminado antes esperará al otro para realizar juntos el siguiente procedimiento (espero que se haya entendido, je, je).

Y con esto nuestro pequeño resumen de qué es un Sistema de Analítica Avanzada como Pentaho y un caso práctico de Pentaho Data Integration – Kettle, uno de los componentes más interesantes de esta plataforma.

¿Te gustaría aprender más sobre Pentaho? Accede a nuestros cursos:

¿Quieres ponerte en contacto con nosotros?
Si necesitas ayuda, más información o te gustaría realizar alguna consulta.

Artículos relacionados

¡Mantente al día con nuestra newsletter!​

Deja un comentario

¡5 DÍAS LÍMITE!

Del 10 al 14 de Abril

Cursos SAP Business One al 50% de descuento​

Días
Horas
Mins