Pentaho Data Integration

Dirigido a

  • Todas las personas con conocimientos medios en Pentaho.

Objetivos:

  • Investigar la herramienta de Integración de Datos Open Source más utilizada en la actualidad.
  • Analizar distintos tipos de Datasources y aplicarles gran variedad de técnicas, filtros, funciones y formatos, para la obtención de un resultado esperado.
  • Adquirir conocimiento avanzado de PDI y su ecosistema.
  • Gestionar el workflow de múltiples Transformations y Jobs.
  • Aprender a utilizar los Steps más importantes mediante su aplicación práctica, ejemplos y ejercicios.
  • Utilizar PDI para cargar y actualizar Data Warehouse.

Metodología:

  • Modalidad: Online.
  • Duración: 230 horas de estudio (2 meses).

Programa:

  • Tema 1 - Pentaho Data Integration (PDI):
    • Características
    • Definición y uso de integración de datos
    • Licencia
    • Ejemplificación de tareas de integración de datos
    • Descripción de requerimientos básicos
    • Configuración de variables de entorno
    • Startup de PDI: Configuración de variables de entorno | Descarga | Instalación | Configuración de Driver JDBC de MySQL
    • Scripts de ejecución de Spoon
    • Layout de Spoon: Principal | Tabs | Panel Design | Panel View | Accesos rápidos
    • Tipos y utilización de Repositorio: Conexión con Repositorio de Pentaho BA | Repositorio en Base de Datos | Repositorio en sistema de archivos | Opción Repository Manager | Metadata
    • Principales opciones de la GUI de Spoon: General | Apariencia
    • Características y diferencias de Transformations y Jobs
    • Práctico: creación de Transformation que genera valores aleatorios
  • Tema 2 - Transformations, Panel Execution, Panel Execution Results:
    • Descripción de las características, funcionamiento y comportamiento de las Transformations
    • Descripción del Panel Execute, que se despliega antes de ejecutar las Transformations/Jobs: Environment Type | Options |
    • Log Level | Parameters | Variables
    • Descripción y ejemplificación del Panel Execution Results
    • Descripción y análisis de las opciones más importantes de sus Tabs:
      • Tab Execution History
      • Tab Botón SQL
      • Tab Logging
      • Tab Step Metrics
      • Tab Performance Graph
      • Tab Metrics
      • Tab Preview data
    • Práctico: creación de Transformation que realiza cálculos lógicos y matemáticos
    • Práctico: creación de Transformation que analiza los valores del flujo de datos y bifurca el flujo en dos sentidos diferentes; en el primer sentido realizará cálculos y exportará los resultados; en el segundo caso irá a un Step de control
    • Práctico: creación de Transformation que obtiene datos de un archivo CSV, los formatea, ordena, concatena y exporta en otro formato
  • Tema 3 - Variables de Entorno, Parameters, Arguments:
    • Descripción y uso de las Variables de Entorno
    • Ejemplos y notación de las Variables de Entorno
    • Descripción y uso de los Parámetros
    • Modos de creación de Parámetros
    • Descripción, definición y uso de Argumentos
    • Descripción y uso de la opción Preview
    • Práctico: creación de Transformación cuyos valores obtenidos dependa de los Parámetros asignados en la ejecución
    • Práctico: creación de Transformación que obtenga valores de Argumentos, ejecute una función JavaScript y genere un documento HTML
  • Tema 4 - Expresiones Regulares (RegEx), JavaScript (JS):
    • Descripción, aplicación y ejemplos de RegEx
    • Documentación y patrones más utilizados de las RegEx
    • Aplicación de RegEx en PDI
    • Práctico: creación de Transformation que obtenga los nombres de las librerías presentes en PDI y que mediante RegEx separe sintácticamente su nombre, extensión y versión
    • Descripción y documentación de JS
    • Aplicación de JS en PDI
    • Descripción, ejemplificación y aplicación avanzada de Step Modified Java Script Value:
      • Transform Scripts
      • Transform Constants: SKIP | ERROR | CONTINUE
      • Transform Functions
      • Input/Output Fields
      • Opciones: Position | Compatibility mode | Optimization level
      • Configuración de la Grilla Fields para obtener dataset de salida
      • Añadir, modificar y configurar distintos tipos de Script: Transform | Start | End
    •  Práctico: creación de Transformation que obtenga página HTML y realice Web Scrapping utilizando RegEx y JS
  • Tema 5 - Dataflow:
    • Práctico: creación de Transfomation que realice las siguientes tareas: análisis, distribución, mapeo, clasificación, aplicación de rangos, aplicación de secuencia condicionada, conversiones
    • Manejo del Dataflow:
      • Unión básica de Datasets
      • Unión de Datasets con diferente Metadata
      • Unión de Datasets estableciendo condición de relación
      • Unión de Datasets de forma secuencial
      • Dividir Dataset entre diversos Steps
      • Compartir Dataset completo
      • Compartir Dataset de forma distributiva
    • Práctico: creación de Transformation que realice las siguientes tareas; convertir de filas a columnas, convertir de columnas a filas, unir Datasets, mapeo y distribución de Datasets, aplicación de fórmulas avanzadas, compartir Dataset
  • Tema 6 - Variables Globales:
    • Descripción, uso, ejemplos
    • Administración de Variables Globales
    • Práctico: creación de Transformation que realice las siguientes tareas: utilizar Variables de Entorno para establecer URL y nombres de archivos; trabajar con datos en formato XML; convertir filas en columnas; comparar dos flujos de datos por aproximación utilizando algoritmo Levenshtein; obtener valores mínimos y máximos; trabajar con datos JSON
  •  Tema 7 - Hops:
    • Descripción y administración de Hops de Transformations y Jobs
    • Configuración avanzada de Hops de Transformations: Habilitar/Deshabilitar | Cambiar dirección | Condición | Borrar | Bulk Change
    • Configuración avanzada de Hops de Jobs y análisis de Status: Incondicional | Exito | Fracaso | Habilitar/Deshabilitar
    • Descripción de Notas en Transformations/Jobs
    • Descripción de las opciones de Grilla
  • Tema 8 - Share objects:
    • Descripción y tipos de Objetos Compartidos
    • Administración, ejemplificación y utilización de Objetos Compartidos
    • Configuración de Metadata de Objetos Compartidos
    • Práctico: creación de Transformation que realice las siguientes tareas; obtener diferentes archivos de salida dependiendo de condiciones establecidas en el flujo de datos; comparar flujos de datos identificando elementos nuevos, eliminados y modificados; utilizar Variables de Entorno y RegEx
  • Tema 9 - Jobs:
    • Descripción, características y principales usos
    • Comportamiento y modo de funcionamiento de los Jobs
    • Configuración para ejecución de Steps en paralelo
    • Configuración para ejecución de Transformations por cada fila analizada del Dataset
    • Análisis y explicación de Ruta de Ejecución de los Steps de Jobs
    • Práctico: creación de un Job que realice las siguientes tareas; controle el workflow de ejecución de dos Transformations; evalúe la salida de status de los diferentes Steps
    • Práctico: creación de un Job que realice las siguientes tareas; ejecutar una Transformation que genere un Dataset; guardar el Dataset en la lista Result rows; ejecutar una segunda Transformation que obtenga el Dataset de la lista Result rows; configurar salidas de log y analizar los resultados
    • Práctico: creación de Transformations y Jobs para ejemplificar las diferentes utilizaciones de Result Filenames
  • Tema 10 - Descripción, uso y ejemplificación de Result Rows
  • Tema 11 - Descripción, uso y ejemplificación de Result Filenames
  • Tema 12 - Descripción, uso, alcance y ejemplificación de Variables On The Fly
  • Tema 13 - E-Mail & Web:
    • Ejemplificación, uso y configuración avanzada de envío de e-mails
    • Utilización de diferentes protocolos: POP3 | IMAP | MBOX
    • Práctico: creación de Transformations y Jobs que realicen las siguientes tareas; obtener de un archivo CSV una lista de URLs web con los discos de artistas de rock; obtener el documento HTML de cada URL web; filtrar de cada documento HTML la sección dedicada a la lista de canciones de cada disco; generar un archivo CSV por cada disco con la información de sus respectivas canciones.
    • Práctico: creación de un Job que realice las siguientes tareas: utilizar Variables de Entorno y RegEx para obtener una lista de archivos; validar direcciones de e-mail; enviar e-mail que contenga como adjuntos los archivos obtenidos
  • Tema 14 - Tema 14 - Descripción de los principales Steps de Validación en Transformations y Jobs
  • Tema 15 - Database:
    • Presentación y restauración de Bases de Datos para realización de práctico
    • MySQL:
      • Definición y características
      • Community Server VS Enterprise Edition
      • MySQL Workbench: Características | Instalación | Layout
      • Creación de Nueva Instancia
      • Explicación de las principales opciones de la Sección Administrativa: Server Status | Client Connections | Users and Privileges | Status and System Variables | Data Export | Data Import/Restore | Startup/Shutdown | Server Logs | Option File
      • Explicación de las principales opciones de la Sección SQL: Panel Schemas | Tab Info | Snippets | Log Output | SQL Canvas | Tabs | Accesos rápidos
    • Descripción, uso y realización de acciones avanzadas sobre Bases de Datos:
      • Obtener Dataset
      • Insertar registros
      • Actualizar registros
      • Borrar registros
      • Añadir columna
      • Ejecutar Script SQL
    • Utilización y configuración avanzada de Error handling
    • Definición y utilización de opción Clear Cache Database
    • Práctico: creación de Job que realice múltiples tipos de acciones sobre Bases de Datos
  • Tema 16 - Descripción de principales Steps para trabajar con Bases de Datos
  • Tema 17 - Data Warehouse:
    • Creación de Transformation para trabajar con Slowly Changing Dimension (SCD) Tipo 1
    • Creación de Transformation para trabajar con Slowly Changing Dimension (SCD) Tipo 2
  • Tema 18 - Pan & Kitchen:
    • Descripción de las principales herramientas PDI: Spoon | Pan | Kitchen | Carte
    • Opciones avanzadas ejecución de Transformations o Jobs por líneas de comandos
      • Parámetros
      • Argumentos
      • Registro Log
  • Tema 19 - Scheduling:
    • Descripción, ejemplificación y uso de Calendarización de ejecución de Transformations y Jobs
    • Calendarización utilizando Cron
    • Calendarización utilizando Task Scheduler
  • Tema 20 - Marketplace:
    • Descripción y características del Marketplace de PDI
    • Instalación de plugins: Weka, DataCleaner
  • Tema 21 - Transformations como Datasource:
    • Utilización de Transformation como Datasource para Dashboards (CDE)
    • Utilización de Transformation como Datasource para Reporting (PRD)
  • Tema 22 - Bonus Track: Delivery PRD:
    • Descripción y características de Pentaho Report Designer (PRD)
    • Configuración y ejecución de reportes PRD en Transformation PDI
    • Práctico: creación de una Transformation que realice las siguientes tareas: exportar reporte en formato pdf utilizando Parámetros, JS, RegEx y Variables de Entorno; envío de reporte como archivo adjunto en un e-mail
  • Tema 23 - Lista de Steps de Transformation descritos y utilizados:
    • Transform | Split Fields
    • Transform | Value Mapper
    • Transform | Number range
    • Transform | Add value fields changing sequence
    • Transform | String operations
    • Transform | Row flattener
    • Transform | Row Normaliser
    • Transform | Add constants
    • Transform | Calculator
    • Transform | Sort rows
    • Transform | Concat Fields
    • Transform | Add sequence
    • Transform | Select values
    • Transform | Replace in string
    • Transform | Split Fields
    • Transform | Value Mapper
    • Transform | Number range
    • Transform | Add value fields changing sequence
    • Transform | String operations
    • Transform | Row flattener
    • Transform | Row Normaliser
    • Flow | Append streams
    • Flow | Switch / Case
    • Flow | Filter rows
    • Flow | Java Filter
    • Flow | Dummy
    • Flow | Append streams
    • Flow | Switch / Case
    • Joins | Join Rows
    • Job | Copy rows to result
    • Job | Get rows from result
    • Job | Set files in result
    • Job | Get files from result
    • Job | Set Variables
    • Job | Get Variables
    • Utility | Write to log
    • Utility | Mail
    • Utility | Mail validator
    • Utility | If field value is null
    • Input | Email messages input
    • Input | Table input
    • Input | Generate Rows
    • Input | Generate random value
    • Input | Data Grid
    • Input | CSV file input
    • Input | Fixed file input
    • Input | Get System Info
    • Input | GZIP CSV Input
    • Input | Get File Names
    • Lookup | Table exists
    • Lookup | Web Services Lookup
    • Lookup | File exists
    • Lookup | HTTP Client
    • Lookup | Stream lookup
    • Lookup | Database lookup
    • Lookup | Database join
    • Validation | Data Validator
    • Output | Table output
    • Output | Update
    • Output | Insert / Update
    • Output | Delete
    • Output | Synchronize after merge
    • Output | Pentaho Reporting Output
    • Output | Text file output
    • Output | Microsoft Excel Output
    • Data Warehouse | Combination lookup/update
    • Data Warehouse | Dimension lookup/update
    • Scripting | Execute SQL script
    • Scripting | Execute row SQL script
    • Scripting | Formula
    • Scripting | Modified Java Script Value
  • Tema 24 - Lista de Steps de Job descritos y utilizados:
    • General | START
    • General | Transformation
    • General | Success
    • General | Job
    • Conditions | File Exists
    • Conditions | Checks if files exist
    • Conditions | Check Db connections
    • Conditions | Table exists
    • Conditions | Check webservice avaliability
    • Conditions | Simple evaluation
    • Conditions | Columns exist in a table
    • Utility | Abort job
    • File management | Add filenames to result
    • Mail | Mail validator
    • Mail | Mail
    • Scripting | SQL

Docente:

  • Darío Bernabeu.
    • Experto en el desarrollo e implementación de soluciones OSBI (Open Source Business Intelligence), Bases de Datos y Tecnologías Web.

 Coste:

  • Importe del curso: 160€

Utilizamos cookies propias y de terceros para mejorar nuestros servicios y mostrarle publicidad relacionada con sus preferencias mediante el análisis de sus hábitos de navegación. Si continua navegando, consideramos que acepta su uso. Puede cambiar la configuración u obtener más información Política de Cookies