RESPONSABLE EXPERTO DE DATA (IFCT107)

Presentación

Este curso le ofrece una formación especializada en la materia dentro de la Familia Profesional de Informática y comunicaciones. Con este curso el alumno será capaz de Dominar el dato para entenderlo, transformarlo y capturar su máximo potencial con inteligencia artificial para optimizar procesos y simplificar el desarrollo de los proyectos y, comenzar con la creación de modelos de machine learning.

Descripción

Duración: 240 horas

Modalidad de impartición: E-learning.

Objetivos

Dominar el dato para entenderlo, transformarlo y capturar su máximo potencial con inteligencia artificial para optimizar procesos y simplificar el desarrollo de los proyectos y, comenzar con la creación de modelos de machine learning.

Programa

1. Introducción: la importancia del dato.
1.1. Concienciación con relación a cómo la ciencia del dato afecta a todos los sectores y puede ser el aliado perfecto para el mundo de los negocios.
1.2. Conocimiento de los diferentes modelos de negocio basado en datos:
1.2.1. Nuevos modelos de negocio en torno al dato.
1.2.2. Tipología de datos y cómo se obtienen.
1.2.3. Maneras de rentabilizar el dato.
1.2.4. Data Business Model Canvas.
1.3. Adquisición de conocimientos sobre los avances en Big Data & Inteligencia Artificial (IA).
1.3.1. Estado actual.
1.3.2. Posible evolución futura.
1.4. Dominio de Conceptos básicos:
1.4.1. Qué es Big Data.
1.4.2. Qué es Machine Learning.
1.4.3. Qué es Deep Learning.
1.5. Concienciación sobre el poder de los datos en las organizaciones tanto para mejorar la toma de decisiones como para crear modelos de negocio basado en datos.
1.6. Visión trasversal sobre cómo Data Science se aplica en las diferentes áreas de la organización para impulsar las capacidades.
2. Nociones iniciales de Python, Data Engineering y estadística.
2.1. Desarrollo de los fundamentos de Big Data.
2.1.1. Qué es el Big Data.
2.1.2. Perfiles técnicos: Data Analyst, Engineer, Arquitect, QA…
2.1.3. El proceso de construir un proyecto de Big Data.
2.1.4. Arquitecturas de Big Data.
2.1.5. Las claves del éxito del Big Data.
2.2. Identificación de los fundamentos de Machine Learning.
2.2.1. Introducción al Machine Learning: Datos, algoritmos, modelos, producción…
2.2.2. Aproximación a los algoritmos: clasificación, predicción y clustering.
2.2.3. Creación de modelos de Machine Learning.
2.2.4. Las claves del aprendizaje automático.
2.2.5. La productivización de modelos.
2.3. Análisis de los fundamentos de IA: Visión, NPL…
2.3.1. Introducción al Deep Learning y sus aplicaciones.
2.3.2. Tipos de redes neuronales y su entrenamiento.
2.3.3. Funcionamiento y retos del Data Science aplicado al Computer Vision y al NPL.
2.4. Conocimientos avanzados de Python Crash Course.
2.4.1. Uso de Pycharm como entorno de trabajo.
2.4.2. Uso de notebooks.
2.4.3. Conocimiento de la sintaxis del lenguaje: bucles, variables.
2.4.4. Librerías.
2.4.5. Funciones.
2.4.6. Programación orientada a objetos en Python.
2.5. Aproximación a la arquitectura de la información y al SQL.
2.5.1. Qué es la arquitectura de datos.
2.5.2. Modelo relacional tradicional.
2.5.3. Modelo estrella.
2.5.4. Modelo copo de nieve.
2.5.5. Bases de la normalización de datos.
2.5.6. Definiciones esenciales: base de datos, tablespace, tabla, vista, vista materializada,
clave primaria, índice y partición.
2.5.7. SQL.
2.5.8. Sintaxis del lenguaje.
2.6. Identificación del Crash Course de python para Data Engineers: SQL y Dataframes.
2.6.1. Consulta de datos.
2.6.2. Cruce de tablas.
2.6.3. Inserción y borrado.
2.6.4. Dataframes:
2.6.4.1. Qué es una serie.
2.6.4.2. Qué es un Dataframes.
2.6.4.3. Cruces con Dataframes.
2.6.4.4. Funciones lambda con columnas.
2.6.4.5. Leer y salvar datos desde y a Dataframes desde distintos formatos.
2.7. Diferenciación entre ETL/ELT y preproceso de datos.
2.7.1. ELT o ETL.
2.7.2. Pipelines de datos.
2.7.3. ¿Cómo estructurar los distintos pasos del workflow de datos?
2.7.4. Automatización de procesos.
2.8. Aplicación del proceso del análisis exploratorio.
2.8.1. Arranque de un proceso exploratorio.
2.8.2. Los objetivos de un análisis exploratorio.
2.8.3. Uso del proceso exploratorio para validación de hipótesis.
2.8.4. Naturaleza iterativa del proceso.
2.9. Utilización de herramientas de visualización exploratoria y librerías.
2.9.1 Análisis descriptivo gráfico.
2.9.2 Análisis descriptivo basado en estadísticos.
2.10. Realización de análisis univariante y multivariante.
2.10.1. Análisis multivariante.
2.10.2. Análisis univariante.
2.11. Conocimiento de la Estadística descriptiva.
2.11.1. Media, mediana, momentos, etc.
2.11.2. Desviación, varianza.
2.11.3. Sesgos y medidas de homogeneidad de la información.
2.12. Aproximación breve al algebra lineal.
2.12.1. Operaciones matriz-escalar.
2.12.2. Operaciones matriz-matriz.
2.12.3. Propiedades de las matrices: no conmutativa, asociativa, distributiva, matriz identidad.
2.12.3. Trasposición e inversa de una matriz.
2.13. Análisis de correlación de variables: fundamentos de estadística y probabilidad.
2.13.1. Ingeniería de características: descarte y selección de características.
2.13.2. Cómo analizar la correlación entre variables.
2.13.3. Efecto de las correlaciones.
2.13.4. Eliminación de la correlación.
2.14. Deducción estadística y contraste de hipótesis.
2.14.1. Definición de una distribución una variable aleatoria.
2.14.2. Definición de una función de probabilidad.
3. Conocimiento avanzado de machine Learning & Artificial Intelligence.
3.1. Aproximación a la modelización.
3.1.1. Introducción a la modelización.
3.1.2. Tipos de modelos.
3.2. Identificación de los Modelos de regresión.
3.2.1. Modelos de regresión simple.
3.2.2. Modelos de regresión múltiple.
3.2.3. Modelos de regresión generalizada.
3.3. Clasificación de los distintos modelos de Árboles:
3.3.1. Modelos de inferencia de árboles de decisión y regresión:
3.3.1.1. Clasificadores binarios.
3.3.1.2. Regresión.
3.3.2. Modelos de inferencia de árboles de decisión: clasificadores multiclase.
3.3.3. Modelos avanzados de árboles:
3.3.3.1 Boosting.
3.3.3.2. Random Forest.
3.4. Conocimientos de Algoritmos alternativos de clasificación.
3.5. Conocimientos de Eager y Lazy Classifiers
3.6. Utilización de Clustering.
3.6.1. Introducción a los modelos no supervisados.
3.6.2. Análisis clúster.
3.7. Aproximación al método científico:
3.7.1. Evaluación de modelos.
3.8. Evaluación y optimización de modelos:
3.8.1. Control de Outliers y análisis de residuos.
3.8.2. Modelos no supervisados.
3.8.3. Modelos supervisados.
3.9. Creación de Ingeniería de variables:
3.9.1. Principios de la ingeniería de variables en la creación de variables.
3.9.2. La dimensionalidad.
3.9.3. Técnicas: PCA y SVD.
3.10. Ensamblado de modelos:
3.10.1. Definición de Model Ensembles.
3.10.2. Modelos débiles y modelos fuertes.
3.10.3. Creación de pipelines para crear modelos ensamblados.
3.11. Gestión del ciclo de vida de los modelos.
3.12. Interpretabilidad.
3.13. Aproximación a modelos heurísticos de optimización.
3.14. Conocimiento de los algoritmos genéticos.
3.14.1. Principios de optimización basada en heurísticos.
3.14.2. Gradiente descendente.
3.14.3. Modelos basados en comportamientos animales.
3.14.4. El algoritmo genético.
3.14.5. Aplicaciones de los algoritmos genéticos.
3.14.6. Cromosoma y función de fitness.
3.14.7. Resolución de un problema usando algoritmos genéticos.
3.15. Utilización de series temporales y Forecasting.
3.15.1. Bases sobre componentes de las series temporales: tendencia, ciclo y estacionalidad.
3.15.2. Series estacionarias y no estacionarias.
3.15.3. Análisis de anomalías.
3.15.4. Suavizado exponencial.
3.15.5. Modelos autoregresivos.
3.15.6. Modelos univariantes y multivariantes.
3.15.7. Modelos arima.
3.15.8. Modelos con parametrización automática.
3.16. Gestión de proyectos de Data Science.
4. Aplicaciones del Deep Learning
4.1. Aproximación a redes neuronales artificiales (ANN).
4.1.1. ¿Qué es una red neuronal artificial?
4.1.2. Tipos de redes: profundas y superficiales (SHALLOW).
4.1.3. Técnica del gradiente descendiente.
4.2. Conocimiento de los campos de aplicación de ANN.
4.2.1. Visión por computador.
4.2.2. Análisis y síntesis del lenguaje.
4.2.3. Análisis de secuencias.
4.2.4. GAN y DEEPFAKE.
4.3. Aproximación al Shallow & Deep neural Networks. Introducción CNN.
4.3.1. Perceptrón simple.
4.3.2. Topologías de redes neuronales.
4.3.3. MNIST.
4.3.4. Regularización: L1, L2, Dropout y otros.
4.3.5. Creación de una CNN con keras.
4.4. Comprensión del diseño de redes neuronales artificiales (ANN), redes convolucionales (CNN) y redes recurrentes (RNN).
5. Entornos Big Data & Cloud.
5.1 Conocimientos de Big Data y de los principios de arquitecturas de computación distribuida y altamente escalable.
5.1.1. Comprender el papel del Big data en la ciencia de datos.
5.1.2. Apache Spark.
5.1.3. Spark en modo batch y en semi-tiempo real (microbatches).
5.1.4. Lazy evaluation.
5.2. Utilización de Dataframes y Data pipelines en Spark.
5.2.1. Operaciones sobre dataframes (SQL o pyspark).
5.2.2. Creación de data pipelines con Spark.
5.2.3. Transformación de dataframes.
5.3. Creación de modelos de Machine Learning en Spark.
5.3.1. Entrenamiento de modelos e integración en pipelines.
5.3.2. Aplicación de la inferencia de modelos en Spark.
5.4. Despliegue de pipelines de modelos con Spark.
5.5. Desarrollo de modelos con proveedores de Cloud Machine Learning.
6. Visualización de los datos.
6.1. Comprensión de las claves del storytelling a través de los datos.
6.1.1. La ciencia de la visualización de datos y el storytelling: su valor en el mundo profesional.
6.2 Uso del storytelling con datos.
6.2.1. Principios de la comunicación visual de los datos.
6.2.2. Uso de los distintos controles visuales.
6.3. Comprensión de los conceptos Business Intelligence y Data Visualization.
6.3.1. Entender el proceso para trabajar en la herramienta de visualización en un contexto de Business Intelligence.
6.3.2. Fuentes de datos, tratamiento y preparación de datos, modelaje de datos (relaciones), análisis exploratorio y específicos, visualización y reporting.
6.4. Profundización en la herramienta PowerBI para poder conectar datos, prepararlos, modelarlos, explorarlos y visualizarlos.
6.4.1. Entorno de PowerBI: organización y componentes.
6.4.2. Importación de datos.
6.4.3 Visualizaciones básicas realizando agrupaciones y aplicando filtros.
6.4.4. Trabajar y preparar los datos: columnas calculadas, medidas, fórmulas con DAX, tablas calculadas…
6.4.5. Trabajar con tablas matrices para aumentar la granularidad de los informes.
6.4.6. Filtrar los datos de manera dinámica con la segmentación de datos.
6.5. Aproximación a la herramienta Tableau.
7. Habilidades y competencias de gestión, personales y sociales, para el entorno digital.
7.1. Impulso de habilidades digitales:
7.1.1. Liderazgo participativo.
7.1.2. Gestión del cambio.
7.1.3. Inteligencia emocional.
7.1.4. Storytelling.
7.1.5. Creación de marca personal.
7.1.6. Comunicación y negociación en entornos digitales.
7.2. Comprensión de las competencias necesarias para el nuevo entorno digital:
7.2.1. La influencia digital.
7.2.3. La colaboración en el entorno.
7.2.4. La integración de la diversidad.
7.2.5. La gestión emocional.
7.2.6. La agilidad en toma de decisiones.
7.2.7. La anticipación en contextos digitales.
7.2.8. La flexibilidad para la transformación.
7.2.9. La asunción de incertidumbre y riesgos.
7.2.10. La elaboración, gestión y difusión de contenidos.
7.3. Conocimiento de las herramientas imprescindibles para:
7.3.1. El trabajo colaborativo.
7.3.2. El trabajo en remoto.
7.3.3. La gestión de proyectos.
7.3.4. Automatización de flujos de trabajo.
7.4. Práctica en las claves del trabajo en equipo y de la productividad en remoto.
7.5. Fomento del liderazgo participativo y la gestión del cambio.
7.6. Dominio de la comunicación y la negociación en entornos digitales.
7.7. Práctica del modelo de competencias para el entorno digital.
7.6. Elaboración y gestión de la marca personal desde la importancia del storytelling