Ciencia de Datos: Un Enfoque Práctico en la Era del Big Data

Contacto: Jorge Casillas <casillas@decsai.ugr.es>, http://decsai.ugr.es/~casillas

Descripción completa del curso (7ª edición, febrero 2021)

MATRICULACIÓN: Página del curso en la web del Centro Mediterráneo

Existe un descuento para la matrícula conjunta de este curso y el taller Al Grano con la Ciencia de Datos: Ejemplos Prácticos para Entender el Mundo Datificado (4ª ed.) .

En ediciones anteriores, se reconocieron los siguientes créditos ECTS optativos (está pendiente de resolución en la edición actual):
  • Grado en Ingeniería Informática: 3 ECTS
  • Grado en Ingeniería de Tecnologías de Telecomunicación: 1,5 ECTS
  • Grado en Estadística: 1,5 ECTS
  • Grado en Matemáticas: 1 ECTS
  • Grado en Ingeniería Electrónica Industrial: 3 ECTS
  • Grado en Ingeniería Civil: 3 ECTS
  • Grado en Comunicación Audiovisual: 3 ECTS
  • Grado en Información y Documentación: 3 ECTS
  • Grado en Economía: 3 ECTS

Introducción

Ciencia de datos es un área de trabajo interdisciplinar que incluye procesos para recopilar, preparar, analizar, visualizar y modelizar datos que permitan generar conocimiento útil para comprender problemas complejos...
Ciencia de datos es un área de trabajo interdisciplinar que incluye procesos para recopilar, preparar, analizar, visualizar y modelizar datos que permitan generar conocimiento útil para comprender problemas complejos y ayudar en la toma de decisiones. Estos datos con frecuencia son no estructurados y heterogéneos. En muchas ocasiones, se trata de grandes volúmenes de datos que por su complejidad y diversidad requiere de arquitecturas y técnicas innovadoras para extraer conocimiento relevante: es el conocido big data. Ciencia de datos es un campo emergente con una alta aplicabilidad en ciencias de la salud, marketing, negocios, mercados financieros, transporte, comunicaciones, redes sociales, etc.

Como indica la consultora Gartner (la más prestigiosa en tecnologías de la información), los científicos de datos no son analistas de negocio tradicionales, son profesionales con la rara capacidad para obtener modelos matemáticos a partir de datos que generan beneficios empresariales claros y contundentes. Así, cada vez más se exigen profesionales con habilidades en campos como informática, matemáticas, estadística o negocios que dominen las nuevas tecnologías y sepan gestionar datos. Las empresas de todos los sectores están adoptando cada vez más la ciencia de datos, de modo que la demanda de expertos en este sector es enorme; así lo refleja un estudio del MIT Sloan Management Review (2015). Catalogada por el Harvard Business Review como la profesión 'más sexy del siglo XXI' (2012), está considerada como una de las mejores oportunidades laborales de los próximos años (no en vano, Glassdoor la define como la mejor profesión en 2016). Según un estudio basado en información de LinkedIn (2015), el número de profesionales en ciencia de datos se ha duplicado en los últimos cuatro años. Otro estudio de Burtch Works (2015) reconoce el impacto positivo en el salario al incluir conocimientos de ciencia de datos. El último informe sobre el futuro del trabajo elaborado por el Foro Económico Mundial (2018) sitúa a los analistas y científicos de datos entre los perfiles laborales que más crecimiento de demanda experimentarán hasta 2022.

Objetivos

Los planes de formación universitaria reglada difícilmente reaccionan a oportunidades laborales emergentes. Además, se tiende a delimitar fronteras que dificultan el desarrollo de especialidades híbridas. Este curso pretende iniciar al alumno en el campo de ciencia de datos, sirviendo así de puente...
Los planes de formación universitaria reglada difícilmente reaccionan a oportunidades laborales emergentes. Además, se tiende a delimitar fronteras que dificultan el desarrollo de especialidades híbridas. Este curso pretende iniciar al alumno en el campo de ciencia de datos, sirviendo así de puente entre diversas disciplinas y ayudando a completar la formación universitaria con una orientación eminentemente práctica. El curso se compone de 30 horas lectivas presenciales repartidas en 15 horas de conceptos teóricos y fundamentos y otras 15 horas de prácticas con software especializado y datos de casos reales.

La teoría incluye visualización de datos, técnicas de clasificación básicas (árboles de decisión, redes neuronales…) y avanzadas (máquinas de soporte vectorial, ensemble learning, deep learning…), preprocesado (eliminación de ruido, imputación de valores perdidos, reducción de datos…), aprendizaje no supervisado (agrupamiento y reglas de asociación), aprendizaje incremental y minería de flujo de datos, big data y sus paradigmas y, finalmente, experiencias reales de ciencia de datos en la empresa. La práctica introduce al alumno en herramientas software tales como KNIME y Phyton y arquitecturas de big data como Spark. También se adquirirá experiencia en una plataforma de competiciones en problemas reales (Kaggle, DrivenData...).

A quién va dirigido

Las personas que se dedican a la ciencia de datos se conocen como científicos de datos, que no es más que una mezcla de matemáticos, estadísticos, informáticos...
Las personas que se dedican a la ciencia de datos se conocen como científicos de datos, que no es más que una mezcla de matemáticos, estadísticos, informáticos y creativos con habilidades para recopilar, procesar y extraer valor de las diversas y extensas bases de datos; imaginación para comprender, visualizar y comunicar sus conclusiones a los no científicos de datos; y capacidad para crear soluciones basadas en datos que aumentan los beneficios, reducen los costos y ayudan a construir un mundo mejor.

El curso se orienta a estudiantes de grado, máster y profesionales con formación previa principalmente en informática, matemáticas, estadística, física, ingeniería o empresariales que busquen completar su formación como científico de datos. La presentación de los fundamentos teóricos y el uso de software especializado se impartirán de forma apropiada para atender a las diferentes especialidades del alumnado. Ciencia de datos es una disciplina que se nutre de experiencias y formaciones diversas, de modo que el curso aprovechará la variedad de necesidades y capacidades del alumnado.

Equipo docente

El profesorado lo componen docentes e investigadores universitarios séniores y jóvenes del área de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada. Se trata de personal altamente especializado...
El profesorado lo componen docentes e investigadores universitarios séniores y jóvenes del área de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada. Se trata de personal altamente especializado en ciencia de datos con excelentes trayectorias en investigación. En el área de Ingeniería y Ciencias de la Computación, la Universidad de Granada está considerada según el prestigioso ranking ARWU 2019 de Shanghái entre las 15 mejores de Europa y primera de España.

Jorge Casillas - coordinador
Alberto Fernández
Salvador García
Diego J. García
Julián Luengo
Daniel Molina

En ediciones anteriores, participaron también Francisco Charte (1ª y 2ª ed.), Sara del Río (1ª y 2ª ed.), Sergio Ramírez (3ª y 4ª ed.), Jesús Alcalá (1ª a 6ª ed.) y Jorge Guanín (3ª a 6ª ed.).

En ediciones previas, el curso contó también con la participación de un(a) conferenciante invitado/a con gran experiencia en el uso de ciencia de datos en la empresa.
  • 1ª edición (marzo-abril 2016): En la primera edición nos visitó Daniel Villatoro, Científico de Datos Senior en Vodafone Group (Londres, Reino Unido), que trabajó anteriormente en BBVA Data & Analytics y es profesor en el Master in Business Analytics & Big Data (IE Business School, Madrid).
  • 2ª edición (junio-julio 2016): En la segunda edición nos visitó Joaquín Derrac, que tras el desarrollo de su tesis doctoral en aprendizaje automático, comenzó su experiencia profesional en Londres (Reino Unido) dentro de la compañía Affectv (basada en tecnología de publicidad) y posteriormente en Harper Collins (perteneciente a la industria editorial). Ha desarrollado varios proyectos sobre la segmentación de clientes, recomendación y personalización de usuario, evaluación de desempeño y análisis de datos.
  • 3ª edición (febrero-marzo 2017): En la tercera edición nos visitó Pedro Antonio de Alarcón, Científico de Datos Senior en LUCA: Data-Driven Decisions en su centro de Telefónica I+D en Granada. Sus 20 años de experiencia como científico de datos, los últimos 10 en Telefónica, nos darán una valiosa visión de la realidad del sector.
  • 4ª edición (febrero 2018): En la cuarta edición contamos con la participación de Francisco Maturana Cremades, Executive Director & CTO de Madiva S. L. (Madrid) que está especializado en infraestructuras tecnológicas, solución de problemas complejos, procesamiento y representación de grandes cantidades de datos con colaboraciones para compañías como Iberia, Telefónica, Santander, BBVA o Banco Sabadell.
  • 5ª edición (febrero 2019): En la quinta edición pudimos disfrutar de la participación de Nacho Rodríguez, Lead Data Scientist para Vodafone Empresas de Big Data Analytics, un equipo increíblemente talentoso centrado en el desarrollo de nuevos y mejores productos basados en datos para los clientes empresariales globales de Vodafone, aprovechando las tecnologías de Big Data, las arquitecturas de nube, el aprendizaje automático y la inteligencia artificial.
  • 6ª edición (febrero 2020): En esta nueva edición contamos con la participación de Miguel Camacho Collados, Coordinador de IA en la Secretaría de Estado para la Digitalización e Inteligencia Artificial. Miguel Camacho es licenciado en Matemáticas (Universidad de Granada, 2006), Estadística (Universidad de Granada, 2007) y Doctor en Matemáticas y Estadística (Universidad de Granada, 2016). También es un ex alumno Fulbright. Se unió a la Policía Nacional en 2009 como inspector. En enero de 2016, fue ascendido a jefe de la Unidad de Estadística de la Policía Nacional. En julio de 2017, se convirtió en el jefe de la Oficina Nacional de Crímenes de Odio del Ministerio del Interior. Desde abril de 2019 coordina el Área de Inteligencia Artificial en el Ministerio de Economía y Empresa. Miguel tiene una amplia experiencia tanto como investigador como formulador de políticas, como lo demuestran sus publicaciones en revistas de investigación y su participación en organizaciones europeas y otras organizaciones internacionales.

Teoría (13h)

  • Tema 1: Ciencia de datos, analítica avanzada y big data (1h) – Jorge Casillas
  • Tema 2: Análisis exploratorio de datos: visualización (1h) – Jorge Casillas
  • Tema 3: Fundamentos de clasificación: árboles de decisión, lazy, RNA, bayesianos, evaluación (2h) – Alberto Fernández
  • Tema 4: Preprocesamiento: selección y procesado de instancias y características, tratamiento del ruido (2h) – Alberto Fernández
  • Tema 5: Clasificación avanzada: SVM, ensemble learning, problemas no balanceados, deep learning (2,5h) - Salvador García
  • Tema 6: Segmentación y relaciones: clustering y reglas de asociación (2h) – Jorge Casillas
  • Tema 7: Aprendizaje incremental y data stream mining (1h) – Jorge Casillas
  • Tema 8: Big data: fundamentos y paradigmas (1,5h) – Salvador García

Prácticas (17h)

Evaluación

Respuesta a preguntas de teoría (modalidad telemática asíncrona) y competición internacional en una plataforma de ciencia de datos (Kaggle o DrivenData). Es obligatorio asistir al 80% de las clases.

Planificación

Sesión 1 - lunes, 08/02/2021
15:30-16:00 – Presentación del curso
16:00-17:00 (1h) – Teoría 1
17:00-18:00 (1h) – Teoría 2
18:00-18:30 (30m) – descanso
18:30-20:30 (2h) – Teoría 3
Sesión 5 – miércoles, 17/02/2021
16:00-18:00 (2h) – Teoría 6
18:00-18:30 (30m) – descanso
18:30-19:30 (1h) – Teoría 7
Sesión 2 - miércoles, 10/02/2021
16:00-18:00 (2h) – Prácticas 1
18:00-18:30 (30m) – descanso
18:30-20:00 (1,5h) – Prácticas 1
Sesión 6 - viernes, 19/02/2021
15:30-18:00 (2,5h) – Prácticas 2
18:00-18:30 (30m) – descanso
18:30-20:30 (2h) – Prácticas 2
Sesión 3 - viernes, 12/02/2021
16:00-18:00 (2h) – Teoría 4
18:00-18:30 (30m) – descanso
18:30-20:30 (2h) – Prácticas 1
Sesión 7 - lunes, 22/02/2021
16:00-17:30 (1,5h) – Teoría 8
17:30-18:00 (30m) – descanso
18:00-20:30 (2,5h) – Prácticas 3
Sesión 4 – lunes, 15/02/2021
15:30-18:00 (2,5h) – Teoría 5
18:00-18:30 (30m) – descanso
18:30-20:30 (2h) – Prácticas 2
Sesión 8 - miércoles, 24/02/2021
16:00-18:30 (2,5h) – Prácticas 3
18:30-19:00 (30m) – descanso
19:00-19:30 (30m) – Kaggle/DrivenData
19:30-19:40 (10m) – Clausura

Lugar de celebración y requisitos

El curso es completamente on-line y se imparte a través de Google Meet (https://meet.google.com).

Requisitos:
  • Disponer de una cuenta de Google (@gmail.com, @go.ugr.es, etc.).
  • Ordenador o portátil con capacidad de al menos 8GB de RAM para las prácticas. Las clases de teoría se pueden seguir desde el ordenador (recomendable) o tablet/smartphone, en este segundo caso a través de la app Google Meet (Hangouts) disponible en Google Play para Android y App Store para iOS.
  • El dispositivo deberá estar equipado con una cámara, altavoz y micrófono para la participación durante las clases. Se recomienda y ruega emplear auriculares con micrófono para una mejor comunicación.
  • Todo el software necesario para las prácticas se basa en software libre y será facilitado al alumnado.