Minería de Datos e Inteligencia de Negocios
Máster. Curso 2023/2024.
GESTIÓN Y EXPLOTACIÓN DE ALMACENES DE DATOS - 606542
Curso Académico 2023-24
Datos Generales
- Plan de estudios: 061D - MÁSTER UNIVERSITARIO EN MINERÍA DE DATOS E INTELIGENCIA DE NEGOCIOS (2012-13)
- Carácter: OBLIGATORIA
- ECTS: 6.0
SINOPSIS
COMPETENCIAS
Generales
La necesidad de recopilar información para su análisis está presente en nuestras vidas
El problema fundamental en los procesos de transformación digital empresariales se basa en la integridad del dato y en la capacidad de transformar el dato en información. Conocer las herramientas y lenguaje que se utiliza habitualmente para extraer, almacenar y procesar información es uno de los objetivos principales de esta asignatura.
En este curso se estudian los almacenes de datos desde el punto de vista de su aplicación en técnicas básicas tanto de análisis como de minería de datos (v.g. asociación, predicción o clustering), junto con sus características, limitaciones y posibles ámbitos de implantación (por ejemplo, el ámbito científico, el empresarial o el financiero). Para ello, se utiliza el lenguaje de programación Python, bases de datos relacionales como MySQL y orientadas al documento como MongoDB.
En este curso se estudian los almacenes de datos desde el punto de vista de su aplicación en técnicas básicas tanto de análisis como de minería de datos (v.g. asociación, predicción o clustering), junto con sus características, limitaciones y posibles ámbitos de implantación (por ejemplo, el ámbito científico, el empresarial o el financiero). Para ello, se utiliza el lenguaje de programación Python, bases de datos relacionales como MySQL y orientadas al documento como MongoDB.
Específicas
Identificar los elementos presentes en un problema real.
Conocer en profundidad los sistemas de gestión de bases de datos relacionales y orientados a documento.
Entender las distintas fuentes de información de una compañía y cómo podemos integrar toda esta en almacenes de datos.
Realizar un análisis de la WEB e integrar dicha información con la generada a través de los sistemas tradicionales para ayudar en la toma de decisiones.
Conocer en profundidad el lenguaje Python como herramienta de trabajo en modelos analíticos y predictivos.
Conceptualizar, diseñar e implementar soluciones que permitan adaptar a casos reales soluciones basadas en el aprendizaje automático.
Conocer en profundidad los sistemas de gestión de bases de datos relacionales y orientados a documento.
Entender las distintas fuentes de información de una compañía y cómo podemos integrar toda esta en almacenes de datos.
Realizar un análisis de la WEB e integrar dicha información con la generada a través de los sistemas tradicionales para ayudar en la toma de decisiones.
Conocer en profundidad el lenguaje Python como herramienta de trabajo en modelos analíticos y predictivos.
Conceptualizar, diseñar e implementar soluciones que permitan adaptar a casos reales soluciones basadas en el aprendizaje automático.
ACTIVIDADES DOCENTES
Clases teóricas
50%.
Clases prácticas
50%
TOTAL
100%.
Presenciales
4,5
No presenciales
1,5
Semestre
2
Breve descriptor:
Estudio de técnicas para la obtención de información (análisis y minería de datos) a partir de distintas fuentes de datos: bases de datos relacionales, orientadas a documento, páginas web, escucha en redes sociales... y aplicar estas técnicas a diferentes campos científicos y empresariales.
Requisitos
Es importante haber cursado alguna asignatura de bases de datos que incluya el estudio del modelo relacional y el uso práctico del lenguaje SQL.
Objetivos
- Conocer los fundamentos del lenguaje SQL.
- Conocer los fundamentos del lenguaje Python.
- Aplicar Python en el conocimiento de los fundamentos y técnicas de Web Scraping.
- Aplicar Python en el conocimiento de los fundamentos y técnicas de escucha en Redes Sociales.
- Conocer los fundamentos de MongoDB como herramienta de gestión de base de datos orientada a documento.
- Conocer los fundamentos del Big Data (Machine & Deep Learning).
- Conocer los fundamentos del procesamiento distribuido.
- Conocer los fundamentos del lenguaje Python.
- Aplicar Python en el conocimiento de los fundamentos y técnicas de Web Scraping.
- Aplicar Python en el conocimiento de los fundamentos y técnicas de escucha en Redes Sociales.
- Conocer los fundamentos de MongoDB como herramienta de gestión de base de datos orientada a documento.
- Conocer los fundamentos del Big Data (Machine & Deep Learning).
- Conocer los fundamentos del procesamiento distribuido.
Contenido
- Repaso de bases de datos, lenguaje SQL.
- Introducción al lenguaje Python.
- Introducción a los Sistemas Distribuidos.
- Interpretabilidad de algoritmos de caja negra.
- Introducción al lenguaje Python.
* Acceso a bases de datos.
* Recopilación de datos en la Web (Web Scraping: Selenium, Beautiful Soup).
* Recopilación de datos en la Web (Web Scraping: Selenium, Beautiful Soup).
* Acceso a datos en redes sociales.
* Recolección mediante APIs.
* Recolección mediante APIs.
- Introducción a MongoDB con Python.
- Esquema de programación Map Reduce.
- Introducción a Big Data (Machine Learning & Deep Learning).- Esquema de programación Map Reduce.
- Introducción a los Sistemas Distribuidos.
- Interpretabilidad de algoritmos de caja negra.
Evaluación
La evaluación en periodo ordinario consistirá en la resolución y exposición en clase de tres trabajos propuestos por el profesor durante el curso:
- Ejercicio práctico 1. Bases de Datos con Python. El peso de esta actividad corresponde con 30% del valor de la nota final.
- Ejercicio práctico 2. Web Scraping con Python. El peso de esta actividad corresponde con 30% del valor de la nota final.
- Ejercicio práctico 3. Machine & Deep Learning con Python. El peso de esta actividad corresponde con 30% del valor de la nota final.
Además la asistencia y participación del estudiante en el aula (exposición de trabajos) tendrá un peso de un 10% en la nota final.
En evaluación extraordinaria, se requerirá la entrega de los tres trabajos de evaluación ordinaria, aplicándose los mismos pesos que en evaluación ordinaria. Si algún estudiante no ha podido entregar alguno de los trabajos en la convocatoria ordinaria, podrá hacerlo en extraordinaria. En evaluación extraordinaria los trabajos serán entregados a través del campus virtual y no expuestos en clase, por lo que el 10% de asistencia y participación se puntuará como 0 (perdiendo esa parte de la calificación).
- Ejercicio práctico 1. Bases de Datos con Python. El peso de esta actividad corresponde con 30% del valor de la nota final.
- Ejercicio práctico 2. Web Scraping con Python. El peso de esta actividad corresponde con 30% del valor de la nota final.
- Ejercicio práctico 3. Machine & Deep Learning con Python. El peso de esta actividad corresponde con 30% del valor de la nota final.
Además la asistencia y participación del estudiante en el aula (exposición de trabajos) tendrá un peso de un 10% en la nota final.
En evaluación extraordinaria, se requerirá la entrega de los tres trabajos de evaluación ordinaria, aplicándose los mismos pesos que en evaluación ordinaria. Si algún estudiante no ha podido entregar alguno de los trabajos en la convocatoria ordinaria, podrá hacerlo en extraordinaria. En evaluación extraordinaria los trabajos serán entregados a través del campus virtual y no expuestos en clase, por lo que el 10% de asistencia y participación se puntuará como 0 (perdiendo esa parte de la calificación).
Bibliografía
* Parker, James R. Python : An introduction to programming. Dulles (Virginia, EEUU) : Mercury Learning and Information, cop. 2017
* Russell, Matthew A. Mining the social web : [data mining Facebook, Twitter, LinkedIn, Google+, GitHub, and more] / Matthew A. Russell. Sebastopol (California) : O'Really Media, 2013
* Documentación Hadoop: http://hadoop.apache.org/docs/current/
* Documentación MrJob: https://pythonhosted.org/mrjob/
* Karau H., Konwinski A., Wendell P., and Zaharia M. Learning Spark. O'Reilly. 2015
* Documentación Spark: http://spark.apache.org/docs/latest/
* Python paso a paso. Angel Hinojosa Gutierrez
* Interpretabilidad Machine Learning: https://christophm.github.io/interpretable-ml-book/ - Christoph Molnar
* Russell, Matthew A. Mining the social web : [data mining Facebook, Twitter, LinkedIn, Google+, GitHub, and more] / Matthew A. Russell. Sebastopol (California) : O'Really Media, 2013
* Documentación Hadoop: http://hadoop.apache.org/docs/current/
* Documentación MrJob: https://pythonhosted.org/mrjob/
* Karau H., Konwinski A., Wendell P., and Zaharia M. Learning Spark. O'Reilly. 2015
* Documentación Spark: http://spark.apache.org/docs/latest/
* Python paso a paso. Angel Hinojosa Gutierrez
* Interpretabilidad Machine Learning: https://christophm.github.io/interpretable-ml-book/ - Christoph Molnar
Estructura
Módulos | Materias |
---|---|
No existen datos de módulos o materias para esta asignatura. |
Grupos
Clases teóricas y/o prácticas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo A | 22/01/2024 - 10/05/2024 | JUEVES 18:00 - 19:30 | - | GABRIEL MARIN DIAZ |
Grupo B | 22/01/2024 - 10/05/2024 | MARTES 18:00 - 19:30 | - | JOSE JAVIER GALAN HERNANDEZ |
Actividades prácticas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo A | 22/01/2024 - 10/05/2024 | JUEVES 19:30 - 21:00 | - | GABRIEL MARIN DIAZ |
Grupo B | 22/01/2024 - 10/05/2024 | MARTES 19:30 - 21:00 | - | JOSE JAVIER GALAN HERNANDEZ |