Matemáticas y Estadística Plan 2019. (Plan a extinguir)
Grado y Doble Grado. Curso 2024/2025.
DATOS MASIVOS: BIG-DATA - 805377
Curso Académico 2024-25
Datos Generales
- Plan de estudios: 080I - GRADO EN MATEMÁTICAS Y ESTADÍSTICA (2019) (2019-20)
- Carácter: Optativa
- ECTS: 6.0
SINOPSIS
COMPETENCIAS
Generales
Utilizar los conocimientos matemáticos para modelar y resolver problemas
complejos mediante algoritmos.
Valorar diferentes soluciones alternativas y elegir de acuerdo a las situaciones
específicas entre las herramientas y las técnicas adecuadas para llevar a cabo
la implementación de dichas soluciones.
Saber abstraer en un problema complejo las propiedades y características esen-
ciales reconociendo su rango de aplicabilidad y limitaciones.
complejos mediante algoritmos.
Valorar diferentes soluciones alternativas y elegir de acuerdo a las situaciones
específicas entre las herramientas y las técnicas adecuadas para llevar a cabo
la implementación de dichas soluciones.
Saber abstraer en un problema complejo las propiedades y características esen-
ciales reconociendo su rango de aplicabilidad y limitaciones.
Transversales
Ser capaz de mostrar creatividad, iniciativa y espíritu emprendedor
para afrontar los retos de su actividad y saber valorar las soluciones a dichos
retos en el contexto industrial, económico, administrativo, medio ambiental y
social.
Tener la capacidad de reunir e interpretar datos relevantes para emitir juicios
que incluyan una reflexión profunda sobre temas y problemas a resolver.
Demostrar razonamiento crítico y gestionar información científica y técnica de
calidad, bibliografía, bases de datos especializadas y recursos accesibles a través
de Internet.
Trabajar con la linea de comandos y manejo de ssh.
para afrontar los retos de su actividad y saber valorar las soluciones a dichos
retos en el contexto industrial, económico, administrativo, medio ambiental y
social.
Tener la capacidad de reunir e interpretar datos relevantes para emitir juicios
que incluyan una reflexión profunda sobre temas y problemas a resolver.
Demostrar razonamiento crítico y gestionar información científica y técnica de
calidad, bibliografía, bases de datos especializadas y recursos accesibles a través
de Internet.
Trabajar con la linea de comandos y manejo de ssh.
Específicas
Conocer los problemas que se presentan en el manejo de grandes cantidades de datos. (CG1, CG4, CE1)
Conocer las características de los sistemas distribuidos de ficheros. (CG4, CE3)
Conocer técnicas y software de programación paralela para sistemas distribuidos de ficheros. (CG4 CE4)
Conocer las características de los sistemas distribuidos de ficheros. (CG4, CE3)
Conocer técnicas y software de programación paralela para sistemas distribuidos de ficheros. (CG4 CE4)
ACTIVIDADES DOCENTES
Clases teóricas
En las que el profesor presenta los conceptos y técnicas relevantes
de los contenidos y muestra las referencias bibliográficas o enlaces web a seguir
para profundizar en dichos temas.
de los contenidos y muestra las referencias bibliográficas o enlaces web a seguir
para profundizar en dichos temas.
Clases prácticas
En las que en un trabajo guiado por el profesor el alumnado
diseña y busca soluciones a ejercicios propuestos.
diseña y busca soluciones a ejercicios propuestos.
Laboratorios
En las que los alumnos implementan y depuran los
programas que resuelven los problemas estudiados en las clases prácticas.
programas que resuelven los problemas estudiados en las clases prácticas.
Presentaciones
En las que los alumnos, de forma individual o por grupos, a petición
del profesor, preparan una exposición ante sus compañeros de una solución (bien
sea diseño, implementación o ambas) a alguno de los problemas propuestos.
del profesor, preparan una exposición ante sus compañeros de una solución (bien
sea diseño, implementación o ambas) a alguno de los problemas propuestos.
Presenciales
6
Semestre
8
Breve descriptor:
En esta asignatura se estudiará la forma de trabajar con datos de gran tamaño (Big Data) y sus problemas asociados:
- Sistemas de ficheros distribuidos, replicados y tolerantes a fallos.
- Programación paralea con el paradigma map-reduce
- Bases de datos no relacionales.
- Sistemas de ficheros distribuidos, replicados y tolerantes a fallos.
- Programación paralea con el paradigma map-reduce
- Bases de datos no relacionales.
Requisitos
Es adecuado para seguir el curso con fluidez contar con los conocimientos
de programación que habitualmente se consiguen con un primer curso en esta materia:
variables y tipos de datos, estructuras de control, programación estructurada. . .
También es recomendable cursar las asignaturas de programación declarativa, estructuras de datos y bases de datos.
de programación que habitualmente se consiguen con un primer curso en esta materia:
variables y tipos de datos, estructuras de control, programación estructurada. . .
También es recomendable cursar las asignaturas de programación declarativa, estructuras de datos y bases de datos.
Objetivos
Entender la necesidad del uso de datos distribuidos, replicados y tolerantes a fallos.
Elaborar soluciones a problemas usando datos distribuidos
Elaborar soluciones a problemas usando datos distribuidos
Contenido
Introducción al big data: problemas y retos.
Sistemas distribuidos de ficheros. Arquitectura clúster, tolerancia a fallos, replicación. Manejo de sistemas distribuidos de ficheros.
Programación paralela para sistemas distribuidos de ficheros. MapReduce. Spark.
Manejo de bases de datos no relacionales
Sistemas distribuidos de ficheros. Arquitectura clúster, tolerancia a fallos, replicación. Manejo de sistemas distribuidos de ficheros.
Programación paralela para sistemas distribuidos de ficheros. MapReduce. Spark.
Manejo de bases de datos no relacionales
Evaluación
- Exámenes finales en la convocatoria ordinaria y extraordinaria: 70%
- Entrega de prácticas en las fechas indicadas: 30%
Observaciones:
1. La calificación del examen final debe ser de al menos un 5 sobre 10 para poder hacer media con el resto de las actividades evaluables y aprobar la asignatura.
2. La entrega de las prácticas es obligatoria (deben estar todas entregadas y aptas para poder aprobar la asignatura), tanto en la convocatoria ordinaria como en la extraordinaria. Se habilitará un plazo para que los alumnos puedan presentar las prácticas pendientes (no entregadas o no aptas) en la convocatoria extraordinaria.
3. Cumplidos estos requisitos, la calificación final será la media ponderada de los dos apartados indicados.
- Entrega de prácticas en las fechas indicadas: 30%
Observaciones:
1. La calificación del examen final debe ser de al menos un 5 sobre 10 para poder hacer media con el resto de las actividades evaluables y aprobar la asignatura.
2. La entrega de las prácticas es obligatoria (deben estar todas entregadas y aptas para poder aprobar la asignatura), tanto en la convocatoria ordinaria como en la extraordinaria. Se habilitará un plazo para que los alumnos puedan presentar las prácticas pendientes (no entregadas o no aptas) en la convocatoria extraordinaria.
3. Cumplidos estos requisitos, la calificación final será la media ponderada de los dos apartados indicados.
Bibliografía
Enlaces Web:
- Python, http://docs.python.org/3
- Apache hadoop
- Apache Spark: https://spark.apache.org/docs/latest/
- MongoDB: https://docs.mongodb.org/manual
Libros:
- Garry Turkington. Hadoop Beginner's Guide. Packt Publishing, Limited. 2013
- Hien Luu. Beginning Apache Spark 2 : with resilient distributed datasets, Spark SQL, structured streaming and Spark Machine Learning library Beginning Apache Spark 2 : with resilient distributed datasets, Spark SQL, structured streaming and Spark Machine Learning library. Springer Professional and Applied Computing eBooks 2018
- Afshin Mehrabani. MongoDB high availability. Packt Publishing, 2014.
- Python, http://docs.python.org/3
- Apache hadoop
- Apache Spark: https://spark.apache.org/docs/latest/
- MongoDB: https://docs.mongodb.org/manual
Libros:
- Garry Turkington. Hadoop Beginner's Guide. Packt Publishing, Limited. 2013
- Hien Luu. Beginning Apache Spark 2 : with resilient distributed datasets, Spark SQL, structured streaming and Spark Machine Learning library Beginning Apache Spark 2 : with resilient distributed datasets, Spark SQL, structured streaming and Spark Machine Learning library. Springer Professional and Applied Computing eBooks 2018
- Afshin Mehrabani. MongoDB high availability. Packt Publishing, 2014.
Otra información relevante
No se usará el campus virtual de la UCM. Es su lugar usaremos este
https://wild.ucm.es/moodle
https://wild.ucm.es/moodle
Estructura
Módulos | Materias |
---|---|
No existen datos de módulos o materias para esta asignatura. |
Grupos
Clases teóricas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo único | 20/01/2025 - 09/05/2025 | MIÉRCOLES 16:00 - 17:00 | B16 | DANIEL GARCIA GOMEZ |
VIERNES 16:00 - 17:00 | INF4 Aula de Informática | DANIEL GARCIA GOMEZ |
Clases prácticas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo único | 20/01/2025 - 09/05/2025 | MIÉRCOLES 17:00 - 18:00 | B16 | DANIEL GARCIA GOMEZ |
VIERNES 17:00 - 18:00 | INF4 Aula de Informática | DANIEL GARCIA GOMEZ |