Matemáticas y Estadística Plan 2019. (Plan a extinguir)

Grado y Doble Grado. Curso 2024/2025.

DATOS MASIVOS: BIG-DATA - 805377

Curso Académico 2024-25

Datos Generales

SINOPSIS

COMPETENCIAS

Generales
Utilizar los conocimientos matemáticos para modelar y resolver problemas
complejos mediante algoritmos.
Valorar diferentes soluciones alternativas y elegir de acuerdo a las situaciones
específicas entre las herramientas y las técnicas adecuadas para llevar a cabo
la implementación de dichas soluciones.
Saber abstraer en un problema complejo las propiedades y características esen-
ciales reconociendo su rango de aplicabilidad y limitaciones.
Transversales
Ser capaz de mostrar creatividad, iniciativa y espíritu emprendedor
para afrontar los retos de su actividad y saber valorar las soluciones a dichos
retos en el contexto industrial, económico, administrativo, medio ambiental y
social.
Tener la capacidad de reunir e interpretar datos relevantes para emitir juicios
que incluyan una reflexión profunda sobre temas y problemas a resolver.
Demostrar razonamiento crítico y gestionar información científica y técnica de
calidad, bibliografía, bases de datos especializadas y recursos accesibles a través
de Internet.
Trabajar con la linea de comandos y manejo de ssh.
Específicas
Conocer los problemas que se presentan en el manejo de grandes cantidades de datos. (CG1, CG4, CE1)
Conocer las características de los sistemas distribuidos de ficheros. (CG4, CE3)
Conocer técnicas y software de programación paralela para sistemas distribuidos de ficheros. (CG4 CE4)

ACTIVIDADES DOCENTES

Clases teóricas
En las que el profesor presenta los conceptos y técnicas relevantes
de los contenidos y muestra las referencias bibliográficas o enlaces web a seguir
para profundizar en dichos temas.
Clases prácticas
En las que en un trabajo guiado por el profesor el alumnado
diseña y busca soluciones a ejercicios propuestos.
Laboratorios
En las que los alumnos implementan y depuran los
programas que resuelven los problemas estudiados en las clases prácticas.
Presentaciones
En las que los alumnos, de forma individual o por grupos, a petición
del profesor, preparan una exposición ante sus compañeros de una solución (bien
sea diseño, implementación o ambas) a alguno de los problemas propuestos.

Presenciales

6

Semestre

8

Breve descriptor:

En esta asignatura se estudiará la forma de trabajar con datos de gran tamaño (Big Data) y sus problemas asociados:
- Sistemas de ficheros distribuidos, replicados y tolerantes a fallos.
- Programación paralea con el paradigma map-reduce
- Bases de datos no relacionales.

Requisitos

Es adecuado para seguir el curso con fluidez contar con los conocimientos
de programación que habitualmente se consiguen con un primer curso en esta materia:
variables y tipos de datos, estructuras de control, programación estructurada. . .
También es recomendable cursar las asignaturas de programación declarativa, estructuras de datos y bases de datos.

Objetivos

Entender la necesidad del uso de datos distribuidos, replicados y tolerantes a fallos.
Elaborar soluciones a problemas usando datos distribuidos


Contenido

Introducción al big data: problemas y retos.
Sistemas distribuidos de ficheros. Arquitectura clúster, tolerancia a fallos, replicación. Manejo de sistemas distribuidos de ficheros.
Programación paralela para sistemas distribuidos de ficheros. MapReduce. Spark.
Manejo de bases de datos no relacionales

Evaluación

- Exámenes finales en la convocatoria ordinaria y extraordinaria: 70%
- Entrega de prácticas en las fechas indicadas: 30%

Observaciones:
1. La calificación del examen final debe ser de al menos un 5 sobre 10 para poder hacer media con el resto de las actividades evaluables y aprobar la asignatura.
2. La entrega de las prácticas es obligatoria (deben estar todas entregadas y aptas para poder aprobar la asignatura), tanto en la convocatoria ordinaria como en la extraordinaria. Se habilitará un plazo para que los alumnos puedan presentar las prácticas pendientes (no entregadas o no aptas) en la convocatoria extraordinaria.
3. Cumplidos estos requisitos, la calificación final será la media ponderada de los dos apartados indicados.

Bibliografía

Enlaces Web:
- Python, http://docs.python.org/3
- Apache hadoop
- Apache Spark: https://spark.apache.org/docs/latest/
- MongoDB: https://docs.mongodb.org/manual

Libros:
- Garry Turkington. Hadoop Beginner's Guide. Packt Publishing, Limited. 2013
- Hien Luu. Beginning Apache Spark 2 : with resilient distributed datasets, Spark SQL, structured streaming and Spark Machine Learning library Beginning Apache Spark 2 : with resilient distributed datasets, Spark SQL, structured streaming and Spark Machine Learning library. Springer Professional and Applied Computing eBooks 2018
- Afshin Mehrabani. MongoDB high availability. Packt Publishing, 2014.

Otra información relevante

No se usará el campus virtual de la UCM. Es su lugar usaremos este
https://wild.ucm.es/moodle

Estructura

MódulosMaterias
No existen datos de módulos o materias para esta asignatura.

Grupos

Clases teóricas
GrupoPeriodosHorariosAulaProfesor
Grupo único20/01/2025 - 09/05/2025MIÉRCOLES 16:00 - 17:00B16DANIEL GARCIA GOMEZ
VIERNES 16:00 - 17:00INF4 Aula de InformáticaDANIEL GARCIA GOMEZ


Clases prácticas
GrupoPeriodosHorariosAulaProfesor
Grupo único20/01/2025 - 09/05/2025MIÉRCOLES 17:00 - 18:00B16DANIEL GARCIA GOMEZ
VIERNES 17:00 - 18:00INF4 Aula de InformáticaDANIEL GARCIA GOMEZ