Lingüistica y Tecnologías por la UCM y la UPM
Máster. Curso 2025/2026.
PROCESAMIENTO DEL HABLA - 610721
Curso Académico 2025-26
Datos Generales
- Plan de estudios: 069M - MÁSTER UNIVERSITARIO EN LINGÜÍSTICA Y TECNOLOGÍAS (2025-26)
- Carácter: OPTATIVA
- ECTS: 4.0
SINOPSIS
COMPETENCIAS
Específicas
- Conocer el manejo de las herramientas software existentes para el procesamiento de las producciones lingüísticas en diferentes lenguas (ej. segmentadores, analizadores
morfológicos, sintácticos, semánticos).
- Conocer los fundamentos teóricos y de implementación de las aplicaciones existentes de Lingüística Computacional (ej. traducción automática, agentes conversacionales, recuperación de información, extracción de entidades nombradas o generación de resúmenes)
Otras
- Saber definir y describir los fundamentos matemáticos de las representaciones de señal y
de las redes neuronales.
- Saber definir y describir los fundamentos de la conversión texto-habla, análisis de texto,
síntesis prosódica y síntesis segmental.
- Saber evaluar los sistemas de conversión texto-habla y habla-texto.
- Saber definir y aplicar a tareas de procesamiento del lenguaje los principales modelos de
redes neuronales para el procesamiento del lenguaje natural hablado
ACTIVIDADES DOCENTES
No presenciales
Semestre
Breve descriptor:
Esta asignatura es el núcleo de lo que se llaman las Tecnologías del Habla, centrándonos en los sistemas de reconocimiento de habla y de conversión texto-habla. Esta disciplina combina varios
campos como el tratamiento de audio mediante procesamiento de señal, el aprendizaje automático, estadística, etc., y tiene una gran variedad de aplicaciones en el mundo real, donde cada vez se accede a más servicios utilizando el habla utilizando sistemas hombre-máquina.
La asignatura está organizada en 4 partes principales:
En la primera se tratan los fundamentos de procesamiento de habla y el procesamiento de señal. Posteriormente se desarrollan todos los módulos que se necesitan en un sistema de conversión texto-habla, desde el análisis de texto, la síntesis prosódica y la síntesis segmental. En la sesión práctica se describirán las herramientas de código abierto para realizar la conversión texto-habla y se planteará una práctica que debe desarrollar el estudiante
En la segunda parte se estudiarán los fundamentos, los métodos y los algoritmos que se usan en la conversión habla-texto incluyendo la programación dinámica, los modelos de Markov y las
redes neuronales. Finalmente se describirán las herramientas de código abierto para realizar la conversión habla-texto y se planteará una práctica que debe desarrollar el estudiante.
En la tercera parte se estudiará de forma simplificada los sistemas de reconocimiento de idioma y reconocimiento de locutor y se expondrán distintas aplicaciones de la tecnología del habla como son los sistemas de traducción de habla, los sistemas conversacionales y la aplicación de la tecnología del habla a personas con necesidades especiales.
En la cuarta parte se realizará una práctica para el desarrollo de una tarea que contendrá conceptos, herramientas y algoritmos previamente estudiados.
Profesores encargados del curso:
José Manuel Pardo Muñoz (Procesamiento de Habla y Aprendizaje automático, UPM)
Ricardo de Córdoba Herralde (Procesamiento de Habla y Aprendizaje automático, UPM)
Requisitos
Objetivos
El objetivo básico es conocer los fundamentos y principales técnicas para la conversión texto- habla y el reconocimiento de habla, así como las métricas más relevantes para tomar la decisión y evaluar los sistemas de reconocimiento y conversión texto-habla. Estos objetivos se desglosan en los siguientes objetivos específicos:
1. Conocer los fundamentos del procesamiento del habla, con especial énfasis en las distintas tecnologías para extraer las características físicas de la voz y conseguir un procesamiento robusto frente al ruido.
2. Explicar en detalle los fundamentos de los conversores texto-habla, desde el análisis de texto, la síntesis prosódica y la síntesis segmental, comparando las distintas tecnologías
y los enfoques recientes basados en redes neuronales.
3. Explicar los fundamentos del reconocimiento de habla, tratando todas las alternativas, comenzando por el dynamic time warping, los modelos ocultos de Markov (HMM), los modelos híbridos HMM neuronales y terminando con los modelos end-to-end.
4. Presentación de los fundamentos del reconocimiento del locutor y del idioma.
5. Presentar metodologías para la evaluación de sistemas de reconocimiento de habla y conversión texto-habla.
6. Presentar las aplicaciones de las tecnologías del habla: sistemas de diálogo, traductores automáticos del habla, tecnologías del habla para personas con necesidades especiales.
7. Presentar herramientas de código abierto disponibles para realizar los sistemas presentados en la asignatura.
Contenido
1. Fundamentos de procesamiento de habla: Muestreo, Transformada Discreta de Fourier. Escala mel, Cepstrum, MFCC, vocoders, cuantificación vectorial
2. Conversión texto habla : Análisis de texto y síntesis prosódica
3. Conversión texto habla: síntesis segmental. Concatenación de Unidades y síntesis HMM
4. Conversión texto habla : síntesis segmental: Modelos neuronales y evaluación de sistemas TTS
5. Herramientas de código abierto para la conversión texto habla
6. Reconocimiento de voz: Introducción y Dynamic time warping. Evaluación de los sistemas de reconocimiento de habla
7. Reconocimiento de voz: Teorema de Bayes y modelos de lenguaje
8. Reconocimiento de voz: Modelos de Markov
9. Reconocimiento de voz: Adaptación, Modelos Híbridos HMM-Neuronal y modelos end to end
10. Reconocimiento de idioma y de locutor
11. Herramientas de código abierto para el reconocimiento de habla.
Evaluación
- Exámenes de test 20%
-Memoria de las prácticas y práctica final y presentación de resultados: 45 % de la nota final.
- Examen final: 35 % de la nota final.
- "Es imprescindible aprobar el examen final presencial para aprobar la asignatura"
Bibliografía
- Automatic Speech Recognition. A Deep Learning Approach. Dong Yu, Li Deng. 2015. Edit. Springer. ISBN: 978-1-4471-5779-3
- New Era for Robust Speech Recognition. Exploiting Deep Learning. Shinji Watanabe, Marc Delcroix, Florian Metze, John R. Hershey. 2017. ISBN: 978-3-319- 64680-0.
- Spoken Language Processing: A Guide to Theory, Algorithm, and System Development Huang, X., Acero, A., Hon, H.W.: 1st edn. Prentice Hall PTR, USA (2001)
- A Survey on Neural Speech Synthesis, Xu Tan, Tao Qin, Frank Soong, Tie-Yan Li, 2021 https://arxiv.org/abs/2106.15561v3
-Statistical parametric speech synthesis, Heiga Zen, Keiichi Tokuda, Alan W. Black, Speech Communication, Volume 51, Issue 11, 2009
Estructura
Módulos | Materias |
---|---|
No existen datos de módulos o materias para esta asignatura. |
Grupos
Clases teóricas y/o prácticas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo T | 02/02/2026 - 08/05/2026 | MIÉRCOLES 17:00 - 19:00 | AULA VIRTUAL | MARIANELA FERNANDEZ TRINIDAD |