Ciencia de los Datos Aplicada
Grado y Doble Grado. Curso 2025/2026.
MINERÍA DE TEXTO - 806326
Curso Académico 2025-26
Datos Generales
- Plan de estudios: 081C - GRADO EN CIENCIA DE LOS DATOS APLICADA (2022-23)
- Carácter: Obligatoria
- ECTS: 6.0
SINOPSIS
COMPETENCIAS
Generales
Específicas
ACTIVIDADES DOCENTES
Clases teóricas
Clases prácticas
Presenciales
No presenciales
Semestre
Breve descriptor:
La Minería de Texto o 'Text Mining' (TM) hace referencia al proceso y metodología que se encarga de extraer información y patrones de interés subyacentes a un conjunto de datos de naturaleza lingüística. El TM forma parte de uno de los pilares fundamentales del Procesamiento del Lenguaje Natural o 'Natural Language Processing' (NLP), metodología que ha cobrado gran protagonismo en los últimos años en el contexto de la Ciencia de Datos e Inteligencia Artificial. A lo largo del curso, se abordarán técnicas fundamentales como el procesamiento de información, la representación vectorial de textos, la minería de opiniones y sentimientos, el modelado de temas (topic modeling), y el uso de algoritmos de aprendizaje automático aplicados al lenguaje natural. Asimismo, se prestará especial atención al tratamiento previo del lenguaje (preprocessing), a las herramientas de programación más utilizadas (como R y Python) y a la evaluación de modelos.
Objetivos
Conocer y adquirir las habilidades para poder:
(1) Procesar y minar información subyacente a datos con formato textual en contextos Big Data.
(2) Representar visualmente información textual que resuma los descriptivos de los datos tipo texto.
(3) Aplicar técnicas de 'clustering' y diccionarios para detectar temáticas y sentimientos subyacentes a los datos.
(4) Aplicar técnicas de aprendizaje automático a datos tipo texto.
Contenido
1. Introducción: Obtención y procesamiento básico de texto.
2. Análisis exploratorio y descriptivo de texto y su representación visual.
3. Técnicas de Análisis de Sentimiento basadas en diccionarios.
4. Matrices basadas en frecuencias y Word2vec.
5. Topic Modelling.
6. Teoría de grafos aplicada a textos.
7. Machine Learning aplicado a datos de texto.
8. Transformers: few-shot y zero-shot classification.
Evaluación
(1) Evaluación Continua. Constará de dos exámenes: El primero de ellos referente a los temas 1, 2, 3 y 4 y el segundo examen parcial a los temas 5, 6, 7 y 8. Ambos exámenes constarán de un peso del 50% cada uno de ellos, siento necesario obtener un mínimo de 4 puntos en cada uno de ellos para poder hacer media. Será necesario obtener una puntuación mayor o igual a 5 para superar la asignatura bajo este método.
(2) Prueba final. Constará de un único examen que representará el 100% de la nota y de la materia.
Cualquier alumno/a, haya o no participado en la evaluación continua, tendrá derecho a presentarse a la prueba final si así lo desea, representando esta nota el 100% de la evaluación.
Bibliografía
Silge, J., y D. Robinson. 2017. Text Mining with R: A Tidy Approach. OReilly Media.
Estructura
Módulos | Materias |
---|---|
No existen datos de módulos o materias para esta asignatura. |
Grupos
Actividades Prácticas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo Único | 08/09/2025 - 19/12/2025 | MIÉRCOLES 18:00 - 20:00 | - | GUILLERMO VILLARINO MARTINEZ JUAN ANTONIO GUEVARA GIL |
Clases Teóricas y/o Prácticas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo Único | 08/09/2025 - 19/12/2025 | VIERNES 18:00 - 20:00 | - | GUILLERMO VILLARINO MARTINEZ JUAN ANTONIO GUEVARA GIL |