Investigación UNED sobre evaluación e IA

Evaluación comparativa de chatbots y estudiantes en exámenes de desarrollo

Invitamos al profesorado UNED a aportar un examen de desarrollo real y corregir ocho respuestas anonimizadas, generadas por chatbots, humanos o una colaboración de ambos.

Comenzar Continuar (ya estoy registrado)

Marco del estudio y papel del profesorado

AulaEval es una investigación de la UNED sobre el rendimiento comparado de IAs y estudiantes con exámenes reales de grado y máster. Los profesores contribuyen (1) proponiendo un examen (de desarrollo) reciente de alguna de sus asignaturas, y (2) evaluando ocho respuestas a ese examen hechas por IAs, humanos, o una colaboración de ambos.

Marco de investigación

Motivación científica

El conocimiento general de las IA generativas (ChatGPT, Gemini, Claude, etc.) se suele evaluar mediante preguntas tipo test, que no miden las competencias de escritura ni la capacidad de elaborar respuestas articuladas. En este experimento evaluaremos a la IA generativa mediante exámenes de desarrollo reales de titulaciones de la UNED, con los mismos criterios que a los estudiantes.

Objetivos del estudio

Variables de evaluación

Situar respuestas de distinto origen (humanos, máquinas) en una misma escala de evaluación.
Además de la calificación global, estudiar dimensiones de calidad de las respuestas como precisión, coherencia, relevancia y profundidad.
Diferenciar el rendimiento entre las preguntas que requieren primordialmente memoria y las que requieren razonamiento.

Guía para evaluadores

Criterios de evaluación ciega

Sube un enunciado reciente de examen de desarrollo.
Responde a unas preguntas para caracterizar cada pregunta.
Aplica el criterio de corrección que usaste con los estudiantes presentados a un conjunto de ocho nuevas respuestas (de humanos o máquinas).
Añade una valoración adicional por dimensiones de calidad (fluidez, coherencia, relevancia, profundidad).

Secuencia del proceso de evaluación

Flujo operativo completo en la plataforma, con tiempos orientativos y resultado esperado en cada fase.

Paso 1 1-2 min

Subida de enunciado y alta de asignatura

Carga del examen en PDF/Word y asociación con la asignatura correspondiente.

Salida: el sistema inicia la extracción y envía aviso cuando el borrador está listo para revisión.

Paso 2 3-5 min

Revisión del escaneo automatizado del enunciado

Verificación y edición del examen extraído antes de continuar con la generación.

Salida: con la revisión validada, se habilita el paso “completar exámenes”.

Paso 3 Automático

Recopilación y generación de respuestas para corrección ciega

El sistema completa los exámenes y mantiene oculto el origen de cada respuesta durante la evaluación.

Salida: lote de exámenes listo para corregir con rúbrica, pregunta a pregunta.

Paso 4 10-20 min

Corrección ciega, cierre del caso y cuestionario final

Evaluación por pregunta con rúbrica, bloque post-examen y cierre global de la experiencia.

Salida: juicio evaluador completo y dataset de comparación estructurada para análisis posterior.

Paso 5 2-4 min

Notas de estudiantes matriculados y cierre del registro

Carga opcional de la plantilla oficial de AulaEval con las notas de los estudiantes que se examinaron con ese mismo enunciado.

Salida: la asignatura queda cerrada con datos comparativos humanos y LLM listos para análisis.

Qué mide: La calidad lingüística de la redacción, ortografía, gramática, adecuación al registro académico y fluidez del discurso.

NE - No evaluable: La pregunta no se ha contestado: está en blanco, contesta a otra cosa sin relación con lo que se ha preguntado, o la calidad de la redacción es irrelevante para la pregunta.
0 – Muy deficiente: El texto es difícil de leer; es poco fluido; la redacción es confusa; contiene errores gramaticales y/o ortográficos graves y frecuentes; frases mal formadas; estilo desordenado e inapropiado.
1 – Deficiente: El texto es comprensible con esfuerzo, pero la calidad de la redacción y la fluidez tienen defectos críticos: el estilo es poco elaborado o excesivamente barroco, hay problemas de cohesión y de redacción, con algunos errores gramaticales y ortográficos inapropiados en estudios de grado.
2 - Aprobado: El texto es aceptablemente fluido y coherente; la organización y adecuación del estilo al contexto académico son aceptables, sin defectos críticos ni méritos destacables.
3 - Notable: El texto presenta una fluidez destacable. El estilo es claro, preciso y apropiado al contexto académico. La redacción es coherente, bien estructurada y facilita la comprensión del texto, con algunos defectos menores. El estilo se adecúa a las reglas del registro académico.
4 - Sobresaliente: La calidad del texto es muy alta; no sólo es fluido, sino que refleja un dominio de la escritura y del registro académico claramente superior a lo esperado.

Qué mide: la veracidad de lo que se afirma y el grado de fiabilidad global de la respuesta.

NE - No evaluable: La pregunta no se ha contestado: está en blanco, contesta a otra cosa sin relación con lo que se ha preguntado, o la precisión factual es irrelevante para la pregunta.
0 – Muy deficiente: La respuesta contiene errores factuales críticos, información falsa, o afirmaciones incorrectas; la información presentada puede parecer inventada o contradictoria en relación al conocimiento que se debería haber adquirido al cursar la asignatura.
1 – Deficiente: La respuesta es parcialmente correcta desde el punto de vista factual, contiene inexactitudes, simplificaciones excesivas o afirmaciones ambiguas que afectan de forma crítica a la corrección de la respuesta.
2 - Aprobado: La respuesta es factualmente correcta en líneas generales. Hay errores, imprecisiones u omisiones que no son críticos.
3 - Notable: La respuesta es factualmente correcta, los errores factuales son mínimos y poco relevantes para la corrección de la respuesta.
4 - Sobresaliente: La respuesta es muy destacable en este plano: no hay ningún error factual, y la información es precisa y detallada.

Qué mide: la consistencia interna de los argumentos presentados, la progresión lógica y la ausencia de contradicciones. Nótese que en este apartado no se valora la corrección factual (valorada en el apartado anterior), sino exclusivamente la calidad del razonamiento, incluso si se parte de premisas incorrectas.

NE - No evaluable: La pregunta no se ha contestado: está en blanco, contesta a otra cosa sin relación con lo que se ha preguntado, o la coherencia lógica es irrelevante para la pregunta.
0 – Muy deficiente: La respuesta carece de coherencia lógica; presenta ideas inconexas o contradicciones evidentes, saltos argumentales injustificados o razonamientos incorrectos que impiden seguir el hilo de la argumentación. No hay relación lógica entre las ideas presentadas.
1 – Deficiente: La respuesta tiene cierta coherencia lógica en líneas generales, pero contiene algunas inconsistencias o argumentaciones que afectan de forma crítica a la validez de la respuesta.
2 - Aprobado: La respuesta está bien razonada en líneas generales. Hay algunos razonamientos erróneos o incompletos, pero no afectan de forma crítica a la validez de la respuesta.
3 - Notable: La respuesta está bien razonada; hay algún razonamiento impreciso o poco claro que apenas afecta a la validez de la respuesta.
4 - Sobresaliente: La respuesta refleja un dominio elevado de la argumentación, superior a lo requerido. El razonamiento es correcto, detallado y claro.

Qué mide: El grado en que la respuesta se ajusta a lo requerido en la pregunta, sin divagar ni omitir partes esenciales, cumpliendo las instrucciones de la pregunta. Es independiente de la calidad del razonamiento.

NE - No evaluable: La pregunta no se ha contestado: está en blanco o contesta a otra cosa sin relación con lo que se ha preguntado.
0 – Muy deficiente: El estudiante no responde a lo planteado y requerido en la pregunta; malinterpreta la pregunta o la desvía hacia otros temas.
1 – Deficiente: La respuesta no aborda los aspectos fundamentales por los que se pregunta, se desvía sustancialmente de lo requerido, o ignora los requisitos de formato.
2 - Aprobado: El estudiante responde a lo solicitado y sigue aceptablemente las instrucciones, con omisiones o desviaciones que no son críticas y sin méritos destacables.
3 - Notable: La respuesta se adapta a la tarea planteada; responde de forma completa a lo requerido en la pregunta, con alguna desviación (omisión o añadido innecesario) que apenas afecta a la calidad de la respuesta.
4 - Sobresaliente: La respuesta se alinea de forma sobresaliente a lo solicitado, sin ninguna omisión ni añadido innecesario.

Qué mide: Esta dimensión diferencia entre respuestas en profundidad, que aportan información específica, detallada y útil respecto a la pregunta, y respuestas superficiales con información genérica que responde a la pregunta de forma vaga y, en última instancia, poco o nada útil.

NE - No evaluable: La pregunta no se ha contestado: está en blanco, contesta a otra cosa sin relación con lo que se ha preguntado, o la profundidad / informatividad no son relevantes para esta pregunta.
0 – Muy deficiente: La respuesta es tan superficial o genérica que no contiene ninguna información útil. Ejemplo: a la pregunta "¿Qué problemas se encontró Marie Curie en el desarrollo de su investigación sobre la radioactividad?", la contestación "La investigación científica es muy dura y requiere mucho sacrificio y esfuerzo" es tan genérica que, aunque responde a la pregunta, no aporta información específica sobre Marie Curie.
1 – Deficiente: La respuesta intenta entrar en profundidad a algunos aspectos de la pregunta pero sin conseguirlo, siendo demasiado genérica para que pueda darse por válida. En el ejemplo anterior: "Marie Curie tuvo dificultades para desarrollar su trabajo porque la investigación científica es muy dura y es un ámbito en el que las mujeres son particularmente discriminadas, sobre todo en la época en la que ella vivió".
2 - Aprobado: La respuesta muestra una profundidad aceptable. Hay aspectos en los que se queda en lo superficial, pero no comprometen de forma crítica la validez de la respuesta. En el ejemplo anterior: "Marie Curie desarrolló su investigación en condiciones precarias, sin recursos económicos suficientes, sobre un fenómeno nuevo y poco comprendido, y encontró muchas barreras por el hecho de ser mujer. Además, sufrió en su salud las consecuencias severas de trabajar con materiales radioactivos, sobre los que se desconocía su peligrosidad".
3 - Notable: La respuesta presenta una profundidad analítica destacable en casi todos los aspectos. Hay muy pocos aspectos en los que se quede en lo superficial, y apenas comprometen la calidad de la respuesta. En el ejemplo anterior: "Marie Curie se enfrentó a la falta de recursos, trabajando durante años en un laboratorio mal equipado y sin asistentes; al desconocimiento sobre los riesgos de la radiación, lo que afectó gravemente a su salud a largo plazo; a la falta de conocimiento sobre la radiación, por lo que tuvo que desarrollar nuevas técnicas de medición y aislamiento químico desde cero; a la discriminación por ser mujer, que le ocasionó falta de reconocimiento y dudas sobre su capacidad; y al fallecimiento de su esposo y colaborador Pierre Curie, que la obligó a seguir sola sus investigaciones".
4 - Sobresaliente: La profundidad analítica es muy elevada, por encima de lo esperado. En el ejemplo anterior: "Marie Curie se enfrentó a la falta de recursos, trabajando durante años en un laboratorio mal equipado y sin asistentes, en el que tenía que procesar manualmente enormes cantidades de pechblenda con un gran esfuerzo físico; al desconocimiento sobre los riesgos de la radiación, lo que la llevó a desarrollar una anemia aplásica que acabó con su vida; a la falta de conocimiento sobre la radiación, por lo que tuvo que desarrollar nuevas técnicas de medición y aislamiento químico desde cero, como la cristalización fraccionada o la medición de radiactividad mediante métodos electrométricos; a la discriminación por ser mujer, que la llevó a ser excluida de la Academia de Ciencias de Francia y a no conseguir un puesto de profesora hasta que enviudó; y al fallecimiento de su esposo y colaborador Pierre Curie, que la obligó a seguir sola sus investigaciones durante casi treinta años".

Qué mide: si el estudiante aporta su visión personal y su criterio, más allá de la simple repetición de ideas aprendidas, o si ofrece una respuesta inesperada, fuera de lo común, sin ser incorrecta.

NE - No evaluable: La pregunta no se ha contestado: está en blanco, contesta a otra cosa sin relación con lo que se ha preguntado, o la originalidad y perspectiva crítica son irrelevantes para esta pregunta.
0 – Muy deficiente: La respuesta carece por completo de originalidad y perspectiva crítica; se limita a reproducir información convencionalmente aceptada.
1 – Deficiente: La respuesta apenas tiene originalidad y perspectiva crítica, y consiste mayoritariamente en lugares comunes. Si aporta alguna reflexión o matiz crítico, es poco profundo y predecible.
2 - Aprobado: La respuesta muestra cierto grado de originalidad y perspectiva crítica; incorpora algunas reflexiones propias o cuestiona algunos lugares comunes, aún cayendo en algunos lugares comunes.
3 - Notable: La respuesta es original y presenta una perspectiva crítica y personal. Ofrece mayoritariamente enfoques propios bien fundamentados, y cuestiona de manera reflexiva ideas establecidas.
4 - Sobresaliente: La respuesta sorprende por proporcionar una visión personal y una perspectiva crítica superior a lo esperado, aportando reflexiones y argumentaciones únicas y valiosas.