Investigación UNED sobre evaluación e IA

Evaluación comparativa de chatbots y estudiantes en exámenes de desarrollo

Invitamos al profesorado UNED a aportar un examen de desarrollo real y corregir ocho respuestas anonimizadas, generadas por chatbots, humanos o una colaboración de ambos.

Marco del estudio y papel del profesorado

AulaEval es una investigación de la UNED sobre el rendimiento comparado de IAs y estudiantes con exámenes reales de grado y máster. Los profesores contribuyen (1) proponiendo un examen (de desarrollo) reciente de alguna de sus asignaturas, y (2) evaluando ocho respuestas a ese examen hechas por IAs, humanos, o una colaboración de ambos.

Marco de investigación

Motivación científica

El conocimiento general de las IA generativas (ChatGPT, Gemini, Claude, etc.) se suele evaluar mediante preguntas tipo test, que no miden las competencias de escritura ni la capacidad de elaborar respuestas articuladas. En este experimento evaluaremos a la IA generativa mediante exámenes de desarrollo reales de titulaciones de la UNED, con los mismos criterios que a los estudiantes.

Objetivos del estudio

Variables de evaluación

  • Situar respuestas de distinto origen (humanos, máquinas) en una misma escala de evaluación.
  • Además de la calificación global, estudiar dimensiones de calidad de las respuestas como precisión, coherencia, relevancia y profundidad.
  • Diferenciar el rendimiento entre las preguntas que requieren primordialmente memoria y las que requieren razonamiento.
Guía para evaluadores

Criterios de evaluación ciega

  1. Sube un enunciado reciente de examen de desarrollo.
  2. Responde a unas preguntas para caracterizar cada pregunta.
  3. Aplica el criterio de corrección que usaste con los estudiantes presentados a un conjunto de ocho nuevas respuestas (de humanos o máquinas).
  4. Añade una valoración adicional por dimensiones de calidad (fluidez, coherencia, relevancia, profundidad).

Secuencia del proceso de evaluación

Flujo operativo completo en la plataforma, con tiempos orientativos y resultado esperado en cada fase.

Paso 1 1-2 min

Subida de enunciado y alta de asignatura

Carga del examen en PDF/Word y asociación con la asignatura correspondiente.

Salida: el sistema inicia la extracción y envía aviso cuando el borrador está listo para revisión.

Paso 2 3-5 min

Revisión del escaneo automatizado del enunciado

Verificación y edición del examen extraído antes de continuar con la generación.

Salida: con la revisión validada, se habilita el paso “completar exámenes”.

Paso 3 Automático

Recopilación y generación de respuestas para corrección ciega

El sistema completa los exámenes y mantiene oculto el origen de cada respuesta durante la evaluación.

Salida: lote de exámenes listo para corregir con rúbrica, pregunta a pregunta.

Paso 4 10-20 min

Corrección ciega, cierre del caso y cuestionario final

Evaluación por pregunta con rúbrica, bloque post-examen y cierre global de la experiencia.

Salida: juicio evaluador completo y dataset de comparación estructurada para análisis posterior.

Paso 5 2-4 min

Notas de estudiantes matriculados y cierre del registro

Carga opcional de la plantilla oficial de AulaEval con las notas de los estudiantes que se examinaron con ese mismo enunciado.

Salida: la asignatura queda cerrada con datos comparativos humanos y LLM listos para análisis.

¿Listo para colaborar?

Sube tu examen, corrige en ciego y completa el cierre de la asignatura desde el portal. Si ya tienes enlace, puedes retomarlo en cualquier momento.