Desde inicios del curso 2021/22 está teniendo lugar un animado debate en torno a la evaluación criterial en varios canales de conocidas redes sociales, protagonizado por profesorado de enseñanza no universitaria. Como las redes sociales no facilitan exponer una argumentación de forma sostenida, me atrevo a escribir este post con mi humilde opinión. Puesto que soy profesor desde hace décadas en Secundaria, solo pretendo aplicar estas reflexiones a este nivel, ignorando si se puede generalizar a otros niveles.

Referencias a los criterios de evaluación se pueden leer, de forma genérica, desde la LOGSE (1990) hasta la LOMLOE (2020). Por tanto la idea, al menos en su forma más inicial, puede tener más de 30 años. No obstante la expresión ‘evaluación criterial’ solo la encuentro, curiosamente, en la Orden de 15 de enero de 2021.

 La literatura pedagógica ha diferenciado, no siempre con una interpretación unánime, entre evaluación normativa y criterial. A grandes rasgos, la evaluación normativa buscaba ‘normalizar’ al alumno respecto al resto del grupo, lo que suponía evaluar en relación a los logros que podían conseguir el resto de los compañeros en un grupo. Esta ha sido, de forma más o menos consciente, la manera habitual de evaluar en el profesorado, y se asocia a la manera más tradicional de impartir clase. 

La evaluación criterial, al menos en su intención, pretende concentrar la labor docente en los criterios de evaluación como los referentes necesarios para valorar el aprendizaje del alumnado. De esta manera, al desprenderse de la tradición de ‘normalizar’, se haría más hincapié en la diversidad y se lograría estandarizar los logros que necesita el alumnado para superar una asignatura.

Durante muchos años, por parte de algunos estudiosos y por parte de la administración educativa, se ha tenido la ‘intuición’ (no conozco investigaciones al respecto) de que el profesorado no tiene en cuenta de manera suficiente estos criterios de evaluación. Esto se evidencia, según esta sospecha, en que el profesorado aplica con frecuencia un esquema similar al siguiente:

% exámenes +  % trabajos (incluida actitud en clase)  = Nota de la evaluación 

El tanto por ciento de los exámenes con frecuencia tenía una horquilla del 70-90% y el resto 30-10%

Esta forma de evaluar presenta dos problemas. Por un lado, no hay una declaración expresa de los criterios de evaluación no superados por el alumno (referencia  obligada por la normativa); por otra parte, se evalúan los instrumentos de evaluación y no los criterios. 

En Andalucía tenemos un exitoso sistema on line de Gestión Educativa que se conoce con el nombre de Séneca y que la normativa exige utilizar al  profesorado de nuestra comunidad. Desde septiembre 2021 la administración ha realizado cambios importantes encaminados a disuadir al  profesorado de reproducir en la evaluación del alumnado el esquema arriba expuesto. Esto ha generado una fuerte reacción por parte de muchos docentes que consideramos que hay un error en la teoría y otro en la práctica. Las posturas que se oponen a ‘la interpretación oficial de la evaluación criterial’ se pueden resumir en dos: por una parte quienes piensan que el coste administrativo (en cuanto a burocracia virtual) de esta forma de evaluar no es asumible por el profesorado. En particular, el número de clics y registros que hay realizar por alumno es tan abrumador que no compensan los supuestos beneficios de esta evaluación. Por otra parte, quienes piensan que eliminar cualquier referencia a los instrumentos (exámenes, test, trabajos, etc) provoca una devaluación del contexto de evaluación que desemboca en una evaluación injusta en cuanto a la individualización de los resultados.

La suma de ambas posturas están llevando a que buena parte del profesorado vuelva a ‘cuadernos del profesor’ alternativos, desde el papel hasta conocidas (y brillantes) Apps  Educativas. 

Vayamos con el primer obstáculo de “la interpretación oficial de la evaluación criterial”. El problema de la usabilidad señalado en el párrafo anterior. Como una y otra vez han escrito en las redes muchos docentes, los cálculos más conservadores nos sitúan en unas 800 notas por una unidad didáctica (cálculo para 120 alumnos/3 actividades evaluables/7 criterios). La carga administrativa-virtual es considerable, no obstante, en mi opinión no es el principal obstáculo. Aunque este sistema suponga n veces más trabajo que la evaluación sin criterios (donde n es el número de criterios empleado en las actividades evaluables), muchos docentes lo aceptaríamos con resignación. Pero el problema tiene un fondo didáctico más importante.

La devaluación del “contexto de evaluación”

Voy a poner un ejemplo (aburrido pero imprescindible) de evaluación en segundo de bachillerato para la asignatura de Historia de la Filosofía. Se trata del estandarizado examen de acceso a la universidad. Me permito poner este enlace sobre los proyectos que llevo a cabo con mi alumnado, para que quede claro que considero que hay maneras más creativas de evaluar al alumnado,  además de los imprescindibles exámenes 🙂 .

Es habitual pedir al alumnado que haga pruebas de este tipo en dos situaciones diferentes: en clase y en casa (como práctica). Ambos, lógicamente, se evalúan y suponen un buen ejercicio de cara a la importante prueba de acceso a la Universidad. Pues bien, cuando asocias esta actividad evaluable con los criterios correspondientes eliges (en ambos casos) exactamente los mismos. Esto es esperable puesto que el examen es igual. Ahora bien, el sentido común nos dice que no podemos darle el mismo valor. Sin embargo, eso es justo lo que hace Séneca. He puesto un ejemplo extremo (aunque real), pero se llega a la misma situación inquietante cuando asignamos el mismo criterio a una actividad individual que en grupo, a un trabajo realizado en casa que en clase, etc, etc. 

¿Por qué se llega a esta inconsistencia? Porque, al intentar evitar que el profesorado evalúe teniendo en cuenta ‘sólo los instrumentos’ se ha olvidado que el aprendizaje no se produce siempre en el mismo contexto y esto afecta a su evaluación. El ‘contexto de evaluación’ afecta al resultado final. 

Por ello muchos docentes intuyen que el instrumento utilizado en la evaluación también cuenta para determinar si un criterio de evaluación ha sido alcanzado por el alumno y se apresuran a ponderar ‘exámenes’, ‘trabajos’, etc. Esta opción ya no puede realizarse en el sistema de gestión Séneca. 

Llegamos pues a la siguiente situación: si evaluamos solo los instrumentos dejamos de lado los criterios de evaluación; si utilizamos “la interpretación oficial de la evaluación criterial” llegamos a inconsistencias educativas como la expuesta más arriba. 

¿Se puede plantear una alternativa que respete los criterios de evaluación?.

En mi opinión (y la de muchos compañeros con los que discuto estos temas) la solución está en que el sistema permita dos cosas. Por un lado, ponderar el contexto de evaluación (no voy a llamarlos instrumentos porque no refleja el argumento) y, por otra parte, seguir manteniendo el etiquetado de criterios de evaluación para cada actividad evaluativa. 

¿Qué hay del obstáculo administrativo-virtual?. ¿Vale la pena hacer 800 registros por  unidad didáctica?. 

Sigamos con el ejemplo propuesto del examen modelo de acceso a la Universidad. 

Los criterios de evaluación que se pueden vincular con esta prueba son:

Para simplificar no voy a entrar en la puntuación de cada pregunta que, desde acceso a la Universidad, está ya determinada de antemano y su posible interferencia en los pesos asignados a los criterios de evaluación en la programación de la asignatura.

Si presentamos sólo la puntuación correspondiente a cada criterio de evaluación, la corrección del examen deja de tener utilidad. Los criterios son tan extensos y ambiguos que no aportan información al alumnado. El alumno sigue mirando la puntuación de cada pregunta, para saber si tiene que mejorar el contexto cultural o la relación con otro autor. Pues bien, si al alumnado no le sirve (a los tutores legales ni se me ocurre plantearlo 🙂 ¿le resulta útil al docente?. 

Pues tampoco porque si califico el criterio de evaluación “Conocer el origen de la Filosofía en Grecia y comprender el primer gran sistema filosófico, el idealismo de Platón … “ estoy evaluando algo tan genérico que mis alumnos necesitarían una revisión personalizada del examen para saber qué tienen que mejorar de cara a la siguiente prueba. Es decir lo verdademente útil desde el punto del aprendizaje del alumno no es mostrarle la vinculación de la pregunta con un criterio de evaluación, sino mostrarle una rúbrica de corrección. Y eso NO se puede redactar en ninguna normativa. Es una buena práctica que ya realizan muchos docentes.

Algunos argumentarán que eso no es culpa del sistema sino de la redacción de los criterios pero, créanme, ocurre en todas las asignaturas. Llevaría décadas redactar criterios de evaluación concretos que asumiera de forma general toda la comunidad educativa que imparte una asignatura. Por eso se utilizan criterios de evaluación tan generales. 

La concreción sobre qué debe mejorar el alumnado la establece el docente en cada prueba utilizada: desde comentarios en un trabajo, hasta el glosario no utilizado en un examen. Esto es lo que resulta útil didácticamente al alumno y eso no se puede redactar previamente en ningún listado de criterios de evaluación.

¿Significa todo esto que no es posible una evaluación criterial útil? En mi opinión sí es posible pero hay que atender dos requisitos: ponderar los contexto de evaluación, y ‘etiquetar’ cada actividad evaluable con los criterios de evaluación, pero puntuar la actividad evaluable en su conjunto, fomentando el uso de rúbricas de corrección que no deben/pueden coincidir con los criterios de evaluación como una buena práctica.

La utilidad de etiquetar los criterios de evaluación sin calificarlos individualmente reside en que referenciamos nuestra evaluación a los contenidos estandarizados propiciando el acuerdo entre docentes que imparten la misma asignatura. Por ejemplo, si un docente de mi departamento no vincula ninguna actividad evaluable con el criterio “1.4 Utilizar las tecnologías de la información y la comunicación en la realización y exposición de los trabajos de investigación filosófica.” podemos debatir al respecto.

Me gustaría que la administración central educativa diera una respuesta intelectual (no un criterio de autoridad 🙂 ) a estas objeciones. El tiempo del profesorado y de los programadores que trabajan en Séneca supone un coste para el erario público que pagamos entre todos. Si los responsables directos de “la interpretación oficial de la evaluación criterial” mostraran capacidad para matizar sus opiniones en base a la práctica y el feedback recibido por el profesorado, estarían mostrando una flexibilidad acorde con una gobernanza educativa propia de la sociedad del conocimiento del siglo XXI.


Normativa de referencia

  • Ley Orgánica 8/2013 de 9 de diciembre para la mejora de la calidad educativa.
  • Real Decreto 1105/2014, de 26 de diciembre, por el que se establece el currículo básico de la Educación Secundaria Obligatoria y del Bachillerato.
  • Orden ECD/65/2015, de 21 de enero, por la que se describen las relaciones entre las competencias, los contenidos y los criterios de evaluación de la educación primaria, la educación secundaria obligatoria y el bachillerato.
  • Decreto 110/2016, de 14 de junio, por el que se establece la ordenación y el currículo del Bachillerato en la Comunidad Autónoma de Andalucía.
  • Decreto 327/2010, de 13 de julio, por el que se aprueba el Reglamento Orgánico de los Institutos de Educación Secundaria.
  •  Orden de 15 de enero de 2021, por la que se desarrolla el currículo correspondiente a la etapa de Bachillerato en la Comunidad Autónoma de Andalucía, se regulan determinados aspectos de la atención a la diversidad y se establece la ordenación de la evaluación del proceso de aprendizaje del alumnado.