El pasado 4 julio, mientras estaba enfrascado en la memoria de autoevaluación de mi IES,  me escapé a Granada para escuchar algo sobre Big Data en Educación en la Learning Week. Da envidia sana este tipo de actividades, abiertas, interdisciplinares e interniveles que viene organizando con entusiasmo Esteban Romero @polisea en la Universidad de Granada, y que apenas tiene imitación en otras universidades  (al menos no en mi zona).

La charla, en concreto, corría a cargo de Cristóbal Romero  quien lleva una década detrás de este tema. La verdad es que intimida la profundidad del análisis: correlaciones, granularidad, ontología, algoritmos, discretizar, etc. Y no sólo hay ambición técnica, se quiere llegar a predecir éxito escolar, atender singularidades, diversificación, reconocer buenas prácticas, etc. Casi todos los ejemplos tenían como fuente de datos cursos on line, en muchas ocasiones, Moodle. Sin embargo, estos estudios suelen tener una intención generalista. No se trata sólo de extraer conclusiones sobre aprendizaje on line; se habla de predecir comportamiento de alumnado, localizar los mejores recursos, prácticas de éxito para el profesorado, etc; todo esto implica una decidida finalidad pedagógica y metodológica.

El problema, en mi opinión, es que los datos más relevantes desde el punto de vista educativo no se extraen (por ahora) de actividad on line sino de ámbitos off. Basta tomar como ejemplo la enseñanza no universitaria en Andalucía y hacer cuentas: millón y medio de estudiantes, cien mil profesores, más de 5000 centros, etc. Si cruzamos todo esto con calificaciones, pruebas de diagnóstico, actividades formativas, índice socio cultural y económico, promociones, titulaciones, etc, sumamos millares de ítems para ser analizados. Estos datos no son resultado de actividad on line, pero son el registro general de nuestro sistema educativo y es mucho más significativo.

Desde una perspectiva más micro-educativa, a principios de Julio, los IES hemos recibido de la AGAEVE los resultados de los indicadores homologados. Más de 30 páginas con datos para reflexionar sobre lo que se puede mejorar en el centro y escribirlo en la memoria de autoevaluación. Este curso se ha hecho un mayor esfuerzo (nada del otro mundo, pero se avanza) en la visualización de datos. Ahora se ofrecen tendencias de los tres últimos curso y relevancia contextualizada al  ISC (índice socioeconómico y cultural). Sin embargo, todavía es un poco penoso recibir informes en pdf sin posibilidad de exportación más amigable para su análisis (csv, etc)

Es cierto que una gran parte del profesorado se mantiene escéptico sobre la utilidad analizar datos globales, y sólo cree en la perspectiva aula-departamento-centro. Sin embargo, es claro que la sociedad en general y la administración en particular, no puede dejar de lado esta perspectiva MACRO para hacer análisis del sistema educativo. Los ciudadanos tenemos el derecho y la necesidad de hacernos preguntas globales sobre nuestra actividad educativa e intentar responderlas de la manera más fiable posible.

Creo que en este terreno la minería de datos educativa puede aportar mucho, sin embargo, no es un problema a resolver sólo desde un punto de vista técnico; requiere la orientación que ofrece la experiencia didáctica para enfocar correctamente. De lo contrario, aplicaríamos un microscopio de formidable potencia sin saber exactamente lo que buscamos. La AGAEVE tiene, o mejor dicho, en nuestro sistema Séneca tenemos, la colección de datos de calidad más importante sobre un sistema educativo que se haya tenido nunca. Sería una lástima no enfocar sobre estos datos toda la potencia de análisis que empieza a ofrecer la minería de datos educativa y ver qué pasa. Es claro que la interpretación, como en todas las ciencias sociales, es delicada y controvertida. Pero sería un despropósito no utilizar este tipo de herramientas sobre estos datos y aplicarla sólo en logs de cursos on line bajo Moodle.

Propuesta aplicar #BigDataSobreSéneca