En los últimos años, la evaluación lingüística con IA ha pasado de ser un concepto futurista a una realidad cotidiana, utilizada para todo, desde la creación de ítems y preguntas hasta la puntuación automática y la adquisición de competencias.
En el British Council, la utilizamos para hacer que nuestros exámenes de inglés con IA sean más atractivos y accesibles para las personas que los realizan, ayudándoles a mejorar su rendimiento.
Por ejemplo, nuestro Primary English Test incorpora puntuación automática y preguntas adaptativas, lo que significa que la dificultad de las preguntas cambia en tiempo real según el nivel del estudiante. Esto les ayuda a enfrentarse a desafíos adecuados a su nivel y evita que se sientan abrumados.
Sin embargo, persisten algunas preocupaciones éticas, como los sesgos culturales y algorítmicos, la privacidad de los datos y el riesgo de hacer trampas.
Para profundizar en estas cuestiones, hablamos con nuestro experto interno en IA, el Investigador Principal y Científico de Datos Mariano Felice. Además de investigar y desarrollar exámenes y evaluaciones con IA para el British Council, también estudia la enseñanza y evaluación de idiomas automatizadas en la Universidad de Cambridge.
Esto es lo que nos contó:
Evaluación con IA en el British Council
¿Cómo permite la IA crear materiales de prueba más auténticos, atractivos e interactivos?
Tecnologías como el reconocimiento de voz y la conversión de texto a voz permiten mantener conversaciones orales con una máquina, por lo que las evaluaciones se sienten más naturales. Usando Large Language Models y chatbots, incluso podemos generar voces artificiales con distintos acentos para que los estudiantes practiquen la comunicación con personas de diversos orígenes lingüísticos. Es una excelente forma de trabajar las habilidades de escucha y comunicación.
Para los redactores de ítems, la IA generativa puede acelerar la creación de contenidos, ya sean textos, imágenes o vídeos.
¿Cuáles son los beneficios de la puntuación con IA?
En primer lugar, es automática y rápida, por lo que podemos evaluar el rendimiento de una persona y proporcionarle resultados y comentarios muy rápidamente. También podemos evaluar simultáneamente a muchos estudiantes en diferentes ubicaciones, haciendo que los exámenes de alta calidad del British Council sean más accesibles. Y por último, garantiza resultados justos, coherentes y precisos, ya que eliminamos posibles sesgos humanos.
¿Qué habilidades evalúa mejor la IA?
Sin duda, la escritura, porque llevamos más tiempo trabajando con texto y es mucho más fácil de procesar que el audio. Existen herramientas como tokenizadores, etiquetadores y analizadores sintácticos desde hace décadas, y funcionan increíblemente bien, a veces incluso mejor que los humanos.
El audio presenta más retos tecnológicos. El reconocimiento de voz requiere modelos más complejos y una gran capacidad computacional. Afortunadamente, los últimos avances en deep learning han transformado este panorama, y cada vez vemos más mejoras. Esperamos que esto se traduzca en mejores sistemas de evaluación oral en los próximos años.
Superando los desafíos de la evaluación con IA
¿Cómo se evita que los exámenes con IA sean manipulados?
Hay varias medidas que podemos tomar. En primer lugar, implementamos múltiples variables para evitar que una o dos dominen el resultado y puedan ser manipuladas, como la longitud de un ensayo o el uso de vocabulario poco frecuente (es decir, escribir mucho o memorizar palabras rebuscadas). También podemos ajustar la ponderación de cada variable para modificar su impacto en la puntuación final. Por último, incorporamos mecanismos de detección de anomalías para identificar patrones inusuales en las respuestas, como palabras repetidas o valores extremos, y marcarlos para su revisión humana.
¿Cómo abordáis las cuestiones éticas de las pruebas con IA?
Seguimos el enfoque de Ética por diseño (Ethics by Design), que implica anticiparse a los problemas antes de que ocurran. Los pilares clave son: transparencia; privacidad y gobernanza de los datos; equidad; bienestar individual, social y medioambiental; respeto por la autonomía humana; y supervisión y rendición de cuentas.
Dos áreas problemáticas frecuentes son la equidad y la supervisión humana. La equidad significa minimizar los posibles sesgos hacia ciertas poblaciones, por ejemplo, estudiantes que obtienen puntuaciones más bajas por su origen o lengua materna. Por eso, nuestros datos de entrenamiento deben incluir muestras representativas de una amplia variedad de lenguas. También evitamos características del modelo que favorezcan a grupos concretos. Es fundamental realizar pruebas exhaustivas para detectar y eliminar comportamientos injustos.
Respecto a la supervisión humana —o su ausencia—, los sistemas de IA no son perfectos, por lo que siempre deben ser supervisados. Siempre debe haber una persona responsable del funcionamiento del sistema que pueda anular sus decisiones si es necesario. Un error podría tener consecuencias graves en la vida de las personas, así que debemos evitar decisiones automatizadas no supervisadas en contextos críticos.
La clave es recordar siempre que usamos la tecnología para apoyar nuestros objetivos educativos, no al revés. Nuestro enfoque es humano y centrado en el estudiante, no centrado en la tecnología.
Descubre más sobre nuestro enfoque de Ética por diseño en este vídeo.
Cómo desarrollamos nuestros exámenes con IA
¿Qué investigaciones se realizaron para desarrollar el Primary English Test y otros exámenes con IA?
El Primary English Test fue desarrollado por un equipo de expertos en la creación de exámenes para jóvenes estudiantes, junto con el equipo que tradujo esas especificaciones a una solución basada en IA.
Algunas de las funcionalidades clave utilizadas en el examen incluyen puntuación automática y reconocimiento de voz especializado para comprender el habla infantil. Para ello, creamos modelos —como cerebros artificiales— que aprenden a resolver tareas a partir del análisis de muchos ejemplos. Utilizamos más de 2.000 muestras de estudiantes de todo el mundo, en uno de nuestros mayores ejercicios de recogida de datos hasta la fecha. Desarrollar estos modelos conlleva mucha reflexión y experimentación antes de que estén listos para su uso.
¿Cómo y cuándo involucráis a los educadores en el proceso?
Siempre intentamos involucrar a todas las partes interesadas lo antes posible durante el desarrollo. Escuchamos a docentes, educadores y estudiantes, ya sea para diseñar un producto que permita practicar speaking en una situación concreta o para ofrecer retroalimentación específica sobre el rendimiento. Todo ello es clave para asegurar que nuestros productos responden a las necesidades educativas.
Además, todas las tareas de nuestros productos basados en IA se someten a pruebas piloto exhaustivas para garantizar que cumplen su propósito y funcionan como se espera. Solo después de la validación comenzamos a desarrollar el producto. Una vez terminado, lo volvemos a pilotar, supervisamos su uso y recopilamos comentarios para realizar los ajustes necesarios. Las voces de los usuarios siempre juegan un papel importante en la evolución de nuestras soluciones.
El futuro de la evaluación con IA es prometedor
Tanto si eres una persona entusiasta de la tecnología como si te cuesta confiar en ella, la evaluación lingüística con IA se está consolidando como una herramienta valiosa para el aprendizaje de idiomas con IA, y nosotros estamos comprometidos con su uso responsable.
De cara al futuro, se necesita más investigación en distintas regiones y niveles para que los resultados sean generalizables. También necesitamos más información sobre los retos que plantea la IA, su utilidad en el desarrollo de habilidades receptivas y cómo influyen determinadas herramientas en el aprendizaje a largo plazo.
En cuanto a nuestro trabajo actual, nos centramos en mejorar la calidad de los exámenes de competencia en inglés y su personalización a partir de información basada en datos y nuevas funcionalidades. También estamos desarrollando modelos basados en características para mejorar el rendimiento gracias a los datos recopilados, con mayor precisión y explicabilidad, y adaptamos nuestras pruebas de IA a nuevas regiones. Además, estamos investigando el uso de Large Language Models para evaluar habilidades de orden superior como la resolución de problemas y la competencia interaccional. Por último, estamos convencidos de que veremos pruebas con IA capaces de evaluar con precisión las cuatro destrezas lingüísticas.
Como dice Mariano: “En los últimos 10 años hemos avanzado más que en los 60 anteriores... Si seguimos a este ritmo, estoy seguro de que la IA podrá hacer muchas cosas en el futuro que hoy aún no puede.”
¡Sigue atento a las novedades!