Ganan politécnicos primer lugar en certamen internacional de
detección automática de plagio

  • La tesis de Miguel Ángel Sánchez Pérez del CIC IPN con reconocimiento internacional es un valioso modelo e importante contribución para la detección automática de plagio.

 

Annette Schavan era en 2013 ministra federal de Educación e Investigación y una de las personas más cercanas a la Canciller de Alemania Angela Merkel, en febrero de ese año tuvo que renunciar a su cargo luego que las autoridades de la Universidad Heinrich-Heine de Düsseldorf anunciaran que le retiraban el grado de doctor por dictaminar que cometió plagio en su tesis de 1980.

Otros casos notables sucedieron con quien fuera ministro federal de defensa en Alemania, Karl-Theodor zu Guttenberg, quien también dimitió a su cargo en 2011, luego que se demostrara plagio en su tesis doctoral de 2006, y en 2012 Pál Schmitt quien fungía como presidente de Hungría renunció luego de que la Semmelweis University de Budapest le retirara el título de doctor por plagio en su tesis de 1992.

Actualmente Internet facilita el acceso a una enorme cantidad y diversidad de documentos, tan solo en Wikipedia hay disponibles más de cuatro y medio millones de artículos en inglés, más de un millón en español y millones en otras lenguas. Esto ha ido de la mano con el aumento en el plagio de ideas en todos los niveles, desde los alumnos de secundaria que cortan y pegan (copy-paste), hasta casos como los mencionados al inicio de este texto. La cultura del copy-paste está mermando una de las herramientas más importantes en la educación, el ensayo elaborado por los alumnos.

En 2003 la Academia Mexicana de Ciencias organizó el simposio "El papel de la ética en la investigación científica y la educación superior" del cual el Fondo de Cultura Económica editó un libro con mismo nombre y que contiene el capítulo “El que no transa no avanza: la ciencia mexicana en el espejo" en el que se incluye una encuesta entre investigadores, en la cual los consultados consideraron la falta de rigor, el fraude y el plagio como problemas éticos más frecuentes en la comunidad científica nacional.

El recurso de la computación
Descubrir un plagio implica buscar o conocer una gran cantidad de textos que serían las fuentes originales, ante esta dificultad, en el ámbito internacional se trabaja en modelos para la detección automática de plagio. Miguel Ángel Sánchez Pérez, Alexander Gelbukh y Grigori Sidorov del Centro de Investigación en Computación del Instituto Politécnico Nacional (CIC-IPN) obtuvieron el primer lugar en la categoría de alineación de textos en el 11th Evaluation Lab on Uncovering Plagiarism, Authorship, and Social Software Misuse (conocido como PAN). El modelo de detección de plagio elaborado por los politécnicos se impuso a los de países como Chile, Ucrania, Estados Unidos, España, Alemania, China y Reino Unido.

Se llama alineación de textos a la tarea de encontrar fragmentos de texto similares entre dos documentos dados. Por ejemplo, si el primer párrafo del texto corresponde al tercer párrafo del otro escrito. Ese es el objetivo del modelo, explica Sánchez Pérez: “Este fragmento de tal carácter a tal carácter corresponde a este otro fragmento de otro documento de tal carácter a tal carácter”.

Para poder competir, el modelo tiene que llevarse a un sistema o software que tiene que ser muy eficiente, porque se evalúan miles de documentos, se hacen miles de comparaciones entre documentos en busca de fragmentos plagiados. En el PAN (el certamen) se proporciona a los equipos un corpus (base de datos) aproximado de 5 mil pares de documentos a comparar, los cuales pueden, o no, contener plagio.

Sobre el proceso del concurso Sánchez Pérez comenta: “Se proporciona un par de documentos y el modelo tiene que encontrar los fragmentos similares entre ellos. Para evaluar qué tan bien encontramos un par de fragmentos similares, las medidas usadas son: precisión y exhaustividad. Precisión se refiere a cuántos caracteres del fragmento que detecté realmente fueron plagiados; mientras que exhaustividad se refiere a cuántos, de la cantidad de caracteres que fueron plagiados, detecté. En la combinación de esas dos medidas fue donde nuestro modelo ganó”.

El modelo fue desarrollado para la titulación de Miguel Ángel como Maestro en Ciencias de la Computación, su tesis fue asesorada por los doctores Grigori Sidorov y Alexander Gelbukh ambos profesores del Laboratorio de Procesamiento de Lenguaje Natural en el CIC-IPN. Recientemente este trabajo obtuvo el segundo lugar nacional en el Concurso de Mejor Tesis en Inteligencia Artificial, que organiza la Sociedad Mexicana de Inteligencia Artificial (SMIA).

Aunque al inicio de la maestría Sánchez Pérez pensaba orientar su trabajo hacia la traducción automática, durante el segundo semestre reoriento su línea de estudio, producto de una estancia de mes y medio que realizó en la Universidad del Egeo en Grecia, sobre este tema conversa: “Me mandaron a Grecia y estuve con el doctor Efstathios Stamatatos que me puso a trabajar en todo esto del plagio, me motivó mucho que se contaba con recursos para trabajar, había bases de datos, una competencia en la que se podía participar y eso ayuda mucho a la investigación porque te puedes comparar contra otros modelos y ver que tan buenos son tus sistemas o tus algoritmos”.

Ya existen sistemas, incluso comerciales, para revisar si hay plagio en textos, pero las empresas no dan detalles de sus técnicas, ante esto en el trabajo de Miguel Ángel tuvo que avanzar con base en prueba y error. Ahora que el modelo fue evaluado en el PAN y resultó mejor a los otros se da cuenta de los alcances que esto podría tener: “El sistema podría usarse, por ejemplo, en un administrador de bases de datos de Scopus o de Thomson & Reuters. Cuando se publica un documento el sistema es capaz de decir a que documentos se parece y solicitar al editor que lo verifique. Es difícil que un sistema diga con 100% de certeza que hay plagio, hace falta la intervención de un humano, pero el sistema puede ayudarle a encontrar textos que quizá no había considerado y con fragmentos específicos para hacerlo más rápido.”

Además de la detección de plagio el modelo puede ayudar a la construcción de sitios de contenido colectivo, como Wikipedia, en donde muchas personas pueden escribir artículos, pero se elaboran numerosos contenidos sobre el mismo tema, el modelo podría informar al que escribe si su texto es único o si tiene tales similitudes y se podría integrar a otro.

No todos los participantes del PAN dan a conocer cómo obtienen sus resultados, aunque si son validados por una organización externa, sobre este punto Sánchez Pérez comenta: “Nosotros tenemos el código abierto en una página del doctor Alexander Gelbukh, cualquier persona puede acceder para usarlo, sólo tiene que citar el artículo. Esa también es parte de la labor científica, no quedarnos el sistema, cualquier persona puede seguir investigando y usar alguna de sus funciones para hacer un modelo propio o mejorarlo, hay dos vertientes, una que quiera mejorar el modelo y otra que quiera mejorar la eficiencia del sistema, es una cuestión que puede ser importante para un estudiante de ingeniería”.

Ahora Miguel Ángel inició el doctorado en Ciencias de la Computación en el CIC-IPN, por lo pronto acudió a presentar el modelo en la conferencia que organiza el PAN del 15 al 28 de septiembre en Sheffield, en Reino Unido y realizó una estancia con el doctor Paolo Rosso en la Universidad Politécnica de Valencia, sobre sus actividades comenta: “Parte de la propuesta de tesis doctoral, es hacer más profesional nuestra detección de plagio, atacar la parte de detección de paráfrasis, que es muy difícil. Nosotros verificamos si existe o no una palabra y hasta qué grado se parece una oración, pero qué pasa cuando se usan otras palabras, sinónimos u otra estructura sintáctica, es una cuestión más compleja, lo que vamos a hacer es agregar la detección de paráfrasis. Podemos tener como base lo que hicimos en maestría, reducir nuestro espacio de búsqueda y luego aplicar métodos más complejos, con el doctor Rosso fui a trabajar sobre la parte de detección de plagio enfocado a la detección de paráfrasis”.


El fraude científico se ha multiplicado por 10 desde 1975, de acuerdo a una investigación publicada en octubre de 2012 en la Proceedings of the National Academy of Sciences. Para combatirlo ya hay algunas opciones de detectores automatizados en el mercado pero será muy importante que estos modelos lleguen hacia sistemas más sencillos que ayuden también a maestros de todos los niveles y se pueda recuperar la elaboración de ensayos como herramienta fundamental para la educación. Así que la detección automática de plagio tiene por delante un campo amplio y en el CIC-IPN se desarrolla trabajo de vanguardia y de calidad internacional.