Sociedad y Justicia
Ver día anteriorDomingo 7 de mayo de 2017Ver día siguienteEdiciones anteriores
Servicio Sindicado RSS
Dixio

Detecta la similitud de oraciones en diferentes textos

Desarrollan en la UNAM un software que ayudará a combatir el copy-paste
 
Periódico La Jornada
Domingo 7 de mayo de 2017, p. 29

Especialistas de la Universidad Nacional Autónoma de México (UNAM) están desarrollando una herramienta para combatir el llamado copy-paste.

Símil es el nombre de un software –aún prototipo– que detecta la paráfrasis o similitud de oraciones en diferentes textos y los ordena y categoriza de mayor a menor.

Gerardo Sierra Martínez, titular del Grupo de Ingeniería Lingüística del Instituto de Ingeniería de la UNAM, explicó que se pretende detectar semejanzas en textos, aunque las ideas no se expresen con las mismas palabras.

El programa compara un par de documentos para saber si hay similitud y paráfrasis. No dictamina si se cita o no, si se viola el derecho de autor. Simplemente determina: “Este texto es similar a este otro. Eso es todo.

Puede que leamos todo un documento y retomemos una idea de un párrafo y una más de otro, y las combinemos para crear un texto propio. Eso es paráfrasis; es reutilizar información que se tiene de otro escrito, explicó.

El abordaje de Símil para buscar textos coincidentes es complejo, “porque se indagan caracteres y se encuentran aquellos que están escritos tal cual en una oración.

Las personas utilizan sinónimos, pero los sustantivos, que son las palabras clave, difícilmente saben decirlas de otra manera. Por eso es importante indicar que el texto o idea mencionada no es propia, apuntó el académico.

Para probar el programa se hizo un corpus propio de paráfrasis. “Regularmente se ensaya con los encabezados de las noticias. En nuestro caso fue con un texto sobre la historia del sushi extraído de Wikipedia. Es un escrito relativamente pequeño, de 27 frases, y se le proporcionó a varias personas (expertos, estudiantes e incluso niños) para que lo parafrasearan bajo ciertas condiciones.

Detección objetiva

Logramos que nuestro método hiciera una detección objetiva, pues mediante el uso de matemáticas, números y ciencia no hay manera de mentir al comparar automáticamente textos o corpus paralelos. Así se determina cuáles son las palabras emparentadas, es decir, la similitud textual, subrayó.

El programa universitario sistematiza las frases y muestra en una tabla en roja las que tienen mucha cercanía con el texto original, en amarillo las que tienen menor grado y en gris las que casi no tienen similitud.

Sierra Martínez ejemplificó con una oración que tiene poca paráfrasis del mencionado texto de Wikipedia. La original dice: El resultado era un pescado conservado en una pieza y con un olor desagradable, y la frase parafraseada plantea: Lo que concluyó que el pescado conservado tiene mal olor y en una sola pieza.

Según el integrante del Instituto de Ingeniería, se ha incrementado la reutilización de frases e información. Se ha vuelto un hábito desde la educación básica. A los niños les dicen que si sacan información de Internet no hay problema.

Entonces, aunque alguien transcriba una tesis con sus palabras de principio a fin y le añada citas e información, incluso se usen recursos para simular que se trata del mismo documento, siempre habrá cierto léxico que coincidirá.

La investigación se realiza con patrocinio del Consejo Nacional de Ciencia y Tecnología y deriva de otra que se emprendió hace cuatro años en la licenciatura en ciencia forense de la UNAM y las universidades de Avignon y Pompeu Fabra.

“La aportación de esta herramienta no será tan positiva para la gente que está acostumbrada a parafrasear, pero será benéfica en el ámbito académico para que los alumnos aprendan a citar lo que toman de otro documento y sepan plantear referencias adecuadas.

No es malo copiar y pegar, siempre y cuando se lleve a cabo dentro de ciertos límites. Símil es un proyecto de largo aliento que requiere auspicio y apoyo financiero para su continuidad, concluyó.