Escudo de la República de Colombia Escudo de la República de Colombia
UN Periódico Digital

Resultados de Búsqueda:

UN Periódico Digital
Las matemáticas al servicio del lenguaje

El nuevo método facilita comparar textos con mayor precisión que con los procedimientos convencionales. La innovación permite mejorar la calidad de las traducciones de idiomas, la coincidencia de bases de datos, la recuperación rápida de información en motores de búsquedas y el reconocimiento de voz.

La “cardinalidad suave” consiste en contar elementos no repetidos, lo que contribuye a detectar la similitud semántica en conjuntos de datos amplios. Este es el resultado de la investigación realizada por Sergio Gonzalo Jiménez Vargas, doctor en Sistemas de la Universidad Nacional de Colombia (UN).

El procesamiento del lenguaje natural es un conjunto de técnicas empleadas para que las máquinas “entiendan” y procesen el lenguaje humano. Su fin último es posibilitar la comunicación entre los seres humanos y las máquinas, lo que antes solo existía en la ciencia ficción. De hecho se han logrado avances como la traducción automática y el reconocimiento de voz mediante aplicaciones que sirven de asistentes personales y que están disponibles en los teléfonos celulares.

“Mi trabajo de investigación nació de un problema que se presentó en la Universidad Nacional cuando en la base de datos de inscripciones el campo de ‘Residencia’ era abierto.

“De alguna manera la computación no es accesible para todas las personas, por asuntos de la interfaz. Cuando no haya pantallas, teclados ni ratones será accesible para todas las personas, como los adultos mayores o quienes tienen alguna discapacidad visual o auditiva” asegura el doctor Jiménez Vargas. “Poder hablar realmente con la máquina logrará la computación para todos”, afirma.

Para un problema, una solución

“Mi trabajo de investigación nació de un problema que se presentó en la Universidad Nacional cuando en la base de datos de inscripciones el campo de ‘Residencia’ era abierto. Lo que ocurre en las bases de datos es que la misma palabra puede ser escrita de múltiples maneras. Por ejemplo, hay más de 100 maneras de escribir la palabra Bogotá: con Santa Fe, con tilde, sin tilde, con Distrito Capital, etc. La comparación rígida exige una coincidencia exacta, mientras que la manera suave es más flexible. Este método de cardinalidad funcionó para resolver el problema” explica el ingeniero al recordar cómo nació la pregunta de su investigación.

Frente al problema de los datos repetidos en la base, “se nos ocurrió comparar los textos con cardinalidad, es decir indicar cuántos elementos hay en común dentro del conjunto, aunque no sean exactos”.

Junto con los ingenieros Alexander Gelbukh (México) y Fabio González (Colombia), directores de la investigación, “observamos que la comparación de conjuntos no tiene en cuenta los elementos parecidos”. La serendipia (hallazgo por casualidad) ocurrió en este caso porque se observó que el método de cardinalidad suave no cumplía la propiedad de monotonicidad, es decir que “lo que habíamos encontrado fue una medida de diversidad, no solo una manera de contar”, señala el investigador.

Según Jiménez, cuando estaba investigando la cardinalidad suave encontró un artículo en la revista Ecology (2014), en el que un grupo de investigadores de la Universidad de Glasgow proponía un modelo semejante a la cardinalidad suave, aplicado a la similitud entre las especies para compararlas con los ecosistemas.

“En ese momento sentí pánico, porque si estás haciendo un doctorado tienes que proponer algo nuevo. Pensé que mi método no era nuevo, pero luego pude verificar que el artículo de la revista había sido publicado después de la publicación de los primeros artículos sobre cardinalidad suave”. Esto se convirtió en una ventaja para mi trabajo, que fue reconocido como meritorio.

La lista original propuesta por Morris Swadesh, lingüista estadounidense-mexicano, incluía unos 200 términos que compiló en las décadas de los años cuarenta y cincuenta con el fin de comparar lenguas.

En su rol de profesor, el doctor Jiménez ha interactuado con lingüistas, de los que ha recibido aportes para perfeccionar el método de cardinalidad. Junto con otros estudiantes, el investigador participó en desafíos sobre similitud de textos y ubicó la lista de Swadesh, un vocabulario básico formado por palabras comunes existentes en cualquier lengua humana, como por ejemplo mano (en español), hand (inglés), main (francés). La lista original propuesta por Morris Swadesh, lingüista estadounidense-mexicano, incluía unos 200 términos que compiló en las décadas de los años cuarenta y cincuenta con el fin de comparar lenguas.

Finalmente el investigador se dio cuenta de que “hay un idéntico más idéntico que otro idéntico. Una forma de explicarlo es aquel famoso concurso de imitadores de Charles Chaplin en el que el mismo actor y humorista se presentó y no ganó porque el jurado consideró que había un Chaplin más idéntico que el original”.

Relacionados

127,1194,1195,1196,887,1197,9

Hasta en 21 grados suben las láminas de fibrocemento usadas en viviendas de interés social (VIS) la temperatura en su interior. Así lo detectó una...

Aquitania, Duitama y Samacá cuentan con condiciones favorables para esta fuente de energía renovable. Así lo estableció una investigación de la...

Chiribiquete es el parque nacional natural de selva húmeda tropical más grande del continente declarado recientemente por la Unesco como Patrimonio de...

La variedad de los vistosos pájaros de colores corresponde a 44 familias, ubicadas en un 90% en los corregimientos de Potrerillo y Tablones del...

Disfrute una de las piezas magistrales interpretada por la Orquesta Sinfónica Capital durante su temporada de conciertos 2018. Piezas de Pedro Morales...

Consejo Editorial