Información de calidad en Internet: el modelado de temas

ENFOQUES Por Gustavo Lores *

Gustavo Lores

La búsqueda de información a través de Internet es una actividad que se ha convertido en hábito en diferentes situaciones. Ya sea a través de buscadores o bien de portales de noticias, pensamos que casi todo lo conocido se puede obtener desde la Red. Sin embargo, una enorme proporción de publicaciones son falsas o bien no han sido avaladas por especialistas en la materia.

El Doctor en Informática Federico Medrano, Docente e Investigador de la Facultad de Ingeniería de la Universidad Nacional de Jujuy, presentó en las Séptimas Jornadas de Innovación Educativa organizadas por esa Unidad Académica, durante diciembre de 2020, su producción "El modelado temático y el COVID-19: las facilidades de aplicarlo al momento de iniciar una investigación", que comparto con los lectores y que abre un campo para reflexionar sobre cómo manejamos o nos dejamos manejar por los datos.

El trabajo refiere específicamente a la organización y disponibilidad de datos relacionados con el virus SARS-CoV-2.

"La pandemia y sus consecuencias han supuesto múltiples y diversos cambios en las costumbres, hábitos y actividades de las personas, ciudades, gobiernos e industrias a nivel mundial.

Han surgido una gran cantidad de estudios académicos e informes de casos en las principales revistas científicas y médicas internacionales que abordan la evolución y los efectos del virus, así como los posibles factores de riesgo y los hallazgos clínicos. A primera vista parecería que mientras más publicaciones existan sobre un tema, más información se obtendrá del mismo. Sin embargo, a medida que el número de publicaciones relevantes aumenta, también aumenta la complejidad para tratarlas y analizarlas de forma manual y genera un desafío al momento de recuperar material relevante, ya sea que se trate de abordar una nueva investigación, una investigación relacionada o responder cuestiones relacionadas a este tema a partir del descubrimiento de nuevo conocimiento.

Como un mecanismo para poder agrupar las publicaciones científicas sobre COVID-19 de manera de facilitar el acceso a información veraz, se han propuesto soluciones basadas en desarrollo de sistemas de extracción de información, inteligencia artificial y minería de texto.

Una de ellas "Desafío de conjuntos de datos de investigación abiertos COVID-19 (CORD-19)", fue creada por el Instituto Allen de Inteligencia Artificial en asociación con la Iniciativa Chan-Zuckerberg, el Centro de Seguridad y Tecnología Emergente de la Universidad de Georgetown, el Instituto de Investigación de Microsoft, IBM y la Biblioteca Nacional de Medicina de los Institutos Nacionales de Salud de Estados Unidos de América, en coordinación con la Oficina de Política de Ciencia y Tecnología de la Casa Blanca. Ofrece más de 400.000 publicaciones clasificadas por disciplina, como ser infectología, genética, biología molecular, entre otras. Es de acceso libre y el origen de la información está garantizado por las respectivas revistas científicas de origen. Actualmente se cuentan más de tres millones de visitas al portal.

En el mismo sentido Elsevier, líder en información y análisis para clientes en los ecosistemas de investigación y salud global,puso a disposición el acceso gratuito a artículos relacionados con la pandemia -que actualmente superan los 20.000-con el objetivo de acelerar la lucha contra la enfermedad.

Elsevier aplica técnicas avanzadas de aprendizaje automático que detectan los temas de tendencia por dominio, lo que ayuda a los investigadores a tomar decisiones más informadas. Cada herramienta que desarrolla la compañía se basa en información confiable.

El análisis y procesamiento de grandes cantidades de texto no es una tarea sencilla. Encontrar relaciones o nuevos conocimientos entre millones de registros se torna impracticable sin recurrir a técnicas y algoritmos de Aprendizaje Automático y Procesamiento del Lenguaje Natural -dos áreas de la Inteligencia Artificial en pleno auge. Al respecto, una de las técnicas muy populares y que ha dado buenos resultados al analizar conjuntos enormes de datos es el "modelado de temas" o "topic modeling", un tipo de modelo estadístico para descubrir los temas abstractos que ocurren en una colección de documentos.

El modelado de temas es una herramienta de minería de texto de uso frecuente para el descubrimiento de estructuras semánticas ocultas en un cuerpo de texto. Estas operaciones se basan en la co - ocurrencia de palabras en los mismos documentos y permiten establecer conjuntos de palabras definitorias, con mayor o menor peso, de cada tema. La presencia de unas u otras palabras en cada documento permite también estimar el porcentaje que cada tema se presenta en el contenido. El modelado de temas sobre la bibliografía científica del COVID-19 aporta respuestas a diversos interrogantes, como por ejemplo las medidas a aplicar para contener los brotes."

Actualmente, el COVID-19 puso a la ciencia y a la tecnología en estado de alerta y movilización. La Informática, como disciplina transversal, está haciendo posible reducir los tiempos de búsqueda de información y análisis de datos a niveles incomparables en la historia de la Humanidad. De la misma manera en que se aplican por necesidad de supervivencia estos avances de la Informática para encontrar respuestas ante el coronavirus, cualquiera de nosotros tenemos al alcance información de calidad, verificada, de acceso libre y de cualquier disciplina. Es necesario aprender a encontrarla.

* Decano de la Facultad de Ingeniería de la Universidad Nacional de Jujuy