Wikipedia por dentro: diversidad cultural e inteligencia artificial [Seminario DigiDoc]

Asistentes al Seminario DigiDoc de abril 2019
Sesión de abril del Seminario DigiDoc. Fotos: Alejandro Morales Vargas.

Con más de 50 millones de artículos, 80 millones de usuarios y 294 versiones activas en 304 lenguas, Wikipedia no solo el quinto sitio más visitado del mundo, sino probablemente una de las creaciones de conocimiento colectivo más importantes de la humanidad.

Sobre la trastienda de esta popular enciclopedia libre, abordado desde dos perspectivas distintas, versó el último Seminario DigiDoc del Grupo de Investigación en Documentación Digital y Comunicación Interactiva de la Universitat Pompeu Fabra (UPF), efectuado el jueves 25 de abril.

Marc Miquel, doctor en Comunicación UPF y profesor de experiencia de usuario en Tecnocampus, presentó su proyecto Wikipedia Cultural Diversity Observatory: Un cas d’aplicació pràctica de l’anàlisi de dades per millorar la diversitat cultural a Viquipèdia [PDF]; y Diego Sáez Trumper, doctor en Tecnologías de la Información UPF e investigador en Wikimedia Foundation, presentó su ponencia Inteligencia artificial y la credibilidad de la información en internet [PDF].

Contenidos de contexto cultural en Wikipedia

Dr. Marc Miquel Ribé
Dr. Marc Miquel Ribé.

Pese a lo vasto de sus páginas, Wikipedia aún no refleja de manera suficiente la diversidad del mundo. Ya sea porque algunas expresiones culturales no están representadas o porque solamente figuran en algunos pocos idiomas.

Para intentar subsanar esta carencia, el investigador Marc Miquel obtuvo el apoyo de la Fundación Wikimedia y echó a andar en enero de 2018 el proyecto Wikipedia Cultural Diversity Observatory (WCDO), que tiene como objetivo ofrecer un espacio de trabajo conjunto para que investigadores y activistas estudien y luchen contra las lagunas de conocimiento y aumenten la diversidad cultural en los contenidos.

La iniciativa tiene cuatro líneas de acción: una primera, de índole discursiva; otra de toma de conciencia, sobre métricas y visualizaciones; luego una organizativa, con eventos y herramientas; y finalmente una de estrategia (objetivos y prioridades).

Un aspecto medular es el concepto de Contenido de Contexto Cultural (CCC), que alude a todo lo relativo a los hablantes de una lengua en un determinado lugar, como tradiciones, lenguaje, política, agricultura, biografías, lugares, eventos, entre otros. Alrededor de un 60% de las brechas de lenguaje se deben a CCC.

Para recolectar ese tipo de información, Miquel desarrolló una metodología para confeccionar un mapeo de lenguajes y territorios en Wikipedia, ya sea rastreando artículos geolocalizados o mediante búsquedas por palabras clave en el título.

Entre otras acciones, el proyecto propone que cada Wikipedia tenga al menos 100 contenidos sobre otros idiomas y lugares geográficos. Ello permitiría obtener casi 30.000 artículos para cubrir un mínimo de diversidad cultural en Wikipedia.

Inteligencia artificial: máquinas que toman decisiones

Dr. Diego Sáez Trumper
Dr. Diego Sáez Trumper.

No es extraño asociar el machine learning y la inteligencia artificial (IA) con aquella apocalíptica imagen de robots decidiendo por los humanos y aprendiendo de sus errores con el objetivo de acabar el mundo.

Para derrumbar ese mito, Diego Sáez Trumper, detalló las dos maneras como una máquina puede tomar decisiones: conociendo reglas predefinidas o aprendiendo de la experiencia, siendo esta última la usada en el 90% de los casos.

La diferencia fundamental con los humanos, explicó, es que los algoritmos de IA pueden procesar cantidades muchísimo más grandes de datos, con muchos parámetros y casos, de manera simultánea y en poco tiempo.

Lo ejemplificó con su trabajo de investigación en la Fundación Wikimedia con códigos y algoritmos, donde desarrolla, por ejemplo, una programación que automatiza la búsqueda de párrafos con afirmaciones sin fuente (cita requerida).

También con el mapa interactivo Wiki Atlas, que presenta un mismo plano en tres dimensiones, pero con información de las diferentes wikipedias. O una página que, de manera aleatoria, recomienda secciones desde donde se puede enlazar un artículo para enriquecerlo.

Sáez también presentó aplicaciones de la inteligencia artificial sobre las noticias en internet y la credibilidad de sus informaciones, como es el caso del estudio Social Media News Communities: Gatekeeping, Coverage, and Statement Bias [PDF] o el proyecto Sophia, que permite explorar el contenido publicado por los medios de prensa chilenos en las redes sociales y también hacer análisis sobre los mismos.

Casos de inteligencia artificial aplicada.
Casos de inteligencia artificial aplicada.