AIkuaa, un proyecto para enseñar Guaraní a la Inteligencia Artificial

La comunidad de El Surti está ayudando a construir tecnología más inclusiva a través del entrenamiento de un chatbot y la recolección de datos de voces. Conocé los detalles y sumá tu voz.

AIkuaa es una iniciativa para crear y fortalecer datos abiertos de voz en guaraní, uno de los idiomas oficiales de Paraguay y una de las lenguas nativas más habladas de Sudamérica.

Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) han ampliado la brecha digital, ya que las lenguas predominantemente orales como el guaraní están severamente subrepresentadas por la falta de datos de entrenamiento. Esto deja a casi 7 millones de hablantes en Paraguay, Bolivia y Argentina aún más vulnerables a la desinformación, la exclusión digital y el debilitamiento de sus derechos lingüísticos.

Nuestro objetivo es simple pero ambicioso: que las tecnologías de voz (desde el reconocimiento de habla hasta los asistentes con IA) puedan entender y hablar guaraní.

¿Cómo lo estamos haciendo?

 

  • Organizando mingas (hackatones comunitarios enraizados en tradiciones latinoamericanas de trabajo colectivo) para poblar el conjunto de datos de Common Voice de Mozilla con audios en guaraní.

  • Entrenando modelos de IA para comprender el guaraní oral, usando los aportes que recopilamos en las mingas.

  • Integrando este trabajo con un chatbot capaz de procesar guaraní hablado para interactuar con nuestra comunidad en su propio idioma.

  • Construyendo un repositorio abierto de conocimiento para que organizaciones y medios puedan responder mejor a audiencias que usan lenguas orales.

En definitiva, se trata de diseñar infraestructura cultural: no solo para que las personas contribuyan a la IA, sino para que puedan moldearla a nivel sistémico.


SurtiLab-GTranscriptor 
Open Source API

En esta documentación técnica presentamos en detalle el funcionamiento de la API abierta SurtiLab-GTranscriptor, que permite transcribir audios en guaraní a texto usando el modelo wav2vec2-xlsr-300m-guarani.

Guía para organizar una minga de voces abiertas

En esta guía explicamos cómo organizar una minga de voces abiertas, un espacio colaborativo donde la comunidad graba y valida frases en guaraní para enriquecer los conjuntos de datos públicos de voz y fortalecer la presencia de lenguas orales en la inteligencia artificial.

𖤓
Este proyecto es posible gracias al apoyo del JournalismAI Innovation Challenge
Dirección editorial:
Jazmín Acuña · Comunidad y recolección de datos: Laila Bareiro · Project Manager: Sebastián Auyanet · Diseño Conversacional: Sebastián Hacher & Axel Marazzi · Desarrollo de Bot & IA: Neyen Luchelli · Diseño de producto: Alejandro Valdez Sanabria · Pytyvõháras: Alexis Leiva, Richard Gómez, Federico Boltes, Circe Portillo, Mirna Armoa, Ángel Ñamandú, Maria Eugenia Silvero, Lucas Forneron, Cecilia Samudio & Elizabeth Bareiro Riquelme