Proyectos del Hackathon #Somos600M

¡Te presentamos los proyectos de la edición 2024 de nuestro hackathon!

María Grandury· 23 abr 2024· 3min

¿Tienes curiosidad por ver los proyectos que se han desarrollado durante el Hackathon #Somos600M? ¡Aquí están!

👏 Un total de 19 proyectos de PLN en español enfocados en modelos de lenguaje que siguen instrucciones, ¡enhorabuena a todos los equipos!

🎦 Los vídeos de las presentaciones están disponibles enesta playlist de YouTubejunto a los talleres y charlas de especialistas celebrados durante el hackathon.

🤗 Todos los recursos están disponibles en el Hub de Hugging Face:hf.co/somosnlp

Esperamos que os gusten y que surjan muchas aplicaciones utilizando estos nuevos recursos abiertos 💛

Proyectos del Hackathon 2024

Y… 🥁🥁🥁

Los tres proyectos ganadores son:

  • 🥇 NoticIA: Resumen de Noticias Clickbait
  • 🥈 AsistenciaRefugiados: Asistencia legal para refugiados
  • 🥉 TraductorInclusivo: Reescritura de textos utilizando lenguaje inclusivo

Y el proyecto más querido por la comunidad es:

  • 💛 AviaciónInteligente: Navegación del Reglamento Aeronáutico Colombiano

Mención especial a los proyectos:

  • 👏 ThinkParaguayo: Conoce la cultura guaraní
  • 👏 LenguajeClaro: Simplificación de lenguaje administrativo
  • 👏 BERTIN-ClimID: BERTIN-Base Climate-related text Identification

Y a los corpus:

  • 📚 SMC: Spanish Medical Corpus
  • 📚 RecetasDeLaAbuel@: Corpus de recetas de países hispanoamericanos
  • 📚 LingComp_QA: Un corpus educativo de lingüística computacional en español
  • 📚 KUNTUR: Constitución política de Perú de 1993
  • 📚 Identificación de provincias y resúmenes del Corpus Oral y Sonoro del Español Rural

¡Enhorabuena a tooodos los equipos!


🥇 NoticIA: Resumen de Noticias Clickbait

Un dataset para el resumen de artículos clickbait en español.

La práctica del Clickbait erosiona la confianza del público en las fuentes de noticias digitales y perjudica los ingresos publicitarios de los productores de contenido legítimo, que pueden experimentar una disminución en su tráfico web como resultado. Para abordar este desafío, hemos creado un corpus con 850 artículos de noticias clickbait en español. Cada artículo está acompañado de un resumen generativo de alta calidad y concisión, redactado por expertos humanos.

ODS:8. Trabajo decente y crecimiento económico

Proyecto:

¡Enhorabuena equipo!

  • Iker García-Ferrero
  • Begoña Altuna

🥈 AsistenciaRefugiados: Asistencia legal para refugiados

Asistente legal para personas en situación de refugio o asilo político.

España es el tercer país con mayor número de solicitudes de asilo, recibiendo cada año aproximadamente más de 100.000 solicitudes, y el tercero con menor número de aprobaciones dentro de la UE.

El objetivo principal de este proyecto es facilitar las tareas de las ONG de este ámbito y de otras instituciones y ayudarles a obtener respuestas a preguntas (QA) relacionadas con la legislación sobre refugiados en español. Con su refinada comprensión de los matices y complejidades de este campo legal.

ODS:10. Reducción de las desigualdades 16. Paz, justicia e instituciones sólidas

Proyecto:

¡Enhorabuena equipo!

  • Eduardo Muñoz Sala
  • Álvaro Hidalgo
  • Teresa Martín

🥉 Traductor-Inclusivo: Reescritura de textos en español utilizando lenguaje inclusivo

Herramienta que permite reescribir textos en español utilizando lenguaje inclusivo.

El lenguaje o palabras que utilizamos muchas veces pueden imponer sesgos, ideologías o marginar a determinados grupos. “Traductor-Inclusivo” es una herramienta que permite reescribir textos utilizando lenguaje inclusivo ofreciendo una opción para evitar dichos sesgos.

ODS:5. Igualdad de género

Proyecto:

¡Enhorabuena equipo!

  • Andrés Martínez Fernández-Salguero
  • Gaia Quintana Fleitas
  • Miguel López Pérez
  • Imanuel Rozenberg
  • Josué Sauca

💛 AviaciónInteligente: Uso de LLMs para Facilitar la Navegación del Reglamento Aeronáutico Colombiano

Investigación que utiliza modelos de lenguaje de última generación para mejorar la comprensión y navegación del Reglamento Aeronáutico Colombiano (RAC), con el objetivo de facilitar el acceso a la información y mejorar la seguridad en la aviación civil.

El proyecto “Aviación Inteligente: LLMs para Navegar el RAC” está revolucionando el acceso al Reglamento Aeronáutico Colombiano a través de tecnologías avanzadas de Modelos de Lenguaje. Con la colaboración de la Fundación Universitaria Los Libertadores y un equipo de expertos anotadores, hemos creado y etiquetado 24,000 entradas curadas en nuestro dataset. Además, hemos realizado un afinamiento (finetuning) del modelo GEMMA 2B IT ColombiaRAC, optimizado específicamente para navegar eficazmente a través de las regulaciones aeronáuticas. Este enfoque no solo facilita las consultas normativas sino que también democratiza el conocimiento en la industria, haciendo la información aeronáutica accesible a un público más amplio y reduciendo las barreras de entrada en el campo. Este proyecto es un paso hacia un futuro donde el acceso y comprensión de las regulaciones aeronáuticas son más simples y abiertos para todos.

ODS:4. Educación de calidad, 9. Industria, innovación e infraestructura

Proyecto:

¡Enhorabuena equipo!

  • Edison Jair Bejarano Sepulveda
  • Alec Mauricio Rosales Cabezas
  • Santiago Pineda Montoya
  • Nicolai Potes

ThinkParaguayo: Conoce la cultura guaraní

Tenemos la misión de expandir la cultura guaraní mediante la IA.

La cultura guaraní tiene una riqueza increíble, que merece ser preservada y contada a las nuevas generaciones. Think Paraguayo es un proyecto destinado a promover y difundir la cultura guaraní utilizando la inteligencia artificial como herramienta principal. El objetivo es crear conciencia sobre la riqueza cultural del Paraguay y preservar la lengua y las tradiciones guaraníes.

ODS:4. Educación de calidad

Proyecto:

¡Enhorabuena equipo!

  • Enrique Paiva
  • Daniel Cabrera
  • Leticia Bogado
  • Alberto Benítez
  • Emmanuel

LenguajeClaro: Simplificación de lenguaje administrativo

Este modelo es el primer paso hacia un modelo de lenguaje que pueda usarse para reescribir textos de carácter administrativo con el objetivo de hacerlos más asequibles para todo el mundo.

ODS:9. Industria, innovación e infraestructura, 10. Reducción de las desigualdades

Proyecto:

¡Enhorabuena equipo!

  • Sergio Chicón Repiso
  • Rubén Rodríguez de la Fuente
  • Marta Fernández Gómez

BERTIN-ClimID: BERTIN-Base Climate-related text Identification

Identificación de textos sobre sustentabilidad y cambio climático

Motivados por la idea de crear una repositorio en español sobre información o recursos en temas como cambio climático, sustentabilidad, calentamiento global, energía, etc. La idea es dar visibilidad a soluciones, ejemplos de buenas prácticas ambientales o noticias que nos ayuden a combatir los efectos del cambio climático.

ODS:13. Acción por el clima

Proyecto:

¡Enhorabuena equipo!

  • Gabriela Zuñiga
  • Gerardo Huerta

SpanishMedicaLLM & SMC: Spanish Medical Corpus

Creación de un LLM para dar soluciones y servicios de información de salud en LATAM.

El objetivo de este proyecto es crear un gran modelo de lenguaje (LLM; siglas en inglés) para el contexto médico en español permitiendo crear soluciones y servicios de información de salud en LATAM. El modelo contará con información de medicinas convencionales, naturales y tradicionales. Un resultado del proyecto es un conjunto de datos público del dominio médico que agrupa recursos de otras fuentes que permite crear o ajustar LLM . Los resultados del desempeño del LLM se comparan con otros modelos del state-of-the-art como BioMistral, Meditron, MedPalm.

ODS:3. Salud y bienestar

Proyecto:

¡Enhorabuena equipo!

  • Dr. Dionis López Ramos
  • Alvaro García Barragan
  • Dariel Cabrebra
  • Dylan Montoya
  • Daniel Bermúdez

RecetasDeLaAbuel@: Corpus de recetas de países hispanoamericanos

El corpus ‘RecetasDeLaAbuel@’ es un homenaje a todas nuestr@s abuel@s que nos han enseñado a cocinar. Se trata de la mayor y más completa colección de recetas en español de países hispanoamericanos.

Nuestra misión es la creación de una IA en español que agrupe recetas de países hispanoamericanos y permita mejorar nuestra relación con la preparación y el cocinado de los alimentos. El objetivo final es la construcción de un asistente de cocina inteligente específico del idioma español.

ODS:3. Salud y bienestar

Proyecto:

¡Enhorabuena equipo!

  • roverico
  • Óscar
  • Gabriel
  • Sara
  • Fredy

ComeBien: Asistente de nutrición inteligente

ComeBien es un asistente de nutrición inteligente específico del idioma español que permite ayudarnos a comer de una manera saludable.

Nuestra misión es la creación de una IA en español que complemente recetas de países hispanoamericanos con su valor nutricional y permita mejorar nuestra relación con la comida. El objetivo final es la construcción de un asistente de nutrición inteligente específico del idioma español.

ODS:3. Salud y bienestar

Proyecto:

¡Enhorabuena equipo!

  • roverico
  • Andrea

LingComp_QA: Un corpus educativo de lingüística computacional en español

LingComp_QA es un primer acercamiento que hemos hecho a la recolección de información sobre lingüística computacional, ya que consideramos que no hay suficientes recursos educativos en torno a este tema. Tenemos intención de ampliarlo y crear un modelo para alumnos de Lingüística y otros interesados en ponerse al día en PLN.

ODS:4. Educación de calidad, 9. Industria, innovación e infraestructura

Proyecto:

¡Enhorabuena equipo!

  • Jorge Zamora Rey
  • Mario Crespo Miguel
  • Isabel Moyano Moreno

KUNTUR: LLM de asistencia legal en textos jurídicos de Perú

El proyecto KUNTUR busca abordar la brecha de acceso a la información legal en Perú, especialmente para comunidades rurales y personas sin experiencia en derecho. Su objetivo es desarrollar un modelo de lenguaje especializado que haga que la ley sea más comprensible y accesible para todos, capacitando a individuos con conocimientos legales para tomar decisiones informadas y proteger sus derechos.

ODS:16. Paz, justicia e instituciones sólidas

Proyecto:

¡Enhorabuena equipo!

  • David Alonso Quispe Castillo

Identificación de provincias y resúmenes con el COSER

En este proyecto se han generado dos corpus de instrucciones para la identificación de provincias de hablantes y resumen de las entrevistas basándose en el Corpus Oral y Sonoro del Español Rural.

ODS:4. Educación de calidad, 10. Reducción de las desigualdades

Proyecto:

¡Enhorabuena equipo!

  • Clara Adsuar
  • Álvaro Bueno
  • Benito
  • Alberto Hernández
  • Manuel Otero

SQLES: Interactúa con una base de datos en español

Cómo conversar de manera sencilla con una base de datos.

Este proyecto tiene como objetivo desarrollar una herramienta que pueda interactuar en español con una base de datos utilizando un enfoque multimodal, que combina modelos de lenguaje y consultas SQL. La meta es facilitar la extracción de información de bases de datos de manera intuitiva y eficiente en el idioma español.

ODS:8. Trabajo decente y crecimiento económico, 9. Industria, innovación e infraestructura

Proyecto:

¡Enhorabuena equipo!

  • Asis Heriberto Rangel Ortiz
  • Emmanuel Alexis Zarazua Rubio
  • Néstor Emmanuel Briones Ramirez
  • Ventura Rivera Robles
  • Fernando Morales Flores

ChaterapIA

Dar acceso a ayuda psicológica a personas en necesidad. No importan tus recursos, la hora o el sitio, si necesitas ayuda siempre tendría que ser posible tener acceso a ella.

ODS:3. Salud y bienestar, 10. Reducción de las desigualdades

Proyecto:

¡Enhorabuena equipo!

  • Julio
  • Nicho
  • Joana
  • Dyana
  • Pablo

¡Enhorabuena de nuevo a todo el mundo, muchísimas gracias por participar en esta maravillosa tercera edición del Hackathon SomosNLP! 👏🤩