Data Commons está utilizando la IA para hacer que los datos públicos del mundo sean más accesibles y útiles

Data Commons utiliza IA para hacer datos públicos más accesibles y útiles.

En todo momento, en todo el mundo, los gobiernos, las organizaciones y muchos otros están generando datos sobre temas tan variados como la temperatura, el comercio o las tasas de enfermedades. Son datos que podrían ser extraordinariamente útiles para comprender y abordar desafíos sociales importantes como el cambio climático, el hambre o las epidemias. Afortunadamente, gran parte de estos datos están disponibles al público, y vendrán más. Desafortunadamente, estar disponible al público no es lo mismo que ser fácil de acceder y utilizar. Esta es la brecha que Data Commons, una iniciativa de Google, está trabajando para cerrar.

Los datos a menudo están fragmentados por fronteras estatales y nacionales, recopilados y publicados por diferentes agencias, instituciones de investigación y otras organizaciones no gubernamentales, y compartidos en diferentes formatos y plazos. Puede ser difícil, llevar mucho tiempo y ser costoso hacer que estos conjuntos de datos públicos funcionen juntos de una manera útil para los responsables de la formulación de políticas, los investigadores, las organizaciones sin fines de lucro, los periodistas, los estudiantes y los miembros del público en general que intentan comprender mejor los problemas sociales y encontrar soluciones. La visión a largo plazo de Data Commons es hacer por los datos disponibles al público lo que Google Search hace por Internet o lo que Google Maps hace por la navegación: organizarlos y hacerlos accesibles y útiles.

10:25

Nuestro objetivo de hacer que los datos y las ideas derivadas de ellos estén más disponibles para aquellos que buscan comprender y trabajar en los desafíos y oportunidades más apremiantes de la sociedad se impulsa mediante dos innovaciones, con más por venir.

En primer lugar, desde 2017, el equipo de Data Commons ha buscado estandarizar y procesar miles de conjuntos de datos de fuentes confiables y disponibles al público, que van desde el Panel Intergubernamental sobre el Cambio Climático de las Naciones Unidas hasta el Instituto Brasileño de Geografía y Estadística y el Departamento de Comercio de los Estados Unidos. Esto requirió innovación para poder reunir datos en formatos, esquemas y métodos de acceso muy diferentes, y crear un Grafo de Conocimiento con una sola API y un esquema, creando una vista unificada. Esta vista unificada permite a los usuarios con experiencia en datos lograr en horas lo que normalmente llevaría semanas, si no más. Si bien tener estos datos estandarizados y accesibles fue un gran avance, utilizarlos a través de API y herramientas de visualización aún requería una inversión significativa de tiempo, y a menudo habilidades de programación, para que alguien pudiera comprender y utilizar los datos de manera efectiva.

En segundo lugar, para abordar este problema y hacer que Data Commons sea aún más utilizable, Data Commons ahora está aprovechando el poder de la IA, específicamente los grandes modelos de lenguaje (LLM), para crear una interfaz de lenguaje natural que permite a los usuarios hacer preguntas como: ¿Qué estados en India tienen los mayores niveles de pobreza per cápita? ¿Cómo se comparan las tasas de alfabetización con la pobreza allí? ¿Cuánto ha cambiado la mortalidad infantil a lo largo del tiempo en estos estados?

Formato de video no compatible

La IA hace posible hacer preguntas como: “¿Qué países de África han tenido el mayor aumento en el acceso a la electricidad?” y “¿Cómo se correlaciona el ingreso con la diabetes en los condados de Estados Unidos?” o ofrecer sugerencias como “Comparar las emisiones de gases de efecto invernadero de la agricultura en Europa con su PIB”.

Los LLM se utilizan para comprender la consulta y los resultados provienen directamente de Data Commons, incluido un enlace a la fuente de datos original; por lo tanto, la salida no es generada por el LLM. Este enfoque permite a Data Commons evitar algunas de las limitaciones conocidas actuales de los LLM en cuanto a la veracidad en algunos casos.

Data Commons no recopila ni posee datos, en cambio, se basa en datos disponibles al público de más de 200 fuentes, que cubren miles de conjuntos de datos que incluyen demografía, economía, educación, vivienda, salud pública, clima, sostenibilidad y biomedicina. Hay datos de 194 países, en algunos países hasta el nivel estatal o de condado. Sin embargo, los datos accesibles hasta ahora no están distribuidos de manera uniforme ni son completos; desafortunadamente, la disponibilidad de datos refleja muchos de los mismos desafíos de equidad a los que el mundo se enfrenta en otros temas, por lo que actualmente tenemos más datos para Estados Unidos, India y países de la OCDE que para países de África, América del Sur y partes de Asia. Se necesita más trabajo continuo para poner a disposición datos adicionales y actualizados. Esperamos que se publiquen más datos públicos para ayudar a llenar las brechas, y buscamos agregar más categorías de datos útiles para comprender mejor el mundo y permitir a quienes trabajan para abordar desafíos sociales urgentes. Estamos buscando activamente datos adicionales y socios para ayudar a llenar algunas de estas brechas.

Data Commons es de código abierto, un proceso abierto y accesible para todos. Además del sitio de Data Commons, un subconjunto de puntos de datos de Data Commons se utilizan en las respuestas a consultas en Google Search. También nos estamos asociando con organizaciones que utilizan Data Commons para abordar los desafíos de la sociedad: el resultado es un ecosistema en crecimiento que permite a grupos como Resources for the Future, Feeding America, el Centro Robert Bosch de Ciencia de Datos e Inteligencia Artificial de IIT Madras, la Escuela Doerr de Sostenibilidad de Stanford y el Instituto de Ciencias Sociales Cuantitativas de la Universidad de Harvard tener sus propias versiones de Data Commons, proporcionando a las organizaciones una vista unificada de sus propios datos con todos los datos públicos ya accesibles a través de Data Commons.

Marnie Webb, Directora de Impacto Comunitario de TechSoup, un socio de Google desde hace mucho tiempo, compartió cómo Data Commons también puede ser útil para las organizaciones sin fines de lucro más pequeñas con las que trabaja su organización: “Data Commons brinda a las organizaciones comunitarias acceso a los datos que necesitan. Les brinda las herramientas para hacer preguntas sobre las necesidades de su comunidad en el lenguaje que usarían para hacer una pregunta a un colega, y obtener información confiable a cambio, como si tuvieran científicos de datos e ingenieros de datos en su personal. Lo que estamos hablando es de la democratización de la información para una mejor toma de decisiones, para que las organizaciones puedan correr riesgos inteligentes para servir mejor a sus comunidades. Estamos hablando de poner el poder de los datos en manos de aquellos que conocen mejor sus comunidades”.

Por ejemplo, con financiamiento de Google.org, TechSoup está ayudando a las organizaciones sin fines de lucro a aprovechar el poder de Data Commons para evaluar y abordar desafíos sociales. Por ejemplo, Cemefi está resaltando las intersecciones entre el hambre y el género en México y Makaia está monitoreando el crecimiento económico y social en Colombia. TechSoup está ilustrando la relación entre la seguridad alimentaria, la agricultura y el cambio climático al reunir datos de fuentes como el USDA y Feeding America.

Data Commons es un trabajo en progreso. Aunque el equipo ha estado trabajando en esto desde 2017, de alguna manera apenas estamos comenzando, y necesitamos que otros continúen uniéndose a este trabajo. Para hacer que más datos sean más accesibles, necesitamos socios que ayuden a identificar y llenar vacíos de datos. Y necesitamos organizaciones como TechSoup, Resources for the Future, Feeding America y muchas más para poner estos datos a trabajar mientras intentan abordar algunos de los desafíos más grandes del mundo. Todavía hay mucho más por hacer, juntos.

Obtenga más información sobre cómo hacer que los datos sean accesibles a través de Data Commons.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Aprendizaje Automático

Entrena un Modelo de Lenguaje Grande en una sola GPU de Amazon SageMaker con Hugging Face y LoRA.

Esta publicación está coescrita con Philipp Schmid de Hugging Face. Todos hemos escuchado sobre el progreso en el cam...

Inteligencia Artificial

Luchando contra los 'hechos' falsos con dos pequeñas palabras

Los investigadores han desarrollado un método para disminuir las alucinaciones en modelos de lenguaje grandes (LLMs) ...

Inteligencia Artificial

El Enigma para ChatGPT PUMA es un Enfoque de IA que Propone una Forma Rápida y Segura para la Inferencia de LLM

Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han comenzado una revolución en el campo de la intel...

Inteligencia Artificial

La ciudad más avanzada tecnológicamente de Estados Unidos tiene dudas sobre los coches autónomos

Los funcionarios y residentes de San Francisco no están impresionados por los autos autónomos, subrayando los desafío...