Por qué la API de OpenAI es más cara para los idiomas que no son inglés

API de OpenAI más cara para idiomas no ingleses

Más allá de las palabras: Cómo el codificado de pares de bytes y el codificado Unicode influyen en las disparidades de precios

¿Cómo puede ser que la frase “Hola mundo” tenga dos tokens en inglés y 12 tokens en hindi?

Después de publicar mi artículo reciente sobre cómo estimar el costo de la API de OpenAI, recibí un comentario interesante de alguien que notó que la API de OpenAI es mucho más cara en otros idiomas, como aquellos que utilizan caracteres chinos, japoneses o coreanos (CJK), que en inglés.

Comentario de un lector en mi artículo reciente sobre cómo estimar el costo de la API de OpenAI con la biblioteca tiktoken

No estaba al tanto de este problema, pero rápidamente me di cuenta de que este es un campo de investigación activo: A principios de este año, un artículo llamado “Los tokenizadores de modelos de lenguaje introducen desigualdad entre idiomas” de Petrov et al. [2] mostró que “el mismo texto traducido a diferentes idiomas puede tener longitudes de tokenización drásticamente diferentes, con diferencias de hasta 15 veces en algunos casos”.

A modo de recordatorio, la tokenización es el proceso de dividir un texto en una lista de tokens, que son secuencias comunes de caracteres en un texto.

Un ejemplo de tokenización

La diferencia en las longitudes de tokenización es un problema porque la API de OpenAI se factura en unidades de 1,000 tokens. Por lo tanto, si tienes hasta 15 veces más tokens en un texto comparable, esto resultará en 15 veces los costos de la API.

Experimento: Número de Tokens en Diferentes Idiomas

Traduzcamos la frase “Hola mundo” al japonés (こんにちは世界) y transcribámosla al hindi (हैलो वर्ल्ड). Cuando tokenizamos las nuevas frases con el tokenizador cl100k_base utilizado en los modelos GPT de OpenAI, obtenemos los siguientes resultados (puedes encontrar el código que utilicé para estos experimentos al final de este artículo):

Número de letras y tokens (cl100k_base) para la frase “Hola mundo” en inglés, japonés y hindi

A partir del gráfico anterior, podemos hacer dos observaciones interesantes:

  1. El número de letras para…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

OpenAI presenta Super Alignment Abriendo el camino para una IA segura y alineada

OpenAI Introducing Super Alignment development offers enormous promise for humanity. It has the ability to address so...

Investigación

El sistema de IA puede generar proteínas novedosas que cumplan con los objetivos de diseño estructural.

Estas proteínas ajustables podrían ser utilizadas para crear nuevos materiales con propiedades mecánicas específicas,...

Inteligencia Artificial

La FAA aprueba el sistema de aeronaves no tripuladas más grande de los Estados Unidos.

La Administración Federal de Aviación de los Estados Unidos aprobó la operación comercial de los rociadores agrícolas...

Inteligencia Artificial

La nueva función de diseño de Amazon Textract introduce eficiencias en tareas de procesamiento de documentos de inteligencia artificial generales y generativos.

Amazon Textract es un servicio de aprendizaje automático (ML) que extrae automáticamente texto, escritura a mano y da...