Por qué la API de OpenAI es más cara para los idiomas que no son inglés

API de OpenAI más cara para idiomas no ingleses

Más allá de las palabras: Cómo el codificado de pares de bytes y el codificado Unicode influyen en las disparidades de precios

¿Cómo puede ser que la frase “Hola mundo” tenga dos tokens en inglés y 12 tokens en hindi?

Después de publicar mi artículo reciente sobre cómo estimar el costo de la API de OpenAI, recibí un comentario interesante de alguien que notó que la API de OpenAI es mucho más cara en otros idiomas, como aquellos que utilizan caracteres chinos, japoneses o coreanos (CJK), que en inglés.

Comentario de un lector en mi artículo reciente sobre cómo estimar el costo de la API de OpenAI con la biblioteca tiktoken — Comentario de un lector en mi artículo reciente sobre cómo estimar el costo de la API de OpenAI con la biblioteca `tiktoken`

No estaba al tanto de este problema, pero rápidamente me di cuenta de que este es un campo de investigación activo: A principios de este año, un artículo llamado “Los tokenizadores de modelos de lenguaje introducen desigualdad entre idiomas” de Petrov et al. [2] mostró que “el mismo texto traducido a diferentes idiomas puede tener longitudes de tokenización drásticamente diferentes, con diferencias de hasta 15 veces en algunos casos”.

A modo de recordatorio, la tokenización es el proceso de dividir un texto en una lista de tokens, que son secuencias comunes de caracteres en un texto.

La diferencia en las longitudes de tokenización es un problema porque la API de OpenAI se factura en unidades de 1,000 tokens. Por lo tanto, si tienes hasta 15 veces más tokens en un texto comparable, esto resultará en 15 veces los costos de la API.

Experimento: Número de Tokens en Diferentes Idiomas

Traduzcamos la frase “Hola mundo” al japonés (こんにちは世界) y transcribámosla al hindi (हैलो वर्ल्ड). Cuando tokenizamos las nuevas frases con el tokenizador cl100k_base utilizado en los modelos GPT de OpenAI, obtenemos los siguientes resultados (puedes encontrar el código que utilicé para estos experimentos al final de este artículo):

Número de letras y tokens (cl100k_base) para la frase “Hola mundo” en inglés, japonés y hindi — Número de letras y tokens (`cl100k_base`) para la frase “Hola mundo” en inglés, japonés y hindi

A partir del gráfico anterior, podemos hacer dos observaciones interesantes:

El número de letras para…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Por qué la API de OpenAI es más cara para los idiomas que no son inglés

Más allá de las palabras: Cómo el codificado de pares de bytes y el codificado Unicode influyen en las disparidades de precios

Experimento: Número de Tokens en Diferentes Idiomas

Was this article helpful?

Desenmascarando Deepfakes Aprovechando los patrones de estimación de la posición de la cabeza para mejorar la precisión de detección

5 Formas en las que puedes utilizar el intérprete de código de ChatGPT para Ciencia de Datos

Inteligencia Artificial

OpenAI presenta Super Alignment Abriendo el camino para una IA segura y alineada

El sistema de IA puede generar proteínas novedosas que cumplan con los objetivos de diseño estructural.

Preguntas y respuestas Gabriela Sá Pessoa sobre la política brasileña, los derechos humanos en la Amazonía y la inteligencia artificial

¿Puede un Modelo de Lenguaje Revolucionar la Radiología? Conozca Radiology-Llama2 Un Gran Modelo de Lenguaje Especializado en Radiología a través de un Proceso Conocido como Ajuste de Instrucciones.

La FAA aprueba el sistema de aeronaves no tripuladas más grande de los Estados Unidos.

La nueva función de diseño de Amazon Textract introduce eficiencias en tareas de procesamiento de documentos de inteligencia artificial generales y generativos.