Conoce a Tarsier Una biblioteca de código abierto en Python para habilitar la interacción web con LLMs multimodales como GPT4
Descubre Tarsier Una biblioteca de código abierto en Python para activar la interacción web con modelos de lenguaje y visión multimodales, como GPT4
A medida que la IA continúa creciendo y afectando todos los aspectos de nuestras vidas, se está llevando a cabo una investigación para hacerla más útil y conveniente. Hoy en día, la IA está encontrando utilidad en todas las dimensiones de la vida diaria. Se ha realizado una amplia investigación en diversos campos. Como resultado, los investigadores de Reworkd han formulado Tarsier, una biblioteca de Python de código abierto para facilitar la interacción web con modelos de lenguaje multimodales (LLMs) como GPT-4.
Tarsier actúa como un puente, que mejora las capacidades de estos modelos al etiquetar visualmente los elementos interactivos en una página web y permitir la interacción entre usuarios y máquinas.
Tarsier simplifica el intrincado proceso de interacción web para LLMs. Esto se logra etiquetando visualmente los elementos usando corchetes e identificadores únicos, como IDs. Estos elementos, que incluyen botones, enlaces y campos de entrada visibles en la página, establecen un mapeo crucial para que GPT-4 realice acciones. En otras palabras, Tarsier funciona como un traductor, haciendo que la web sea comprensible para los modelos de lenguaje.
- Investigadores de la Universidad Vanderbilt y UC Davis presentan PRANC Un marco de aprendizaje profundo que es eficiente en memoria tanto durante la fase de aprendizaje como de reconstrucción.
- Cómo conseguí un trabajo de analista de datos en 6 meses
- Automatización del reconocimiento de entidades químicas creando tu modelo ChemNER
Una característica de Tarsier es su capacidad para representar visualmente la página. Este aspecto se vuelve importante ya que los modelos de lenguaje con capacidad visual existentes enfrentan desafíos. Al ofrecer utilidades de reconocimiento óptico de caracteres (OCR), Tarsier convierte una captura de pantalla de una página en una cadena estructurada de espacios en blanco, asegurando que incluso los LLMs que no son multimodales puedan comprender el contenido y el significado de una página web.
Tarsier presenta dos utilidades fundamentales que mejoran significativamente las capacidades de interacción de los modelos de lenguaje. Estas son: etiquetado de elementos interactivos y análisis de capturas de pantalla en representación de texto OCR.
Tarsier destaca por su capacidad para etiquetar elementos interactivos con un identificador único. Este identificador permite que los modelos de lenguaje (LLMs) entiendan los elementos con los que pueden trabajar, como hacer clic en botones, seguir enlaces o completar campos de entrada. Este método de etiquetado mejora la comprensión y crea un vínculo claro entre las opciones del LLM y los elementos subyacentes en la página web.
Otra característica revolucionaria de Tarsier es su capacidad para convertir capturas de pantalla en una representación de texto OCR con conocimiento espacial. Este avance permite la utilización de modelos como GPT-4 o cualquier LLM solo de texto para tareas web, incluso sin capacidades visuales. Esencialmente, Tarsier amplía los horizontes de las aplicaciones de IA al permitir que los modelos de lenguaje interactúen con la web sin depender de la visión.
Además, Tarsier cuenta con una serie de manuales que muestran cómo utilizarlo con bibliotecas LLM conocidas como Langchain y LlamaIndex, lo que facilita el proceso de incorporación. Estos manuales permiten a las personas experimentar directamente las características e ideas de Tarsier ofreciendo ejemplos útiles.
En conclusión, Tarsier es una herramienta necesaria para avanzar en las capacidades de los LLMs. Le brinda a los LLMs las herramientas para explorar y comprender las complejidades de la web al ofrecer una representación organizada de los elementos en línea. Con sus herramientas OCR, esta capacidad se extiende aún más a los modelos solo de texto, eliminando obstáculos y promoviendo un entorno de IA más diverso y adaptable.
La publicación Conoce a Tarsier: una biblioteca de Python de código abierto para permitir la interacción web con LLMs multimodales como GPT4 apareció primero en MarkTechPost.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Guía del Practicante para el Aprendizaje por Reforzamiento
- Dominando el arte de la estrategia de la ciencia de datos una conversación con el visionario de la IA Vin Vashishta
- Desarrollar un ChatGPT específico de la empresa es un tercio tecnología y dos tercios mejoras en los procesos.
- Ajuste de hiperparámetros Redes Neuronales 101
- Investigadores de la Universidad de Washington y la Universidad Duke presentan Punica un sistema de inteligencia artificial para servir múltiples modelos de LoRA en un clúster compartido de GPU.
- Paralelizando Python en Spark Opciones de concurrencia con Pandas
- Sam Altman despedido como CEO de OpenAI