Lo largo y corto de ello La relevancia basada en la proporción para capturar la semántica del documento de principio a fin

La importancia de la proporción para capturar la esencia del documento de principio a fin lo largo y corto de ello

Los métodos de búsqueda dominantes hoy en día generalmente se basan en la coincidencia de palabras clave o en la similitud en el espacio vectorial para estimar la relevancia entre una consulta y los documentos. Sin embargo, estas técnicas tienen dificultades cuando se trata de buscar en corpora utilizando archivos completos, documentos, e incluso libros como consultas de búsqueda.

Un poco de diversión con Dall-E 3

Búsqueda basada en palabras clave

Aunque las búsquedas por palabras clave se destacan para búsquedas rápidas, no logran capturar la semántica crítica para contenido de mayor extensión. Un documento que discute correctamente “plataformas en la nube” puede ser completamente ignorado por una consulta que busca experiencia en “AWS”. Las coincidencias exactas de términos enfrentan frecuentemente problemas de incompatibilidad de vocabulario en textos extensos.

Búsqueda de similitud vectorial

Los modelos modernos de incrustación vectorial, como BERT, condensan el significado en cientos de dimensiones numéricas, estimando de manera precisa la similitud semántica. Sin embargo, las arquitecturas de transformadores con autoatención no son escalables más allá de 512-1024 tokens debido al aumento de la computación.

Sin la capacidad de procesar completamente los documentos, las incrustaciones parciales “conjunto de palabras” resultantes pierden los matices de significado que se entrelazan en diferentes secciones. El contexto se pierde en la abstracción.

La complejidad computacional prohibitiva también restringe el ajuste fino en la mayoría de los corprobantes del mundo real, limitando la precisión. El aprendizaje no supervisado ofrece una alternativa, pero faltan técnicas sólidas en este campo.

En un artículo reciente, los investigadores abordan precisamente estas dificultades al reinventar la relevancia para consultas y documentos ultra largos. Sus innovaciones desbloquean un nuevo potencial para la búsqueda de documentos de inteligencia artificial.

El problema con documentos largos

Los paradigmas de búsqueda dominantes hoy en día son ineficaces para consultas que contienen miles de palabras como texto de entrada. Los problemas principales que se enfrentan incluyen:

  • Los transformadores como BERT tienen una complejidad cuadrática de autoatención, lo que los hace inviables para secuencias más allá de 512-1024 tokens. Las alternativas de atención dispersa comprometen la precisión.
  • Los modelos léxicos que se basan en coincidencias exactas de términos no pueden inferir la similitud semántica crítica para textos de mayor extensión.
  • La falta de datos etiquetados para la mayoría de las colecciones de dominio hace necesario…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La lucha por reparar

Cómo la batalla por el derecho a reparar se está inclinando a favor de los consumidores.

Inteligencia Artificial

Investigadores descubren miles de nudos transformables

Investigadores descubrieron miles de nuevos nudos transformables a través de un proceso computacional que combina mue...

Ciencias de la Computación

El nuevo profesor de Ciencias de la Computación de Harvard es un chatbot.

Los estudiantes inscritos en el curso insignia de CS50 de la universidad tendrán como profesor de Inteligencia Artifi...

Inteligencia Artificial

Cómo los científicos están descifrando códigos históricos para revelar secretos perdidos

El proyecto DECRYPT, una colaboración entre lingüistas y científicos de la computación, tiene como objetivo automatiz...

Inteligencia Artificial

La amenaza de la desinformación climática propagada por la tecnología de IA generativa

Explora cómo la IA generativa puede propagar información errónea sobre el clima y aprende estrategias efectivas para ...

Noticias de Inteligencia Artificial

La tecnología tiene como objetivo prevenir caídas en los ancianos.

El proyecto Move More Live More en Irlanda del Norte tiene como objetivo prevenir caídas en personas mayores al prede...