Inmersión profunda en el modelo LSTM-CRF

Explorando a fondo el modelo LSTM-CRF

Con código de PyTorch

En el campo de procesamiento de lenguaje natural en constante evolución, los Transformers han surgido como modelos dominantes, demostrando un rendimiento notable en una amplia gama de tareas de modelado de secuencias, incluyendo etiquetado de partes del discurso, reconocimiento de entidades nombradas y segmentación. Antes de la era de los Transformers, los Campos Aleatorios Condicionales (CRFs) eran la herramienta principal para el modelado de secuencias, específicamente los CRFs de cadena lineal que modelan secuencias como grafos dirigidos, mientras que los CRFs en general se pueden utilizar en grafos arbitrarios.

Este artículo se dividirá de la siguiente manera:

Introducción
Puntuaciones de Emisión y Transición
Función de Pérdida
Estimación eficiente de la función de partición a través del Algoritmo Forward
Algoritmo de Viterbi
Código completo LSTM-CRF
Inconvenientes y Conclusiones

Introducción

La implementación de los CRFs en este artículo se basa en este excelente tutorial. Por favor, tenga en cuenta que definitivamente no es la implementación más eficiente disponible y también carece de capacidad de agrupamiento, sin embargo, es relativamente fácil de leer y entender y debido a que el objetivo de este tutorial es comprender el funcionamiento interno de los CRFs, es perfectamente adecuado para nosotros.

Puntuaciones de Emisión y Transición

En problemas de etiquetado de secuencias, tratamos con una secuencia de elementos de datos de entrada, como las palabras en una oración, donde cada elemento se corresponde con una etiqueta o categoría específica. El objetivo principal es asignar correctamente la etiqueta adecuada a cada elemento individual. Dentro del modelo CRF-LSTM, podemos identificar dos componentes clave para hacer esto: las probabilidades de emisión y transición. Nota: en realidad, trataremos con puntuaciones en el espacio logarítmico en lugar de probabilidades para garantizar estabilidad numérica:

Las puntuaciones de emisión se relacionan con la probabilidad de observar una etiqueta específica para un elemento de datos dado. En el contexto del reconocimiento de entidades nombradas, por ejemplo, cada palabra en una secuencia está afiliada a una de tres etiquetas: Comienzo de una entidad (B), Palabra intermedia de una entidad (I) o una palabra fuera de cualquier entidad (O). Las probabilidades de emisión cuantifican la probabilidad de que una palabra específica esté asociada con una etiqueta particular. Esto se expresa matemáticamente como P(y_i | x_i), donde y_i denota la etiqueta y x_i representa…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Inmersión profunda en el modelo LSTM-CRF

Con código de PyTorch

Introducción

Puntuaciones de Emisión y Transición

Was this article helpful?

¿Cómo podemos comprimir eficientemente grandes modelos de lenguaje con pesos de un solo bit? Esta investigación de inteligencia artificial propone PB-LLM Explorando el potencial de LLMs parcialmente binarizados

El Mejor Algoritmo de Optimización para tu Red Neuronal

Inteligencia Artificial

Conozca Prompt Diffusion Un marco de inteligencia artificial para permitir el aprendizaje en contexto en modelos generativos basados en difusión

Conoce a FastSAM La solución revolucionaria en tiempo real que logra una segmentación de alto rendimiento con una carga computacional mínima.

La Carrera para Regular la Inteligencia Artificial

¿Cómo deberíamos almacenar imágenes de IA? Investigadores de Google proponen un método de compresión de imágenes utilizando modelos generativos basados en puntuación

Holograma permite que Marcos de Filipinas hable en Singapur mientras visita Estados Unidos.

Este artículo sobre IA revela Cómo los modelos de lenguaje grandes se comparan con los motores de búsqueda en eficiencia de verificación de hechos