Inmersión profunda en el modelo LSTM-CRF
Explorando a fondo el modelo LSTM-CRF
Con código de PyTorch
En el campo de procesamiento de lenguaje natural en constante evolución, los Transformers han surgido como modelos dominantes, demostrando un rendimiento notable en una amplia gama de tareas de modelado de secuencias, incluyendo etiquetado de partes del discurso, reconocimiento de entidades nombradas y segmentación. Antes de la era de los Transformers, los Campos Aleatorios Condicionales (CRFs) eran la herramienta principal para el modelado de secuencias, específicamente los CRFs de cadena lineal que modelan secuencias como grafos dirigidos, mientras que los CRFs en general se pueden utilizar en grafos arbitrarios.
Este artículo se dividirá de la siguiente manera:
- Introducción
- Puntuaciones de Emisión y Transición
- Función de Pérdida
- Estimación eficiente de la función de partición a través del Algoritmo Forward
- Algoritmo de Viterbi
- Código completo LSTM-CRF
- Inconvenientes y Conclusiones
Introducción
La implementación de los CRFs en este artículo se basa en este excelente tutorial. Por favor, tenga en cuenta que definitivamente no es la implementación más eficiente disponible y también carece de capacidad de agrupamiento, sin embargo, es relativamente fácil de leer y entender y debido a que el objetivo de este tutorial es comprender el funcionamiento interno de los CRFs, es perfectamente adecuado para nosotros.
Puntuaciones de Emisión y Transición
En problemas de etiquetado de secuencias, tratamos con una secuencia de elementos de datos de entrada, como las palabras en una oración, donde cada elemento se corresponde con una etiqueta o categoría específica. El objetivo principal es asignar correctamente la etiqueta adecuada a cada elemento individual. Dentro del modelo CRF-LSTM, podemos identificar dos componentes clave para hacer esto: las probabilidades de emisión y transición. Nota: en realidad, trataremos con puntuaciones en el espacio logarítmico en lugar de probabilidades para garantizar estabilidad numérica:
- ¿Cómo podemos comprimir eficientemente grandes modelos de lenguaje con pesos de un solo bit? Esta investigación de inteligencia artificial propone PB-LLM Explorando el potencial de LLMs parcialmente binarizados
- Falso Profeta Ingeniería de características para una regresión de series de tiempo casera (Parte 1 de 2)
- Limpieza + Preparación de Datos de los Lagos de Minnesota
- Las puntuaciones de emisión se relacionan con la probabilidad de observar una etiqueta específica para un elemento de datos dado. En el contexto del reconocimiento de entidades nombradas, por ejemplo, cada palabra en una secuencia está afiliada a una de tres etiquetas: Comienzo de una entidad (B), Palabra intermedia de una entidad (I) o una palabra fuera de cualquier entidad (O). Las probabilidades de emisión cuantifican la probabilidad de que una palabra específica esté asociada con una etiqueta particular. Esto se expresa matemáticamente como P(y_i | x_i), donde y_i denota la etiqueta y x_i representa…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Introducción al Aprendizaje Automático Explorando sus muchas formas
- Disney empaqueta grandes emociones en un pequeño robot
- 7 Formas en que la IA y el Software de Automatización están Cambiando la Industria de la Cerveza
- A.I. Obama’ y presentadores de noticias falsas cómo el audio de IA está invadiendo TikTok
- Las gafas transcriben el habla en tiempo real
- Cómo utilicé mi primer #30DayChartChallenge para aprender Observable Plot
- ¿Podemos transformar texto en gráficos vectoriales científicos? Este artículo de IA presenta AutomaTikZ y explica el poder de TikZ