Cómo Reveal’s Logikcull utilizó Amazon Comprehend para detectar y redactar información de identificación personal (PII) de documentos legales a gran escala.

Cómo Reveal's Logikcull usó Amazon Comprehend para detectar y redactar PII de documentos legales a gran escala

Hoy en día, la información de identificación personal (PII por sus siglas en inglés) está en todas partes. La PII se encuentra en correos electrónicos, mensajes de slack, videos, PDFs, y así sucesivamente. Se refiere a cualquier dato o información que puede ser utilizada para identificar a una persona específica. La PII es sensible por naturaleza e incluye varios tipos de datos personales, como el nombre, la información de contacto, números de identificación, información financiera, información médica, datos biométricos, fecha de nacimiento, y así sucesivamente.

Encontrar y redactar la PII es esencial para salvaguardar la privacidad, garantizar la seguridad de los datos, cumplir con las leyes y regulaciones, y mantener la confianza con los clientes y partes interesadas. Es un componente crítico de la gestión moderna de datos y las prácticas de ciberseguridad. Sin embargo, encontrar la PII entre el montón de datos electrónicos puede presentar desafíos para una organización. Estos desafíos surgen debido al volumen y la variedad de los datos, la fragmentación de los datos, el cifrado, el intercambio de datos, el contenido dinámico, los falsos positivos y negativos, la comprensión del contexto, las complejidades legales, las limitaciones de recursos, los datos en constante evolución, el contenido generado por el usuario, y las amenazas adaptativas. Sin embargo, no detectar y redactar con precisión la PII puede llevar a graves consecuencias para las organizaciones. Estas consecuencias pueden incluir sanciones legales, demandas, daño a la reputación, costos de violaciones de datos, investigaciones regulatorias, interrupción operativa, erosión de la confianza y sanciones.

En el sistema legal, el descubrimiento es el proceso legal que rige el derecho de obtener y la obligación de producir información no privilegiada relevante para las reclamaciones o defensas de cualquier parte en un litigio. El descubrimiento electrónico, también conocido como eDiscovery, es el aspecto electrónico de identificar, recopilar y producir evidencia almacenada electrónicamente en respuesta a una solicitud de producción en un litigio o investigación. En el ámbito legal, a menudo es necesario identificar, recopilar y producir evidencia almacenada electrónicamente durante un litigio o investigación. Si las organizaciones están lidiando con el eDiscovery para litigios o respuestas a citaciones legales, es probable que estén preocupadas por compartir accidentalmente PII. Muchas organizaciones, incluidas agencias gubernamentales, distritos escolares y profesionales legales, se enfrentan al desafío de detectar y redactar con precisión la PII a gran escala. Especialmente si son parte de un grupo gubernamental, redactar la PII a través de la Ley de Libertad de Información y la Ley de Servicios Digitales es crucial para proteger la privacidad individual, garantizar el cumplimiento de las leyes de protección de datos, prevenir el robo de identidad y mantener la confianza y transparencia en el gobierno y los servicios digitales. Esto equilibra la transparencia y la privacidad al mitigar los riesgos legales y de seguridad.

Las organizaciones pueden buscar PII utilizando métodos como búsquedas de palabras clave, coincidencia de patrones, herramientas de prevención de pérdida de datos, aprendizaje automático (ML), análisis de metadatos, software de clasificación de datos, reconocimiento óptico de caracteres (OCR, por sus siglas en inglés), huella digital de documentos y cifrado.

Ahora, como parte de la plataforma de descubrimiento electrónico impulsada por IA de Reveal, Logikcull es una solución de autoservicio que permite a los profesionales legales procesar, revisar, etiquetar y producir documentos electrónicos como parte de un litigio o investigación. Esta oferta única ayuda a los abogados a descubrir información valiosa relacionada con el asunto en cuestión mientras reduce costos, acelera las resoluciones y mitiga riesgos.

En esta publicación, los expertos de Reveal muestran cómo utilizaron Amazon Comprehend en su canal de procesamiento de documentos para detectar y redactar piezas individuales de PII. Amazon Comprehend es un servicio de procesamiento de lenguaje natural (NLP) totalmente administrado y continuamente entrenado que puede extraer información sobre el contenido de un documento o texto. Puede utilizar las capacidades de aprendizaje automático de Amazon Comprehend para detectar y redactar PII en correos electrónicos de clientes, tickets de soporte, reseñas de productos, redes sociales, y más.

Resumen de la solución

El objetivo general del equipo de ingeniería es detectar y redactar PII de millones de documentos legales para sus clientes. Utilizando la solución de Logikcull de Reveal, el equipo de ingeniería implementó dos procesos, a saber, detección de PII en el primer paso y detección y redacción de PII en el segundo paso. Esta solución de dos pasos fue posible mediante el uso de las APIs ContainsPiiEntities y DetectPiiEntities.

Detección de PII en el primer paso

El objetivo de la detección de PII en el primer paso es encontrar los documentos que podrían contener PII.

  1. Los usuarios cargan los archivos en los que les gustaría realizar la detección y eliminación de información de identificación personal (PII, por sus siglas en inglés) a través del sitio web público de Logikcull en una carpeta de proyecto. Estos archivos pueden estar en forma de documentos de oficina, archivos .pdf, correos electrónicos o un archivo .zip que contenga todos los tipos de archivos admitidos.
  2. Logikcull almacena estas carpetas de proyecto de forma segura dentro de un bucket de Amazon Simple Storage Service (Amazon S3). Los archivos luego pasan a través del flujo de procesamiento masivamente paralelo de Logikcull alojado en Amazon Elastic Compute Cloud (Amazon EC2), que procesa los archivos, extrae los metadatos y genera artefactos en formato de texto para su revisión. El flujo de procesamiento de Logikcull admite la extracción de texto para una amplia variedad de formas y archivos, incluidos archivos de audio y video.
  3. Una vez que los archivos están disponibles en formato de texto, Logikcull pasa el texto de entrada junto con el modelo de lenguaje, que es inglés, a través de Amazon Comprehend mediante la llamada de la API ContainsPiiEntities. Los servidores del flujo de procesamiento alojados en Amazon EC2 realizan la llamada de la API de Amazon Comprehend ContainsPiiEntities pasando los parámetros de solicitud como texto y código de idioma. La llamada de API ContainsPiiEntities analiza el texto de entrada en busca de la presencia de PII y devuelve las etiquetas de los tipos de entidad de PII identificados, como nombre, dirección, número de cuenta bancaria o número de teléfono. La respuesta de la API también incluye un puntaje de confianza que indica el nivel de confianza que Amazon Comprehend ha asignado a la precisión de la detección. El puntaje de confianza tiene un valor entre 0 y 1, siendo 1 el 100 por ciento de confianza. Logikcull utiliza este puntaje de confianza para asignar la etiqueta “PII Detected” a los documentos. Logikcull solo asigna esta etiqueta a los documentos que tienen un puntaje de confianza superior a 0.75.
  4. Los documentos etiquetados como “PII Detected” se agregan al índice de búsqueda de Logikcull para que los usuarios puedan identificar rápidamente los documentos que contienen entidades de PII.

Detección y eliminación de PII en segunda pasada

El proceso de detección de PII en primera pasada reduce el alcance del conjunto de datos identificando qué documentos contienen información de PII. Esto acelera el proceso de detección de PII y también reduce el costo total. El objetivo de la detección de PII en segunda pasada es identificar las instancias individuales de PII y redactarlas de los documentos etiquetados en la primera pasada.

  1. Los usuarios buscan documentos a través del sitio web de Logikcull que contienen PII utilizando la función de filtros de búsqueda avanzada de Logikcull.
  2. La solicitud es manejada por los servidores de aplicación de Logikcull alojados en Amazon EC2 y los servidores se comunican con el clúster de índice de búsqueda para encontrar los documentos.
  3. Los servidores de aplicaciones de Logikcull son capaces de identificar las instancias individuales de PII mediante la llamada de la API DetectPiiEntities. Los servidores realizan la llamada de la API pasando el texto y el idioma de los documentos de entrada. La acción de API DetectPiiEntities inspecciona el texto de entrada en busca de entidades que contengan PII. Para cada entidad, la respuesta proporciona el tipo de entidad, desde dónde hasta dónde comienza y termina el texto de la entidad, y el nivel de confianza que Amazon Comprehend tiene en su detección.
  4. Luego, los usuarios seleccionan las entidades específicas que desean redactar utilizando la interfaz web de Logikcull. Los servidores de aplicaciones envían estas solicitudes al flujo de procesamiento de Logikcull. A continuación, se muestra una captura de pantalla de un PDF que se cargó en la aplicación de Logikcull. Desde la captura de pantalla, se puede ver que se han resaltado diferentes entidades de PII, como nombre, dirección, número de teléfono, dirección de correo electrónico, entre otras.

  1. La redacción de PII se aplica de forma segura dentro del flujo de procesamiento de Logikcull utilizando lógica empresarial personalizada. En la captura de pantalla que sigue, se puede ver que los usuarios pueden seleccionar tipos específicos de entidades PII o todos los tipos de entidades PII que deseen redactar y luego, con un solo clic, redactar toda la información de PII.

Resultados

Logikcull, una tecnología de Reveal, procesa actualmente más de 20 millones de documentos cada semana y pudo reducir el alcance de detección utilizando la API ContainsPiiEntities y mostrar instancias individuales de entidades PII a sus clientes utilizando la API DetectPiiEntities.

“Con Amazon Comprehend, Logikcull ha podido implementar rápidamente capacidades potentes de PNL en una fracción del tiempo que habría requerido una solución personalizada.”

– Steve Newhouse, VP de Producto de Logikcull.

Conclusión

Amazon Comprehend permite que la tecnología Logikcull de Reveal ejecute la detección de PII a gran escala con un costo relativamente bajo utilizando Amazon Comprehend. La API ContainsPiiEntities se utiliza para realizar un escaneo inicial de millones de documentos. La API DetectPiiEntities se utiliza para realizar un análisis detallado de miles de documentos e identificar piezas individuales de PII en sus documentos.

Echa un vistazo a todas las funciones de Amazon Comprehend. Prueba las funciones y envíanos tus comentarios ya sea a través del foro de AWS para Amazon Comprehend o a través de tus contactos habituales de soporte de AWS.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Tres postdoctorados en física del MIT en español reciben becas de la Fundación Botton.

Los destinatarios Luis Antonio Benítez, Carolina Cuesta-Lázaro y Fernando Romero López reciben apoyo para su investig...

Inteligencia Artificial

De harapos a riquezas

A medida que los modelos de lenguaje grandes (LLMs por sus siglas en inglés) se han apoderado del mundo, los motores ...

Inteligencia Artificial

Controversia de Disney en Hollywood ¡Interviene la IA, los escritores y actores se retiran!

En el corazón de Hollywood, la IA se ha convertido en una fuerza polarizante. Los escritores y actores de Disney, cus...

Inteligencia Artificial

Este chip centrado en la Inteligencia Artificial redefine la eficiencia duplicando el ahorro de energía al unificar el procesamiento y la memoria.

En un mundo donde la demanda de inteligencia local basada en datos está en aumento, el desafío de permitir que los di...

Aprendizaje Automático

Científicos mejoran la detección de delirio utilizando Inteligencia Artificial y electroencefalogramas de respuesta rápida.

Detectar el delirio no es fácil, pero puede tener grandes beneficios: acelerar la atención esencial para los paciente...