OpenAI presenta GPTBot un rastreador web diseñado para extraer datos de toda la Internet automáticamente

OpenAI presenta GPTBot, un rastreador web para extraer datos automáticamente de toda la Internet.

OpenAI ha respondido a las preocupaciones de privacidad y propiedad intelectual derivadas de la recopilación de datos en sitios web públicos mediante la introducción de una nueva herramienta web llamada GPTBot. Esta tecnología tiene como objetivo recopilar datos web públicos de manera transparente y utilizarlos para entrenar sus modelos de IA, todo bajo el paraguas de OpenAI.

El agente de usuario de GPTBot tiene como objetivo recopilar datos que contribuyan a refinar los futuros modelos de IA. Durante este proceso, GPTBot omitirá fuentes que requieran pago. Sin embargo, es importante tener en cuenta que algunos datos recopilados pueden contener inadvertidamente información o texto identificable, violando las políticas de OpenAI.

OpenAI reconoce la necesidad de proporcionar a los administradores de sitios web opciones con respecto al acceso a la plataforma de GPTBot. Otorgar acceso se percibe como una colaboración para mejorar la precisión de los modelos de IA, mejorando así sus capacidades y reforzando las medidas de seguridad. Por otro lado, OpenAI ha delineado un procedimiento para aquellos que prefieren no incluir sus sitios web en los esfuerzos de recopilación de datos de GPTBot. Esta guía incluye la incorporación de directivas de GPTBot en el archivo robots.txt del sitio web y la configuración de su acceso a segmentos de contenido específicos.

OpenAI ha publicado el rango de direcciones IP vinculado a las actividades de GPTBot para lograr una mayor transparencia. Esta publicación no solo ayuda a identificar las acciones del bot, sino que también proporciona los medios para bloquear su acceso si es necesario.

Estas iniciativas de transparencia destacan la respuesta de OpenAI a las críticas enfrentadas por los operadores de modelos de IA acusados de recopilar datos sin consentimiento explícito. El sentimiento predominante sostiene que las prácticas de la industria han infringido potencialmente los derechos de propiedad intelectual y las protecciones de privacidad al recolectar contenido de sitios web públicos sin autorización adecuada. Esto, a su vez, ha llevado a un llamado para que las entidades de IA ofrezcan mecanismos más completos de aceptación y rechazo, permitiendo a los propietarios de sitios web y custodios de datos tener voz en el uso de su contenido.

La plataforma de recaudación de fondos de Kickstarter introdujo recientemente regulaciones relacionadas con los proyectos de IA. Entre estas regulaciones, un requisito importante es que los proyectos que utilizan fuentes de datos externas deben proporcionar evidencia de acuerdos de licencia adecuados y obtener el consentimiento de los sitios web fuente. Los proyectos que no cumplan con esta obligación no serán elegibles para ser listados en Kickstarter.

En la próxima semana, se espera que OpenAI se someta a una revisión importante, marcada por la transición de la capa fundamental de ChatGPT a GPT-4. Además, las mejoras en el complemento Code Interpreter incluirán el soporte para cargar múltiples archivos en las indicaciones, reflejando el compromiso de OpenAI con la mejora continua y la innovación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

OpenAI presenta GPTBot un rastreador web diseñado para extraer datos de toda la Internet automáticamente

Was this article helpful?

Extracción de datos de documentos sin OCR con Transformers (2/2)

RBI adopta la IA conversacional y los pagos sin conexión utilizando UPI

Inteligencia Artificial

NVIDIA impulsa el entrenamiento para algunos de los modelos más grandes de la Fundación Amazon Titan.

Disney empaqueta grandes emociones en un pequeño robot

El Avance en la Computación Cuántica Inicia una Nueva Era, Dice IBM.

Meta AI presenta AnyMAL el futuro de los modelos de lenguaje multimodal que conecta texto, imágenes, videos, audio y datos de sensores de movimiento.

La Declaración de Bletchley de los países que asistieron a la Cumbre de Seguridad de la IA

Conoce a PUG una nueva investigación de IA de Meta AI sobre conjuntos de datos fotorrealistas y semánticamente controlables utilizando Unreal Engine para una evaluación de modelos robusta