La guía de campo de datos sintéticos

'Synthetic Data Field Guide'

Una guía de las diversas especies de datos falsos: Parte 2

Si quieres trabajar con datos, ¿cuáles son tus opciones? Aquí tienes una respuesta lo más básica posible: puedes conseguir datos reales o puedes conseguir datos falsos.

En mi artículo anterior, nos familiarizamos con el concepto de datos sintéticos y discutimos el proceso de pensamiento para crearlos. Comparamos datos reales, datos ruidosos y datos hechos a mano. Ahora vamos a adentrarnos en las especies de datos sintéticos que son más elegantes que pedirle a un humano que elija un número, cualquier número…

Un clásico de la comedia británica.

(Nota: los enlaces en esta publicación te llevarán a explicaciones del mismo autor.)

Datos duplicados

Tal vez hayas medido 10,000 alturas reales de humanos pero quieres tener 20,000 puntos de datos. Un enfoque que puedes tomar es suponer que tu conjunto de datos existente ya representa bien a tu población. (Las suposiciones siempre son peligrosas, procede con precaución). Entonces podrías simplemente duplicar el conjunto de datos o duplicar una parte de él utilizando el método clásico de copiar y pegar. ¡Tachán! ¡Más datos! Pero, ¿son buenos y útiles esos datos? Eso siempre depende de para qué los necesites. En la mayoría de las situaciones, la respuesta sería no. Pero hey, tienes una cabeza por alguna razón, y es para pensar y aplicar tu mejor juicio.

Datos remuestreados

Hablando de duplicar solo una parte de tus datos, hay una forma de inyectar un poco de aleatoriedad para ayudarte a decidir qué parte elegir. Puedes usar un generador de números aleatorios para ayudarte a elegir a qué altura recurrir en tu lista existente de alturas. Podrías hacer esto “sin reemplazo”, lo que significa que haces como máximo una copia de cada altura existente, pero…

Datos bootstrapped

Más a menudo verás a las personas haciendo esto “con reemplazo”, lo que significa que cada vez que eliges una altura al azar para copiar, inmediatamente olvidas que lo hiciste para que la misma altura pueda aparecer en tu conjunto de datos como una segunda, tercera, cuarta, etc. copia. Quizás, si hay suficiente interés en los comentarios, explicaré por qué esta es una técnica poderosa y efectiva (sí, al principio suena como brujería, yo también lo pensé) para inferencia de población.

Datos aumentados

Los datos aumentados pueden sonar elegantes, y hay formas elegantes de aumentar los datos, pero generalmente cuando ves este término, significa que tomaste tus datos remuestreados y les agregaste un poco de ruido aleatorio. En otras palabras, generaste un número aleatorio a partir de una distribución estadística y típicamente simplemente lo agregaste al punto de datos remuestreado. Eso es todo. Esa es la ampliación.

Todos los derechos de imagen pertenecen al autor.

Datos sobremuestreados

Hablando de duplicar solo una parte de tus datos, hay una forma de ser intencional acerca de potenciar ciertas características sobre otras. Tal vez tomaste tus medidas en una conferencia de IA típica, por lo que las alturas femeninas están subrepresentadas en tus datos (triste pero cierto en estos días). Eso se llama el problema de datos desequilibrados. Hay técnicas para reequilibrar la representación de esas características, como SMOTE (Técnica de Sobremuestreo Sintético de la Minoría), que es casi lo que suena. La forma más simple de resolver el problema es limitar el remuestreo a los puntos de datos de minoría, ignorando los demás. Entonces, en nuestro ejemplo, solo remuestrearías las alturas femeninas, ignorando los demás datos. También podrías considerar una ampliación más sofisticada, pero aún limitando tus esfuerzos a las alturas femeninas.

Si quisieras ser aún más sofisticado, podrías buscar técnicas como ADASYN (Muestreo Sintético Adaptativo) y seguir las pistas en un tema que está fuera del alcance de esta breve introducción.

Datos de casos extremos

También podrías inventar (hechos a mano) datos que sean totalmente diferentes a cualquier cosa que tú (o alguien) haya visto. Esto sería algo muy tonto de hacer si intentaras usarlo para crear modelos del mundo real, pero es inteligente si lo usas, por ejemplo, para probar la capacidad de tu sistema de manejar cosas extrañas. Para tener una idea de si tu modelo/teoría/sistema falla cuando se encuentra con un valor atípico, podrías crear valores atípicos sintéticos a propósito. Adelante, ingresa una altura de 3 metros y mira qué explota. Como un simulacro de incendio en el trabajo. (No dejes un incendio real en el edificio ni un valor atípico monstruoso en tu conjunto de datos).

http://bit.ly/quaesita_ytoutliers

Datos simulados

Una vez que te sientas cómodo con la idea de crear datos de acuerdo a tus especificaciones, es posible que desees ir un paso más allá y crear una receta que describa la naturaleza subyacente del tipo de datos que deseas en tu conjunto de datos. Si hay un componente aleatorio, entonces lo que estás haciendo en realidad es simular a partir de una distribución estadística que te permite especificar cuáles son los principios fundamentales, según lo descrito por un modelo (que es solo una forma elegante de decir “una fórmula que usarás como receta”) con una regla para cómo funcionan las partes aleatorias. En lugar de agregar ruido aleatorio a un punto de datos existente como lo hacen las técnicas de aumento de datos convencionales, puedes agregar ruido a un conjunto de reglas que hayas creado, ya sea meditando o haciendo alguna inferencia estadística con un conjunto de datos relacionado. Obtén más información al respecto aquí .

Todos los derechos de la imagen pertenecen al autor.

Más allá de los números individuales

¿Alturas? ¿Espera, me estás pidiendo un conjunto de datos de solo una altura a la vez? ¡Qué aburrido! ¡Qué… de la era de los disquetes flexibles! A esto lo llamamos datos univariados y es raro verlo recopilado en la actualidad.

Ahora que tenemos una increíble capacidad de almacenamiento, los datos pueden tener formas mucho más interesantes y complejas. Es muy económico obtener algunas características adicionales junto con las alturas. Por ejemplo, podríamos registrar el estilo de peinado, lo que haría que nuestro conjunto de datos sea bivariado. ¿Pero por qué detenernos ahí? ¿Qué tal si también registramos la edad, para que nuestros datos sean multivariados? ¡Qué divertido!

Pero en la actualidad, podemos volvernos locos y combinar todo eso con datos de imágenes (tomar una foto durante la medición de la altura) y datos de texto (ese ensayo que escribieron sobre lo innecesariamente aburrida que fue su clase de estadísticas). A esto lo llamamos datos multimodales ¡y también podemos sintetizarlos! Si deseas obtener más información al respecto, házmelo saber en los comentarios.

¿Por qué alguien querría generar datos sintéticos? Hay buenas razones para amarlo y algunas razones sólidas para evitarlo como la peste (próximamente un artículo al respecto), pero si eres un profesional de la ciencia de datos, dirígete a este artículo para descubrir cuál es la razón que creo que debería ser tu favorita para utilizarlo con frecuencia.

¡Gracias por leer! ¿Qué tal un curso en YouTube?

Si te divertiste aquí y estás buscando un curso completo de IA aplicada diseñado para ser divertido tanto para principiantes como para expertos, aquí está el que hice para tu entretenimiento:

Disfruta el curso en YouTube aquí .

P.D. ¿Alguna vez has intentado presionar el botón de aplausos aquí en Zepes más de una vez para ver qué sucede? ❤️

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

artificial intelligenceData ScienceEditors PickStatisticsTechnology

Was this article helpful?

93 out of 132 found this helpful

La guía de campo de datos sintéticos

Una guía de las diversas especies de datos falsos: Parte 2

Datos duplicados

Datos remuestreados

Datos bootstrapped

Datos aumentados

Datos sobremuestreados

Datos de casos extremos

Datos simulados

Más allá de los números individuales

¡Gracias por leer! ¿Qué tal un curso en YouTube?

Was this article helpful?

Un nuevo estudio de investigación en IA presenta AttrPrompt un generador de datos de entrenamiento LLM para un nuevo paradigma en el aprendizaje de cero disparos.

Google AI presenta los complementos de difusión de MediaPipe que permiten la generación controlable de texto a imagen en el dispositivo.

Ciencia de Datos

De desbloquear generaciones confiables a través de la cadena de verificación Un salto en la ingeniería oportuna

Tipos de Edge ML y casos de uso empresariales

Investigadores del Laboratorio de Inteligencia Artificial de Shanghai y del MIT presentan la red neuronal recurrente RNN jerárquicamente controlada una nueva frontera en la eficiente modelización de dependencia a largo plazo

Escalado de datos con Python

Productividad impulsada por IA la IA generativa abre una nueva era de eficiencia en todas las industrias

Este artículo de IA presenta un análisis exhaustivo de las espinas dorsales de visión por computadora desvelando las fortalezas y debilidades de los modelos preentrenados