¿Qué es los datos sintéticos?
Los datos sintéticos son información generada artificialmente.
Una guía de campo de las diversas especies de datos falsos: Parte 1
Los datos sintéticos son, siendo directos, datos falsos. Es decir, datos que no provienen realmente de la población en la que estás interesado. (Población es un término técnico en ciencia de datos, que explico aquí.) Son datos que planeas tratar como si provinieran del lugar/grupo del que deseas que provengan. (No lo hacen.)
Los datos sintéticos son, siendo directos, datos falsos.
Datos artificiales, datos sintéticos, datos falsos y datos simulados son sinónimos con connotaciones poéticas de diferentes épocas. Hoy en día, a los jóvenes les gusta más la palabra de moda “datos sintéticos”, quizás porque los inversores necesitan ser convencidos de que algo nuevo ha sido inventado, en lugar de redescubierto. Y hay algo ligeramente nuevo en juego aquí, pero (en mi opinión) no lo suficientemente nuevo como para que todas las ideas antiguas sean irrelevantes.
¡Vamos a sumergirnos!
- El enemigo invisible de la IA enfrentando el desafío de la materia oscura digital
- Convirtiendo viejos mapas en modelos digitales en 3D de vecindarios perdidos.
- Cómo convertirse en un científico de datos sin experiencia técnica consejos y estrategias
(Nota: los enlaces en esta publicación te llevan a explicaciones del mismo autor.)
Posibilidades infinitas
Si has sufrido un curso de posgrado sobre probabilidad avanzada y teoría de la medida como yo (mi terapeuta y yo todavía lo estamos superando más de una década después), estarás superflua mente consciente de que hay números reales infinitos . Entre otras cosas, infinito significa que si intentas enumerarlos todos, puedo llegar como un idiota y encontrarte uno nuevo, por ejemplo, sumando 1 a tu número más grande, tomando el promedio de tus dos números más cercanos o agregando un dígito al final del número con la serie más larga de dígitos después del punto decimal.
Esto también significa que si me das la lista de todos los números registrados por los humanos a lo largo de la historia de la humanidad, todavía puedo crear uno completamente nuevo. ¡Boom! El poder.
¿A dónde voy con esto, además de proporcionar material para tu próximo debate cervecero sobre si existe tal cosa como la verdadera originalidad (ugh)?
Números sintéticos
Supongamos que tienes un conjunto de datos lleno de alturas humanas. Entre cualquier par de mediciones (digamos 173 cm y 174 cm, el intervalo en el que encontrarás mi altura) hay infinitas posibilidades para un número que podrías anotar. Solo sigue alargando el decimal más allá de la capacidad razonable de nuestras herramientas de medición. Más allá de las partículas subatómicas. Más allá del sentido común. Todavía hay muchos números que podría inventar, como: 173.4335524095820398502639008342984598739874944444443842397593645873649572850263894458092843956389479592489586232342349832842849687394208287645545352525353353826482384724628732648732799999992323…
Las reglas que rigen la creación de este número estúpido están completamente fuera del ámbito de lo útil y práctico, así que cuando me pides que te dé un número que pueda representar una altura humana que puedas agregar a tu conjunto de datos, ¿cómo debo abordar tu solicitud?
Datos del mundo real
Una opción es darte datos reales de un ser humano real. Miro alrededor de la habitación, veo a mi mejor amiga Heather (historia real, ella saluda) y la mido para tu conjunto de datos. Si tu población de interés son todos los humanos, su altura sería un dato legítimo para tu conjunto de datos si (y eso es un gran si) la midiera de acuerdo con las reglas que estableciste para cómo se deben medir tu población.
Datos ruidosos
Si mido la altura de Heather en laptops (no traje una cinta métrica a nuestra escapada de fin de semana, lo siento) hasta las 13 pulgadas más cercanas mientras tú mides las alturas en milímetros usando una de esas reglas metálicas, tendremos problemas.
Cuando decimos datos ruidosos, nos referimos a que hay un error no determinista que oculta la respuesta verdadera. Y eso es exactamente lo que sucederá si se me ocurre medir a Heather en laptops. (O Smoots .)
Cualquier medición que obtengas de mí tendrá un error aleatorio incorporado que es de un perfil diferente al del resto de tus datos. Para lidiar con el problema que podríamos estar abriendo aquí, asegúrate de incluir un registro de la fuente de los datos. (¿Quién los recopiló, tú o yo?) Siempre puedes eliminar mis entradas después… siempre y cuando no se estén ocultando entre tus contribuciones legítimas.
Cuando se recopilan datos del mundo real, es sorprendentemente fácil cometer errores. Para obtener más información, echa un vistazo a mi serie sobre diseño y recopilación de datos:
El Arte Oscuro del Diseño de Datos
Luchando contra una nueva alquimia embarazosa para la era digital
towardsdatascience.com
Muestreo aleatorio simple: ¿es realmente simple?
Cómo crear un plan de muestreo para tu proyecto de datos
towardsdatascience.com
Datos hechos a mano
Supongamos que no hay nadie más para medir, pero de todos modos quieres otro punto de datos. (¿Por qué querrías hacer esto y cuáles son los pros y los contras? ¡Lee mi próximo artículo de blog!)
Entonces estás diciendo que estás de acuerdo con los datos sintéticos. (Si permites datos sintéticos en tu proyecto, ¡siempre lleva un registro de qué puntos de datos son sintéticos y cómo se crearon!)
También podría darte un punto de datos de altura inventando un número sin seguir ninguna regla en absoluto. Si soy especialmente perverso, incluso podría dar un número complejo como -5 + 60*sqrt(-1) solo para confundirte. ¿Dijiste que no podía hacerlo? Deberías haberlo dicho. Si me estás permitiendo inventar cosas, necesitas limitar mi creatividad.
¿Nada de números imaginarios? ¿De acuerdo, qué tal -100?
¿Oh, tiene que estar dentro del rango de alturas humanas reales? ¿Qué tal ese número 173.43355240… de antes?
¿Demasiados decimales porque los instrumentos de medición humanos no son tan sensibles? Bueno, ¿qué tal 173.5 cm?
Podríamos llamar a esto datos hechos a mano, ya que yo, un humano, los creé elaborando un ejemplo que me gusta.
Pero, ¿qué pasa si quisieras más de una nueva altura para tu conjunto de datos? ¿Y me dices que sea razonable y redondee mis elecciones al milímetro más cercano?
Bueno, podría dar: 173.5 cm, 182.4 cm, 175.1 cm, 190.2 cm, 180.1 cm
Todas estas son medidas humanas plausibles, pero están en el lado alto. Es probable que no representen bien tu población de interés. Están sesgados por mis ideas de cómo deberían ser las entradas en tu conjunto de datos. ¿Y qué sé yo sobre las alturas humanas de todos modos? Puedes hacerlo mejor.
Entonces hagámoslo mejor en la Parte 2, donde emprenderemos un viaje que abarcará:
- datos duplicados
- datos re-muestreados
- datos bootstrap
- datos aumentados
- datos sobremuestreados
- datos de casos límite
- datos simulados
- datos univariados
- datos bivariados
- datos multivariados
- datos multimodales
O puedes echar un vistazo a una de mis otras guías de taxonomía de datos aquí:
¿Cuántos tipos de datos puedes nombrar?
Continuo, discreto, categórico, cardinal, secuencial… sigue adelante
towardsdatascience.com
Todo acerca de la procedencia de los datos
Datos obfuscados, datos heredados, datos exhaustivos y otros duendes
towardsdatascience.com
¡Gracias por leer! ¿Qué tal un curso en YouTube?
Si te has divertido aquí y estás buscando un curso de IA aplicada completo diseñado para ser divertido tanto para principiantes como para expertos, aquí tienes el que hice para tu entretenimiento:
Disfruta del curso en YouTube aquí .
P.D. ¿Alguna vez has intentado presionar el botón de aplauso aquí en Zepes más de una vez para ver qué sucede? ❤️
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores enseñan a una IA a escribir mejores leyendas de gráficos
- Usando GANs en TensorFlow para generar imágenes
- ¿Qué es la simulación de robótica?
- Una guía para mejorar la transformación digital a través de la limpieza de datos
- Ejecución de tareas de Python Wheel en contenedores Docker personalizados en Databricks
- Aprovechando los datos de precipitación y climatología en Sudamérica
- Manteniendo la Calidad de Datos en Sistemas de Aprendizaje Automático