¿Qué significa ‘Basura entra, basura sale’ al resolver problemas reales de negocios?
¿Qué significa esta frase al resolver problemas de negocios?
![Foto de Gary Chan en Unsplash](https://miro.medium.com/v2/resize:fit:640/format:webp/1*1j_5C25tFD14Gj-s5xh0yw.jpeg)
y cómo evitarlo con un flujo de trabajo práctico
En el panorama empresarial actual, confiar en datos precisos es más importante que nunca. La frase “basura entra, basura sale” captura perfectamente la importancia de la calidad de los datos para lograr soluciones exitosas basadas en datos. Si bien el uso del modelo adecuado para pronósticos o clasificación es crucial, es imposible obtener buenos resultados sin una entrada de datos confiable. Al utilizar características amplificadas generadas a partir de fuentes de datos confiables, incluso las regresiones lineales simples pueden producir resultados altamente precisos. En esta publicación de blog, discutiré la importancia de los datos en la resolución de problemas empresariales del mundo real y describiré los pasos para crear un sólido flujo de evaluación de datos que garantice la calidad de los datos de entrada para una modelización precisa y una toma de decisiones inteligente.
La Realidad en la Ciencia de Datos Aplicada
Después de trabajar como científico de datos durante más de dos años, una de mis observaciones más sorprendentes es cuánto tiempo mis colegas y yo pasamos limpiando datos. Mientras estamos en la escuela, nuestra atención generalmente se dirige a comprender los algoritmos fundamentales, los principios matemáticos subyacentes de los modelos, el proceso general de construcción de un flujo de trabajo de pronóstico, etc. A menudo trabajamos con conjuntos de datos perfectos que están redactados deliberadamente de cierta manera para que solo nos centremos en el proceso de EDA, la evaluación del modelo y las partes de ajuste fino, lo que nos lleva a subestimar la importancia de la limpieza de datos hasta que nos encontramos con datos empresariales del mundo real en la industria. Los datos empresariales reales son desordenados. El desorden proviene, pero no se limita, a lo siguiente:
- Diversidad de Fuentes de Datos: Las empresas acumulan datos de una variedad de fuentes. Por ejemplo, una empresa de comercio electrónico puede recopilar datos de las compras de los clientes, la planificación de ventas, los procesos de fabricación, las campañas de marketing, etc. Cada fuente de datos viene con sus propios formatos de datos, estructuras y niveles de calidad únicos. Las inconsistencias aquí resultan en un gran desafío más adelante al fusionar todas las fuentes de datos para su posterior análisis.
- Error Humano: La recopilación de datos requiere la participación humana, lo que aumenta la probabilidad de cometer errores durante el proceso. Los errores cometidos por los humanos, como errores tipográficos, incorrectos…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Meta revela nueva herramienta de codificación Code Llama
- Decodificando emociones Revelando sentimientos y estados mentales con EmoTX, un novedoso marco de inteligencia artificial impulsado por Transformer
- Deprecación de la autenticación de Git utilizando contraseña
- Comenzando con la IA
- Puntuación F1 Una guía visual – Y por qué no te salvará de los datos desequilibrados
- Conoce Cursive Un Marco de Inteligencia Artificial Universal e Intuitivo para Interactuar con LLMs
- Deci presenta DeciCoder un modelo de lenguaje grande de código abierto con 1 billón de parámetros para generación de código.