Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
A medida que el aprendizaje automático se vuelve más popular, surgen más y más preguntas sobre cómo la metodología de sus operaciones podría afectar otros proyectos de ciencia de datos. Los analistas intentan constantemente refinar y establecer técnicas que se puedan aplicar a otros esfuerzos de ciencia de datos a mayor escala.
¿Qué significa todo esto realmente? Echemos un vistazo a la ciencia de datos en su conjunto, MLOps, y cómo los esfuerzos de investigación actuales están impactando el campo más amplio.
La ciencia de datos es un campo que utiliza métodos científicos para recopilar datos no estructurados y aplicarlos a diversas aplicaciones. Se utiliza en todas las industrias para una serie de propósitos para optimizar y predecir resultados. Por ejemplo, la ciencia de datos se usa ampliamente en las finanzas estadounidenses para producir puntajes de crédito más precisos que los que podían hacer anteriormente las tres grandes agencias de crédito.
Sin embargo, las aplicaciones del campo emergente no se limitan a las finanzas. La ciencia de datos se utiliza en una variedad de campos, incluida la optimización de la cadena de suministro, el análisis de clientes, la atención médica y otros.
El aprendizaje automático, por otro lado, es una rama de la inteligencia artificial. Su propósito es simplemente desarrollar métodos para que las máquinas «aprendan». El aprendizaje automático también se utiliza en muchas áreas.
Las dos áreas están definitivamente relacionadas. La principal diferencia es que el aprendizaje automático es más aplicado y la ciencia de datos en su conjunto es más teórica (aunque tiene muchas aplicaciones prácticas, hay mucha superposición con áreas de aprendizaje automático).
Las operaciones de aprendizaje automático son mecanismos que intentan mejorar el rendimiento de las aplicaciones de aprendizaje automático. MLOps utiliza los llamados mecanismos «CI/CD» (Integración e implementación continuas) para que el software funcione de manera más eficaz y eficiente.
Aunque su uso es relativamente nuevo, los MLOps están evolucionando rápidamente a medida que los analistas trabajan para refinar sus modelos. La secuencia por la que pasan los MLOps en cualquier operación determinada implica recopilar datos, probar modelos, analizar los resultados del modelo y volver a aplicar modelos a otros conjuntos de datos.
Todavía hay problemas de precisión de datos que deben resolverse para que MLOps sea realmente efectivo. Por ejemplo, existen preocupaciones sobre cosas como la «desviación de datos». Lo que significa esto es el fenómeno de que ciertos conjuntos de datos se pierden durante el análisis, los análisis resultantes son defectuosos y los modelos posteriormente se vuelven defectuosos. Los analistas están trabajando en este problema para tratar de refinar mejor los códigos utilizados en MLOps para evitar la fuga de datos.
Como se mencionó anteriormente, el aprendizaje automático puede considerarse parte de la ciencia de datos porque la ciencia de datos es una categoría más amplia que incluye muchos subcampos diferentes. Ambos campos trabajan con datos y la codificación que se incluye en el análisis de datos. Una vez que los modelos se crean y refinan con MLOps, se pueden aplicar de manera más general a la ciencia de datos.
Aquí hay algunos ejemplos específicos de cómo la ciencia de datos puede verse afectada:
A medida que los datos se organicen más y los modelos sean más precisos, se verán mejoras en el campo de la ciencia de datos. Esto incluye cosas como:
Una vez más, los MLOps todavía están algo en su infancia y, por lo tanto, aún no es posible la estandarización completa de sus modelos para su uso potencial en la ciencia de datos en su conjunto. Sin embargo, las implicaciones teóricas para ambas áreas son enormes y de largo alcance.
Si se pueden solucionar los problemas pendientes que enfrentan los MLOps, la ciencia de datos solo puede beneficiarse. Las empresas responsables de sus operaciones solo necesitan dedicar suficiente atención y recursos al desarrollo del área, y el ritmo de mejora sistémica se acelerará.