Imaginemos el futuro de las compras en el supermercado. En lugar de tener que recorrer uno a uno los pasillos para hacer las compras, basta con mirar a una cámara en la entrada. Mediante reconocimiento facial, la cámara generará una cesta con los artículos que compras con mayor frecuencia. En la caja, el pago se procesa automáticamente en tu cuenta bancaria. También puedes añadir artículos recomendados a tu lista. Aunque esto parece sacado de una película de ciencia ficción, en realidad hoy en día es posible gracias a la ciencia de datos.
Nuestro mundo está lleno de datos: datos demográficos, preferencias, historial de compras, etc. La ciencia de datos ayuda a detectar patrones y crear predicciones para muchas empresas. Un científico de datos o data scientist es un especialista que crea herramientas para resolver problemas comerciales.
El papel de un data scientist es trabajar con big data, interpretarlo y extraer su significado. Los científicos de datos desarrollan modelos de datos que se implementan en procesos empresariales. Exploremos qué hace un científico de datos, sus habilidades, responsabilidades y tareas cotidianas.
Se necesitan científicos de datos en casi cualquier industria, desde la fabricación hasta los servicios de transmisión. Por ejemplo, en el comercio minorista, un data scientist:
- analiza datos sobre el comportamiento del cliente en una tienda;
- crea un modelo para seleccionar el precio óptimo;
- se encarga de aumentar el cheque promedio;
- proporciona ganancias a la empresa.
La esencia del trabajo de un data scientist es utilizar algoritmos para comprender cuándo utilizarlos. Por ejemplo, la IA de Netflix que sugiere series de televisión y películas en función de lo que le gusta al usuario es producto de la ciencia de datos.
Los proyectos de los científicos de datos comienzan con la identificación de un problema empresarial específico. Las empresas recopilan y analizan big data, pero para formular una hipótesis o una predicción, necesitan la ayuda de los científicos de datos.
Los científicos de datos son capaces de analizar estos enormes conjuntos de datos de información, y extraer patrones y conocimientos valiosos. Recopilan información estadística relevante y comprueban la exactitud de la integridad de los datos. Después, utilizando lenguajes de programación crean modelos matemáticos basados en conjuntos de datos preparados, y presentan patrones y perspectivas en informes escritos, tablas o gráficos.
Gracias a la ciencia de datos, las empresas saben cómo aumentar sus ingresos, expandirse a nuevos mercados o invertir en nuevos productos que pueden reportarles mayores beneficios.
Comprender las matemáticas y la estadística son habilidades sólidas para un científico de datos. Son necesarias para determinar los modelos y métodos apropiados para un problema determinado. La competencia matemática permite aprender rápidamente nuevos modelos y métodos, identificar técnicas de Machine Learning y determinar la aplicabilidad del Machine Learning a una tarea específica. Los conocimientos matemáticos también son esenciales para interpretar los resultados analíticos y comprender cómo se derivan de un conjunto de datos.
Un científico de datos necesita conocimientos avanzados de programación e ingeniería de datos para coordinar proyectos con eficacia. Todo científico de datos debe comprender el Machine Learning, y ser capaz de utilizar Python y SQL.
En cuanto a las habilidades interpersonales, algunos tutores de TripleTen señalan el pensamiento lógico, el pensamiento creativo y la curiosidad. Estas habilidades ayudan a los profesionales a ver el panorama general, encontrar formas de resolver problemas únicos, y abordarlos con paciencia y profesionalismo.
Las funciones de un científico de datos se cruzan ocasionalmente con las de un analista de datos, principalmente en el análisis exploratorio de datos y la visualización de datos. No obstante, el conjunto de competencias de un científico de datos suele ser más amplio que el de un analista de datos.
Un científico de datos suele centrarse en recopilar y preparar datos, mientras que un analista de datos se concentra en interpretar y extraer información valiosa de los datos. El principal trabajo de un analista de datos es escribir consultas para recuperar datos y procesarlos para encontrar información valiosa sobre la empresa. Un analista de datos recopila información del pasado y extrae conclusiones basábdose en ella. Un científico de datos desarrolla principalmente modelos, y crea algoritmos para facilitar el análisis del futuro y hacer predicciones sobre cómo evolucionarán las cosas.
Por eso, a diferencia de los analistas de datos, un científico de datos utiliza con más frecuencia y profundidad lenguajes de programación como Python, R y SAS. Además, mientras que los conocimientos básicos de estadística, aprendizaje automático y computación en la nube son suficientes para un analista de datos, un científico de datos necesita conocimientos avanzados en estos campos.
Las tareas que resuelve un data scientist están estrictamente en orden, lo que significa que el especialista no podrá iniciar una nueva tarea hasta que se complete la anterior. No se puede construir un modelo hasta que los datos estén listos.
1. Aclara los requisitos de un problema empresarial y traducirlos a un plano matemático.
2. Prepara datos para resolver el problema: averigua de dónde obtenerlos y cómo procesar el big data para que los datos estén disponibles para el trabajo.
3. Analiza y estructura los datos.
4. Crea un modelo de aprendizaje automático que resuelva el problema.
5. Comprueba que el modelo funciona correctamente, implementándolo en un conjunto de usuarios o realizando pruebas A/B.
Sin embargo, aunque esto es una lista básica de tareas para un científico de datos, no existe una descripción completa de la jornada laboral adecuada para estos especiaistas, ni siquiera para la mayoría. Pero a menudo se repiten patrones significativos:
Codificación (~70%). La codificación es el arte más explotable en el día a día de un científico de datos profesional. La programación es muy variada; incluye la limpieza y el formateo de datos. Codificas cuando eliges un modelo de Machine Learning o un método analítico específico para tu tarea. Además, la codificación ayuda a visualizar tus conocimientos o a crear cuadros de mando para las partes interesadas.
Pensamiento crítico (~15%). Esto incluye la investigación y la búsqueda de soluciones para los problemas de una empresa. Para algunos puede ser conveniente dibujar esquemas en aplicaciones de mapas mentales y navegar por Internet simultáneamente.
Comunicación (~15%). Esto incluye la comunicación 1 a 1 con tu jefe, las presentaciones en Zoom para departamentos empresariales e incluso la mensajería constante en Slack. El tiempo de comunicación depende de los tipos de proyectos en los que trabaja el científico de datos, y de su experiencia. Cuanto más alto es el puesto, más tiempo suele dedicarse a la comunicación y la planificación.
Para trabajar, un especialista en ciencia de datos necesita dos tipos de habilidades: técnicas y extraprofesionales. Las primeras están relacionadas con disciplinas especializadas, y las segundas con las cualidades psicológicas y de gestión que son necesarias para cualquier especialista, independientemente de su profesión.
- Programación en Python y SQL.
- Matemáticas, estadística y aprendizaje automático.
- Trabajar con bases de datos y big data.
- Conocimiento de herramientas de procesamiento de big data: Apache Spark y Hadoop Mapreduce.
- Productivización de modelos.
- Nivel de inglés avanzado para leer literatura técnica.
- Comprensión de las particularidades del área de negocio y dominio.
- Buena comunicación con los compañeros.
- Buena presentación de los resultados de su trabajo.
Es esencial ser creativo a la hora de averiguar qué pasos hay que dar para convertir los datos brutos en ideas significativas para la organización, en función de los recusos disponibles. Sin embargo, esta parte del trabajo también supone un reto, ya que suele haber muchas soluciones potenciales y puede llevar tiempo determinar cuál es la mejor.
La parte más difícil del trabajo que hace un científico de datos es localizar los errores que hacen que todos los resultados del modelo no tengan sentido. Puede llevar horas revisar el código para darse cuenta de que el problema está en una coma mal colocada hace tiempo.
Hay que recordar que las principales responsabilidades de un data scientist incluyen recopilar y analizar datos, construir modelos, entrenarlos y probarlos. Un científico de datos debe comprender cómo funciona la empresa y la industria específica en la que trabaja.
Para convertirse en científico de datos, no es necesario graduarse de una universidad especializada. Una opción para aquellos que quieren adquirir estos conocimientos y habilidades en cuestión de meses es el bootcamp de ciencia de datos de TripleTen, el cual se caracteriza por ofrecer soporte completo, mentores, y material actualizado y estructurado.
El curso de científico de datos de TripleTen te introduce a la profesión y te proporciona fundamentos sólidos para convertirte en un científico de datos. Lo mejor sobre este curso es que no se necesita experiencia previa para iniciar. Pruébate como especialista en ciencia de datos en nuestro bootcamp: encuentra patrones no obvios en los datos, desarrolla hipótesis, entrena algoritmos y mucho más. Comienza el curso con una introducción gratuita.