Los científicos de datos y los ingenieros de datos pueden ser nuevos títulos de trabajo, pero los roles de trabajo centrales han existido por un tiempo. Tradicionalmente, cualquier persona que analice datos se llamaría "analista de datos" y cualquier persona que crea plataformas de respaldo para respaldar el análisis de datos sería un "Desarrollador de inteligencia empresarial (BI)".

Con la aparición de Big Data, comenzaron a aparecer nuevos roles en corporaciones y centros de investigación como científicos de datos e ingenieros de datos.

Aquí hay una descripción general de las funciones del analista de datos, desarrollador de BI, científico de datos e ingeniero de datos.

Analista de datos

Los analistas de datos son profesionales de datos con experiencia en su organización que pueden consultar y procesar datos, proporcionar informes, resumir y visualizar datos. Tienen un sólido conocimiento de cómo aprovechar las herramientas y los métodos existentes para resolver un problema, y ​​ayudan a las personas de toda la empresa a comprender consultas específicas con informes y cuadros específicos. Sin embargo, no se espera que traten con el análisis de grandes datos, ni se espera que tengan los antecedentes matemáticos o de investigación para desarrollar nuevos algoritmos para problemas específicos.

Habilidades: los analistas de datos deben tener una comprensión básica de algunas habilidades básicas: estadísticas, recopilación de datos, visualización de datos, análisis exploratorio de datos,

Herramientas: Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS .

 

Desarrolladores de inteligencia de negocios

Los desarrolladores de inteligencia empresarial son expertos en datos que interactúan más estrechamente con las partes interesadas internas para comprender las necesidades de informes y luego recopilar requisitos, diseñar y crear soluciones de BI e informes para la empresa. Deben diseñar, desarrollar y dar soporte a almacenes de datos, paquetes ETL, cubos, paneles de control e informes analíticos nuevos y existentes. Además, trabajan con bases de datos, tanto relacionales como multidimensionales, y deben tener excelentes habilidades de desarrollo de SQL para integrar datos de diferentes recursos. Utilizan todas estas habilidades para satisfacer las necesidades de autoservicio de toda la empresa. Normalmente no se espera que los desarrolladores de BI realicen análisis de datos.

Habilidades: ETL, elaborar reportes, OLAP, cubos, web intelligence, business objects design,
Herramientas: Tableau, dashboard tools, SQL, SSAS, SSIS, SPSS Modeler.

 difference between data scientist and data engineer img 2

Ingeniero de datos

Los Ingenieros de datos son los profesionales de datos que preparan la infraestructura de "big data" para ser analizados por los científicos de datos. Son ingenieros de software que diseñan, construyen, integran datos de diversos recursos y administran big data. Luego, escriben consultas complejas sobre eso, se aseguran de que sea fácilmente accesible, que funcione sin problemas y que su objetivo sea optimizar el rendimiento del gran ecosistema de datos de su empresa.
También pueden ejecutar algunos ETL (Extraer, Transformar y Cargar) sobre grandes conjuntos de datos y crear grandes almacenes de datos que pueden ser utilizados para informes o análisis por científicos de datos. Más allá de eso, dado que los Ingenieros de datos se centran más en el diseño y la arquitectura, generalmente no se espera que conozcan ningún aprendizaje automático o análisis de big data.

Habilidades: Hadoop, MapReduce, Hive, Pig, Data streaming, NoSQL, SQL, programación.
Herramientas: DashDB, MySQL, MongoDB, Cassandra

 

Científico de datos

Un científico de datos es el alquimista del siglo XXI, alguien que puede convertir datos sin procesar en ideas purificadas. Los científicos de datos aplican estadísticas, aprendizaje automático y enfoques analíticos para resolver problemas empresariales críticos. Su función principal es ayudar a las organizaciones a convertir sus volúmenes de big data en información valiosa y útil.
De hecho, la ciencia de la información no es necesariamente un campo nuevo en sí, pero puede considerarse como un nivel avanzado de análisis de datos que está impulsado y automatizado por el aprendizaje automático y la informática. En otra palabra, en comparación con los "analistas de datos", además de las habilidades analíticas de datos, se espera que los científicos de datos tengan una gran capacidad de programación, una capacidad para diseñar nuevos algoritmos, manejar grandes volúmenes de datos, con cierta experiencia en el conocimiento del dominio.

Además, también se espera que los científicos de datos interpreten y entreguen con elocuencia los resultados de sus hallazgos, mediante técnicas de visualización, aplicaciones de ciencia de datos de construcción o narrando historias interesantes sobre las soluciones a sus problemas de datos (negocios).
Las habilidades de resolución de problemas de un científico de datos requieren una comprensión de los métodos de análisis de datos tradicionales y nuevos para construir modelos estadísticos o descubrir patrones en los datos. Por ejemplo, crear un motor de recomendación, predecir el mercado de valores, diagnosticar a los pacientes según su similitud o encontrar patrones de transacciones fraudulentas.
Los científicos de datos a veces pueden presentar grandes datos sin tener en cuenta un problema empresarial en particular. En este caso, se espera que el científico de datos curioso explore los datos, formule las preguntas correctas y proporcione hallazgos interesantes. Esto es complicado porque, para analizar los datos, un científico de datos sólido debe tener un conocimiento muy amplio de las diferentes técnicas en el aprendizaje automático, la minería de datos, las estadísticas y las infraestructuras de big data.

Deben tener experiencia trabajando con diferentes conjuntos de datos de diferentes tamaños y formas, y ser capaces de ejecutar sus algoritmos en datos de gran tamaño de manera efectiva y eficiente, lo que normalmente significa mantenerse actualizado con las últimas tecnologías de vanguardia. Por esta razón, es esencial conocer los fundamentos y la programación de la informática, incluida la experiencia con lenguajes y tecnologías de bases de datos (grandes / pequeñas).

Habilidades: Python, R, Scala, Apache Spark, Hadoop, machine learning, deep learning, estadistica.
Herramientas: Data Science Experience, Jupyter, RStudio.

 

Data Engineer vs Data Scientist vs Data Analyst

 

Fuente: https://cognitiveclass.ai/blog/data-scientist-vs-data-engineer/

Compartir: