Las canalizaciones de datos suelen realizarse según uno de los paradigmas extracción y carga (EL); extracción, carga y transformación (ELT), o extracción, transformación y carga (ETL). En este curso, abordaremos qué paradigma se debe utilizar para los datos por lotes y cuándo corresponde usarlo. Además, veremos varias tecnologías de Google Cloud para la transformación de datos, incluidos BigQuery, la ejecución de Spark en Dataproc, grafos de canalización en Cloud Data Fusion y procesamiento de datos sin servidores en Dataflow. Los estudiantes obtienen experiencia práctica en la compilación de componentes de canalizaciones de datos en Google Cloud con Qwiklabs.


您将学到什么
Revisar los diferentes métodos de carga de datos: EL, ELT y ETL, y cuándo corresponde usarlos.
Ejecutar Hadoop en Dataproc, usar Cloud Storage y optimizar trabajos de Dataproc.
Compilar tus canalizaciones para el procesamiento de datos con Dataflow.
Administrar canalizaciones de datos con Data Fusion y Cloud Composer.
您将获得的技能
要了解的详细信息

添加到您的领英档案
5 项作业
了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有4个模块
Aprenderás la función esencial de un ingeniero de datos en el desarrollo y mantenimiento de canalizaciones de datos por lotes, comprenderás sus componentes principales y su ciclo de vida, y analizarás los desafíos comunes en el procesamiento de datos por lotes. También identificarás los servicios clave de Google Cloud que abordan estos desafíos.
涵盖的内容
1个作业2个插件
Diseñarás canalizaciones de datos por lotes escalables para la transferencia y transformación de datos de gran volumen. También optimizarás trabajos por lotes para lograr una alta capacidad de procesamiento y rentabilidad con diversas técnicas de administración de recursos y ajuste de rendimiento.
涵盖的内容
1个作业2个应用程序项目6个插件
Desarrollarás reglas de validación de datos y lógica de limpieza para garantizar la calidad de los datos en las canalizaciones por lotes. También implementarás estrategias para administrar la evolución de esquemas y realizar la anulación de duplicación de datos en grandes conjuntos de datos.
涵盖的内容
1个作业1个应用程序项目6个插件
Organizarás flujos de trabajo complejos de canalizaciones de datos por lotes para una programación eficiente y un seguimiento de linaje. También implementarás un manejo de errores, una supervisión y una observabilidad sólidos para las canalizaciones de datos por lotes.
涵盖的内容
2个作业1个应用程序项目6个插件
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师

提供方
从 Cloud Computing 浏览更多内容
状态:免费试用Google Cloud
状态:免费试用
状态:免费试用
人们为什么选择 Coursera 来帮助自己实现职业发展




学生评论
45 条评论
- 5 stars
71.11%
- 4 stars
24.44%
- 3 stars
2.22%
- 2 stars
0%
- 1 star
2.22%
显示 3/45 个
已于 Jun 29, 2020审阅
excelente material, buena explicación de conceptos claves para la creación de pipelines, y porque elegir dataflow en vez de datafusion
已于 Aug 23, 2021审阅
Excelente curso, muy bien explicado, las parcticas son muy utiles
已于 Dec 13, 2023审阅
se me presentaron varios problemas con los laboratorios
常见问题
Yes, you can preview the first video and view the syllabus before you enroll. You must purchase the course to access content not included in the preview.
If you decide to enroll in the course before the session start date, you will have access to all of the lecture videos and readings for the course. You’ll be able to submit assignments once the session starts.
Once you enroll and your session begins, you will have access to all videos and other resources, including reading items and the course discussion forum. You’ll be able to view and submit practice assessments, and complete required graded assignments to earn a grade and a Course Certificate.
更多问题
提供助学金,



