由于在两周内成功通过了GCP专业数据工程师考试,所以我想分享我的学习方法
由于通过了GCP(Google Cloud Platform)的专业数据工程师考试,我想分享一下学习方法。学习时间大约为两个星期左右。
我在网上查找了各种信息,但在撰写本文时几乎没有找到多少有参考性的信息,因此我一开始很困惑应该从何着手来寻找方向。
这篇文章是我个人认为如果有的话会很好的内容。
章节目录
■基本情報
・关于考试
・我在考试前的知识和经验
■考试方法
・预约考试日期
■学习方法
学习的基本方针和任务
①观看官方的教程视频
②阅读入门书籍《面向程序员的Google Cloud Platform入门》
③参加官方的模拟考试
④参加Udemy的课程
⑤解答Udemy的题库
⑥额外解答题库
■额外内容
参加考试后的感想
介绍一些考试技巧
最后
关于考试
GCP专业数据工程师的官方页面可以在此找到:
https://cloud.google.com/certification/data-engineer
-
- 試験は2時間50問で、合格ラインは非公開ですが70%くらいだと思います。
-
- 問題は選択式(一部複数選択式あり)のみで、記述や計算問題はありません。
-
- 試験は各地のテストセンターで受験します。
-
- 費用は1回2万円程度です(200ドル×ドル円レート)。
再受験は2週間後、3回目は60日後と期間を開ける必要があるようです。
詳細については「よくある質問」から再試験ポリシーを確認してください
試験時間は2時間ですが、1時間程度で解き終えられるため見直す時間も十分あります
■常见问题(包括再考试政策等)
https://cloud.google.com/certification/faqs/
以下是关于Google Cloud其他资格的列表,请点击此处查看:https://cloud.google.com/certification/
我在考试前的知识和经验
我有处理数据库的系统开发经验,但在GCP的运维经验方面尤为欠缺,所以我选择参加考试。
尽管官方推荐的要求是在行业中具有三年以上的经验(其中包括一年以上使用 GCP 进行解决方案设计和管理的经验),但我认为没有实际工作经验也没有关系。
此外,我没有其他认证资格,如GCP的Associate Cloud Engineer。
作为一名专业数据工程师,我参加这个考试是为了测试我对GCP各项服务的基本知识和根据具体业务需求和案例选择和咨询GCP服务的能力。由于我自己对数据工程和数据咨询非常感兴趣,所以我只选择了这个考试。
預約考試時間
从这里搜索JAPAN,并在附近的考试中心预约。东京、横滨、京都、大阪、福冈附近可能有,但对于地方的人可能会有困难。
https://www.kryteriononline.com/Locate-Test-Center
当我申请后,会收到一封电子邮件,我会将该电子邮件打印出来并带上去。
在活动场馆,他们会检查驾驶执照、保险证等两种身份证明文件,以确保身份真实。因此,能够接受服务的地点受到限制。考试时不允许携带任何物品。
我已经在两周后的周六傍晚预定了。为了避免时间冲突,建议您将预约安排在周六或周日的傍晚,这样就不会有早上安排的时间压力了。
学习的基本方针和难题
在GCP专业数据工程师考试中,将提供实际的业务需求,从中提取关键词并选择最适合的GCP服务。
为了更好地了解GCP的各项服务(如BigQuery,Bigtable,Dataflow等),需要对其概述有一定的了解。不仅仅通过阅读GCP文档,通过提问问题,比如“在这种情况下,是选择BigQuery还是Bigtable更适合?”,可以更容易地牢记所学知识并培养适用于GCP基础能力咨询的能力。
重要的是解決問題並隨時閱讀相關文件,整理知識。
特别是在存储方面,自己制作一张表格来理解BigQuery、Bigtable、CloudSQL、Cloud Spanner和Cloud Datastore之间的区别是必不可少的。
问题
说到这个考试的最大问题,就是(日语中)缺乏习题集。我认为要想掌握得更好,需要做很多案例分析,但只能找到官方的模拟试卷。在其他考试中,常见的习题集却找不到,真让人困扰。
于是我在Udemy上寻找了英文课程和习题集进行备考。详细信息如下所示。
关于英语
谷歌公司的文件一般都有日文版本,但最新信息和部分信息可能仍保留英文,所以具备用英文阅读技术信息的能力将十分有用。
我认为对于那些特别处理云服务的人来说,这几乎是必备技能,所以我建议你抓住这个机会熟悉英文的IT技术信息。如果有一般本科英语水平,仅阅读和理解这些文本并不会太难。
可能一开始会感到不适应,因为SQL不是读作”エスキューエル”,而是读作”シークウェル”。
以下是具体的学习步骤。
观看公式教学视频
在公式的培训视频中,他们会解释考试的概述,包括考察哪些技能,出现什么格式的问题等。我认为可以在一天内完成观看。
不只是简单地测试基础知识,而是要求能够阅读商业需求,从中选择合适的GCP服务,并且展现出高水平的咨询能力。
从Google Cloud的数据工程师认证官方页面,点击进入“准备专业数据工程师考试”的链接,然后进入“按需学习”页面。
按需视频
https://www.coursera.org/learn/preparing-cloud-professional-data-engineer-exam
从下方的课程表中点击每个视频的标题即可进行观看,虽然可能有些费解。每个章节只能点击最上方的视频进行观看,接下来的视频将会在上一个视频播放完成后自动播放。跳过了学习教材之类的内容。
建议您将视频字幕切换为英语字幕并尝试听英语音频,因为考虑未来来说这样会更有帮助。
引言介绍
谷歌大叔会用简单易懂的方式为您解释清楚。
(引用開始)
■关于考试
“专业数据工程师资格认证不仅仅是考察理论知识的资格,也考察了对一般信息的了解以及作为数据工程师如何思考和解决问题的能力。相对于只测试知识的其他资格证书,它更加困难。然而,这也正是提升该资格认证价值并在行业中得到高度评价的原因。由于是一项测试实践能力的考试,因此取得该认证非常困难,其价值也更高。”
关于必要技能的差异:
“云工程师和数据工程师利用相同的技术,
然而由于工作目标不同,所以技能也会有所不同。
数据工程师会考虑根据客户要求设计Dataproc集群的方法,
而云工程师更注重在集群上执行作业、监控和维护集群的性能测量。”
数据工程师负责设计和实施解决方案。
云工程师负责运营、监控和维护解决方案,并根据业务环境的变化进行发展。
这个考试更偏向于要求具备数据分析咨询的技能。因此,这个考试的内容主要是以实际案例为中心,让考生从商业需求出发,考虑使用Google Cloud Platform(GCP)服务提供的最佳解决方案(最佳实践)。
閱讀入門書籍
我強烈推薦這本書,它可以幫助你補充基本的IT知識,同時深入了解GCP服務的整體概念。我覺得你應該在大約2天內能讀完。
实际上注册GCP账户并创建项目的过程也将有详细的步骤介绍。在GCP上的具体操作和编码等可以忽略(虽然在实际工作中需要进行练习,但在考试中不是必需的)。
通过了解HTTP通信的机制、IP地址等现有网络和基础设施的基础知识,可以了解GCP的定位。因此,即使对基础设施方面不太熟悉的人也可以轻松入门,对于有相关知识的人来说,还可以与现有技术进行比较,因此我认为这很易懂。
参加模拟考试
暂时先去官方网站参加30道日语模拟考试,了解一下考试的形式。
https://cloud.google.com/certification/practice-exam/data-engineer
起初可能大部分都不太明白,但不用担心,没关系的。
在看答案的同时,逐步查阅相关的GCP文档来增加自己的理解是很重要的。
如果这里提出的问题出现了,我认为它将成为一个奖励问题。换句话说,模拟考试已经变得比较容易,所以不能满足于这个,还需要额外的学习。
子:爸爸,我有一个问题。
父:什么问题,孩子?
子:明天我们去公园玩?
Example paraphrased in Chinese:
孩子:爸爸,我有个疑问。
父亲:什么疑问,孩子?
孩子:明天我们能去公园玩吗?
这就是情况。这是免费公开的信息。
由於問題描述中出現了”Hadoop”這個關鍵詞,我們可以透過Cloud Dataproc機械判斷來進行篩選。
接下来,决定将数据存储在HDFS上转移到Dataproc,还是转移到Cloud Storage,哪个是Google推荐的方法(即最佳实践)。如果两者都可行,那么最佳实践就是答案。
请学会通过阅读关键词来推导出谷歌的最佳实践,以满足所提出的业务要求。这些最佳实践已在GCP官方文档中公布。
参加座谈会
Google云专业数据工程师课程【2019年更新】
https://www.udemy.com/course/learn-gcp-become-a-certified-data-engineer-express-course/
我在Udemy上学习了Big Data Engineer Samuel Lee先生的课程。
我认为这是几乎唯一涵盖了GCP数据工程师考试范围的培训。评价也很高,讲师对云服务的知识非常深入,内容也非常充实,对学习非常有帮助。
-
- 動画は4.5時間程度なので2日程度で見終えられます。
-
- 英語ですが、字幕が全編ついているので読むだけでも理解できます。
-
- 簡単な問題集もついています。全て重要です。
字幕はスクショを取っておき、試験直前に復習することをおすすめします。
価格は2400円(本記事執筆時点)ですが、たまに半額になったりするのでキャンペーンの時期を狙えたら狙ってください。
2019Updateとなっており、毎年更新しているらしく信頼性が高いです
解答問題集
谷歌云 – 专业数据工程师实践考试
https://www.udemy.com/course/google-cloud-certified-professional-data-engineer-practice-exams/
这里是最重要的地方。我在Udemy上解了题集。
-
- 価格は6,000円と高いですが、その価値はあると思います(キャンペーン価格では1,320円になっていました)
-
- 50問×4の200題構成で、重複を除くと150題のオリジナル問題です
-
- 結果はUdemy上に保存され、間違った箇所はあとで見返せるので便利です。
-
- 解説文には関連のGCPドキュメントの関連箇所が長文で引用されていて効率的に学習できます
全て英文ですが、この機会にIT英文に慣れることをおすすめします。
进行的方式
我完成了这个项目的两个循环。在观看第二个循环的解说时,我横跨问题,将知识整理到了笔记中(例如编写了一个存储比较表)。
第一周的平均正确率约为55%,而第二周则提高至85%,让我对自己充满了信心。
鉴于需要从案例研究中获取业务需求,有些问题可能很难解读,但是考虑到这次考试的难度更高,建议您不断重复做题,直到达到90%以上的理想正确率。
我建议您解决一些看起来与GCP无关且可能不会发生的小问题,例如MariaDB的MySQL连接器。问题的提出者可能有一定的原因。
解答时添加额外的习题集
如果只是以上的东西不够的话,这个也可以介绍一下,不过不做也没关系。
2019年GCP数据工程师(新考试)- 实践测试
https://www.udemy.com/course/gcp-data-engineer-2019-new-exam-practice-test/
-
- 20問×2の全40問
- 全文英語です。
这本问题集是由同样是大数据工程师的Aniruddha Anikhindi先生编写的,但质量稍微有些低。我认为其中一些答案也有错误,但通过做这套问题集,我能够发现并纠正这些错误,所以我觉得可以接受。
此外,由于遇到了许多相似的问题,我开始怀疑是否有人抄袭了。但是,也有一部分是原创的问题,我觉得做这些题目是有益的。
我之前写道质量较低,但是由于以不同角度被问及类似问题,这作为练习问题已经足够了。我已经做了两轮这个。
參加這次考試後的感受
做起来很难,让我相当焦虑。一边解题,一边在看到第一题时我开始做好了再次考试的准备,但是幸运的是我终于一次就通过了。
当然的是,大多数问题都是以原始案例研究的形式出题的。有一些像是服务问题那样简单的题目也会出现,但是有些问题会让人犹豫选择哪个选项,还会问一些意外而且细节很多的内容,让人有些焦虑。但即使不能完全做出所有题目,也可以通过考试,所以我认为最好的方法是放弃那些让人头疼的问题,像把铅笔滚过去一样,转向下一个问题。
阅读其他人的合格经验文章时,会感到他们轻松通过考试的成就感,并对此表示尊敬。但对于具有GCP和基础设施实际工作经验的人来说,这可能会显得相对容易些。
然而,由于学习日语的资料较少且内容相对高级,所以如果能够通过考试的话,可以自鸣得意一下吧。
介紹考試技巧的事項
当然的,为了谷歌公司的认证资格,比如说选择Hadoop的HDFS或者GCP的Cloud Storage,我毫不犹豫地选择GCP进行迁移。迁移到AWS或者优先选择其他公司或开源方案都基本不会考虑。
■存储相关非常重要
– 推荐在最后阶段进行复习,因为很容易忘记哪些是OLTP,哪些是OLAP。 BigQuery是OLAP,Cloud SQL和Cloud Spanner是OLTP。如果在案例研究中遇到“交易”一词,应联想到OLTP。
如果将时间序列视为Bigtable,那基本上正确。
将与NoSQL相对应的内容进行整理(Bigtable、Cloud Datastore、HBase、MongoDB、Cassandra)。
・数据较小 → 引起我对Cloud SQL的联想。数TB的数据在Cloud SQL的范围内,但是接近临界点,这是根据具体情况而定。如果是几百GB的数据,我经常听到人们提到Cloud SQL。
・云SQL可以无需调整现有应用程序进行迁移,而云Spanner则需要进行调整,这是它们之间的区别。
・如果需要全球水平扩展,大部分情况下会选择云Spanner。
・当涉及到ANSI SQL、分析和数据处理时,大部分情况下会选择BigQuery。但需要注意的是,当数据处理被称为”分析”时,可能会使用Dataflow进行转换。
当你注重存储成本时,可以将数据存储在Cloud Storage中,并使用BigQuery进行分析。当你注重性能时,可以将数据移至BigQuery,并在BigQuery中进行数据存储和分析。
以下是将云管道的基本模式作为参考来解释——Cloud Pub/Sub(数据传输)→Cloud Dataflow(数据转换)→ BigQuery(分析)和Cloud Storage(存储)。这种组合被广泛使用,并且非常常见,我们应该掌握这个基本模式。
整理好在使用Dataflow的情况下,分别使用SideInput(副输入)和SideOutput(副输出)的场景。
大致上的会话窗口!对于多个用户的每30分钟会话分析之类的情况,由于需要偏移时间进行测量,所以会出现这种情况。应用了这个概念,可以理解“每5分钟判断过去一小时内是否有访问”的情况。
理解Dataflow的update指令,能够在不停止服务的情况下进行更新。
理解数据移动和转移服务之间的区别:存储传输服务、BigQuery数据传输服务和传输设备。
如果出现Hadoop、Spark等关键词,基本可以考虑迁移到Dataproc。
我是谁
我是谁=身份识别与访问管理→是指数据访问权限设置和用户角色等
・权限应在“数据集”中设置,而不是在表中。似乎有很多试图理解数据集的问题。
理解作家和读者之间的能力(差异)。
理解观众、编辑和所有者分别可以做的事情。这容易引起混淆。
■安全性
– 理解CSEK、CMEK和CSE之间的区别和使用情况
客户提供的加密密钥(CSEK)- Customer-Supplied Encryption Keys
客户管理的加密密钥(CMEK)- Customer Managed Encryption Keys
客户端加密密钥(CSE)- Client-side encryption keys
我可以理解有些企业会担心把数据上传到云端,同时云端管理者也希望保证数据内容和加密密钥的机密性,那么应该怎么做呢?
■机器学习
·ML = 机器学习 = 机器学习
·了解Google Cloud Datalab和Dataprep的区别。Dataprep适合不懂编程的人使用。
·分类是有监督的,聚类是无监督的。
·了解Cloud AutoML和其他GCP机器学习相关的API的用法区别。
Vision AI → 对图像进行标记
Natural Language → 有两种模式,①实体提取②情感分析
Cloud Speech-to-Text API → 自动生成视频课程的字幕等
Cloud Video Intelligence API → 提取YouTube视频中的不适宜内容等
建议仔细阅读Cloud AutoML的文档,因为它似乎是一个相当推荐的工具。
只在问题集中无法涵盖的部分,大约有25%是未知的。如果根据之前学到的知识进行思考,可以通过排除法等方法至少将选项缩减到2个,所以正确率应该会显著提高。
最后
希望这篇文章能对参加GCP专业数据工程师考试的各位有所帮助。祝愿你们取得好成绩,请加油!