はじめに
GLB事業部Lakehouse部の阿部です。
先日、Databricksの認定資格であるData Engineer Professionalに合格しました。
本記事では、試験の概要と試験対策についてAssociateとの比較も含めて述べております。
Data Engineer Associate合格に向けた試験対策については、以下のブログに記載しております。
こちらも見ていただけると幸いです。
目次
Databricks Data Enginner Professional(DDEP)とは?
DDEPの試験概要について解説します。
試験概要
DDEP認定試験は試験ガイドを見ると、Databricksを使用して高度なデータエンジニアリングタスクを実行するスキルが評価される、とあります。 具体的な出題項目と出題率が公表されており、試験ガイドの内容を要約して以下に記載しました。
Databricksツーリング (20%): Databricksプラットフォームと開発者ツール(Apache Spark™など)の理解を評価。
データ処理 (30%): 最適化され清掃されたETLパイプラインの構築能力を評価。
データモデリング (20%): 一般的なデータモデリング概念を使用してデータをlakehouseにモデル化する能力を評価。
セキュリティとガバナンス (10%): データパイプラインが安全かつ信頼性があることを保証する能力を評価。
モニタリングとロギング (10%): データパイプラインの監視とロギング能力を評価。
テストとデプロイメント (10%): データパイプラインがテストされ、デプロイメント前に確認されることを保証する能力を評価。
推奨される経験としては、試験ガイドに概説されているデータエンジニアリングタスクを実施した1年以上の実務経験とあります。
とくにデータ処理とデータモデリングの範囲については、ドキュメントを見るだけではコードを動かして挙動を確認したことがある人ではないと合格は厳しいのではないかと思います。
試験ガイド(Databricks Certified Data Engineer Professional)
DDEP合格に向けた学習方法
試験合格に私が実践したことと、使用した教材を紹介します。
Udemy
私は以下の2つの講座を使用しました。
①Databricks Certified Data Engineer Professional -Preparation
Databricks Certified Data Engineer Professional -Preparation | Udemy
こちらは講義形式の講座です。 試験で出題される範囲を体系的に学びたい方にオススメします。
座学とハンズオンを合わせたレクチャーが用意されており、座学で学んだ後にnotebookを動かして挙動をみる構成になっています。
英語での説明ですが、ゆっくりかつはっきりとした発音のため、英語が苦手な方でも字幕をつければ理解できると思います。
②Practice Exams: Databricks Data Engineer Professional
Practice Exams: Databricks Data Engineer Professional | Udemy
こちらは2回分の模擬試験が用意された講座です。
①の受講が完了または実務経験が豊富な方は②を受講することをオススメします。
私は①の受講後にすぐに1回分を解き、間違えた箇所に関してはドキュメントの確認を行い、①の講義を聞き直しました。
公式ドキュメント
Udemyの問題文と関係のあるドキュメントを読みました。
Udemyの模擬試験には、解答確認時に関係のあるドキュメントをリファレンスとして記載しています。
役に立ったドキュメントを載せようと思ったのですが、模擬試験と関係のあるドキュメントはまんべんなく見ていたのでとくにこれだ!というドキュメントはありません。あえて言うなら、次の章で述べるキーワードに関するドキュメントはよく読んだ気がします。
DDEP取得に向けて勉強になったこと
試験合格に向けて多くのことが勉強になりましたが、とくに勉強になったと思うキーワードを以下に記載します。
Structured Streaming
Partitioning
CDF(Change Data Feed)
Spark UI
SCD(Slowly Changing Dimension)
Job API
実務でよく使うような機能が多く、この辺りはnotebookを動かした挙動確認をオススメします。
Associateと比較した試験の感想
Data Engineer Associateを取得しましたが、Professionalとだけあって難易度は高かったです。
これから具体的な違いを述べます。
まず、Associateは「〜のケースではDatabricksのどの機能を使えばよいか」などの機能を問う問題や、SQLの基本的な問題など、知っていれば解けるような問題も多い印象でした。
しかし、DDEP試験はData Engineerとしてユースケースに合った詳細な対応方法が求められ、コードもpysparkの実務で使うような問題が多いです。
そのため、問題文を読んでユースケースをよく把握し、何が起きているのか、どのような原因で問題が生じているのかをよく理解することが重要だと試験を受けて感じました。
Associateとの他の違いとしては、問題文が非常に長いことだと思います。(ちなみに私は1周目を解き終わる頃には残り5分程度でした。)
問題文が長いことも相まって状況理解は難しいですが、根気強く問題を読むことが重要です。
試験の後半には時間に余裕がないことに気づいたため、問題文をすべて読むのではなく、質問文を見てから問題文に関係のありそうな箇所を読んで解答する作戦に切り替えました。
受験英語でもよくあるテクニックだと思いますが、質問文を読む→質問文と関係のありそうな問題文の箇所を読む方が時間を節約できたような気がします。(ここは個人の好みもあると思います)
まとめ
DDEPの試験概要と試験対策について紹介しました。
試験勉強でなにから始めればいいか迷っている方は、まずはUdemyのPreparationの講座を受講し、試験の全体像を理解することをオススメします。
その後、試験範囲のコードを実際に動かして検証すると良いと思います。
最後までご覧いただきありがとうございます。
私たちはDatabricksを用いたデータ分析基盤の導入から内製化支援まで幅広く支援をしております。
もしご興味がある方は、お問い合わせ頂ければ幸いです。
そして、一緒に働いていただける仲間も募集中です!
Lakehouse部ではデータ&AI案件での開発及びコンサルティングを行うエンジニア/PMを募集しています。
他部署でもエンジニアを募集しておりますので、APCにご興味がある方はカジュアル面談か求人一覧からのご応募をお待ちしております。