O Dataproc no GKE permite executar aplicativos de Big Data usando a API jobs
do Dataproc em clusters do GKE.
Use o console do Google Cloud, a CLI do Google Cloud ou a API Dataproc
(solicitações HTTP ou bibliotecas de cliente do Cloud) para
criar um cluster virtual do Dataproc no GKE e envie um job do Spark, PySpark, SparkR ou Spark-SQL para o serviço do Dataproc.
O Dataproc no GKE oferece suporte às versões do Spark 3.5.
Como funciona o Dataproc no GKE
Dataproc no GKE implanta clusters virtuais do Dataproc em um cluster do GKE. Não gostei Dataproc em clusters do Compute Engine; Os clusters virtuais do Dataproc on GKE não incluem VMs mestre e de trabalho. Em vez disso, ao criar um cluster virtual do Dataproc no GKE, O Dataproc no GKE cria pools de nós em um cluster do GKE. Os jobs do Dataproc no GKE são executados como pods nesses pools de nós. Os pools de nós e a programação de pods nos pools de nós são gerenciados pelo GKE.