Dataproc auf GKE-Knotenpools

Wenn Sie create oder Update einem virtuellen Dataproc on GKE-Cluster, geben Sie einen oder mehrere Knotenpools an, der virtuelle Cluster verwendet, um Jobs auszuführen (dieser Cluster wird als Cluster „verwendet von“ oder „verknüpft“ mit den angegebenen Knotenpools. Wenn ein angegebener Knotenpool in Ihrem GKE-Cluster nicht vorhanden ist, erstellt Dataproc on GKE den Knotenpool im GKE-Cluster mit den von Ihnen angegebenen Einstellungen. Wenn der Knotenpool vorhanden ist und von Dataproc erstellt wurde, wird überprüft, ob die Einstellungen mit den angegebenen übereinstimmen.

Dataproc on GKE-Knotenpooleinstellungen

Sie können die folgenden Einstellungen für Knotenpools angeben, die von Ihren Dataproc-virtuellen Clustern in GKE verwendet werden. Diese Einstellungen sind eine Teilmenge der GKE-Knotenpooleinstellungen:

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

Hinweise:

Knotenpool löschen

Wenn ein Dataproc on GKE-Cluster gelöscht wird, werden die vom Cluster verwendeten Knotenpools werden nicht gelöscht. Siehe Knotenpool löschen zum Löschen von Knotenpools, die nicht mehr von Dataproc in GKE-Clustern verwendet werden.

Knotenpoolstandort

Sie können die Zone der Knotenpools angeben, die mit Ihrem Dataproc-Cluster in GKE verknüpft sind, wenn Sie den virtuellen Cluster erstellen oder aktualisieren. Die Knotenpoolzonen müssen sich in der Region des zugehörigen virtuellen Clusters befinden.

Zuordnung von Rolle zu Knotenpool

Knotenpoolrollen werden für Spark-Treiber- und ‑Ausführeraufgaben definiert. Für alle Arten von Aufgaben wird von einem Knotenpool eine Standardrolle definiert. Dataproc on GKE-Cluster müssen Mindestens ein Knotenpool mit der Rolle default. Das Zuweisen anderer Rollen ist optional.

Empfehlung: Erstellen Sie für jeden Rollentyp separate Knotenpools, deren Knotentyp und ‑größe auf den Rollenanforderungen basieren.

Beispiel für das Erstellen eines virtuellen gcloud CLI-Clusters:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"