Tarifs de Dataproc sans serveur

Dataproc | Dataproc sans serveur | Dataproc Metastore

Les tarifs de Dataproc sans serveur pour Spark sont basés sur le nombre d'instances Unités (DCU), le nombre d'accélérateurs utilisés et la quantité de stockage de brassage utilisé. Les unités de calcul de données, les accélérateurs et le stockage en mode aléatoire sont facturés à la seconde, avec un Une durée minimale de facturation d'une minute pour les unités de calcul de données et le stockage en mode aléatoire, et la durée minimale de facturation de cinq minutes pour les accélérateurs.

Chaque vCPU Dataproc compte pour 0,6 DCU. La RAM est facturée différemment inférieures ou supérieures à 8 Go. Chaque gigaoctet de RAM en dessous de 8 Go par vCPU est comptabilisé comme 0,1 DCU, et chaque gigaoctet de RAM au-delà de 8 Go par vCPU équivaut à 0,2 DCU. La mémoire utilisée par les exécuteurs et les exécuteurs Spark, ainsi que l'utilisation de la mémoire système sont comptabilisées pour l'utilisation des unités de calcul de données.

Par défaut, chaque service Dataproc sans serveur pour les charges de travail interactives et par lot Spark consomme au moins 12 unités de calcul de données pour la durée de la charge de travail: le pilote utilise 4 vCPU et 16 Go de RAM et consomme 4 unités de calcul de données, et chacun des deux exécuteurs utilise 4 vCPU et 16 Go de RAM et consomme 4 unités de calcul de données. Vous pouvez personnaliser le nombre et la quantité de mémoire par vCPU en définissant Propriétés Spark : Aucuns frais supplémentaires pour les VM Compute Engine ou les disques persistants ne s'appliquent.

Tarifs des unités de calcul de données

Le taux de unités de calcul de données indiqué ci-dessous est un taux horaire. Il est calculé au prorata et facturé selon seconde, avec une durée de recharge minimale d'une minute. Si vous ne payez pas en USD, les prix indiqués dans votre devise sur SKU Cloud Platform s'appliquent.

Dataproc sans serveur pour les charges de travail interactives Spark est facturé au tarif Premium.

Tarifs du stockage Shuffle

Le taux de stockage de brassage indiqué ci-dessous est un tarif mensuel. Il est proratisé et facturé à la seconde, avec une facturation minimale d'une minute pour le stockage aléatoire standard et une durée minimale de 5 minutes pour le stockage Premium de brassage. Lecture aléatoire premium l'espace de stockage ne peut être utilisé qu'avec les unités de calcul Premium.

Si vous ne payez pas en USD, les prix indiqués dans votre devise sur SKU Cloud Platform s'appliquent.

Tarifs pour les accélérateurs

Le taux d'accélération indiqué ci-dessous est un tarif horaire. Il est calculé au prorata et facturé selon seconde, avec une durée de recharge minimale de cinq minutes. Si vous ne payez pas en USD, les prix indiqués dans votre devise sur SKU Cloud Platform s'appliquent.

Exemple de tarification

Si la charge de travail par lot Dataproc sans serveur pour Spark s'exécute avec 12 unités de calcul de données (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) pendant 24 heures dans la région us-central1 et consomme 25 Go de stockage aléatoire, le calcul du prix est le suivant.

Total compute cost = 12 * 24 * $0.060000 = $17.28
Total storage cost = 25 * ($0.040/30¹) = $0.03
------------------------------------------------
Total cost = $17.28 + $0.03 = $17.31

Remarques :

Dans cet exemple, le mois est de 30 jours. Comme la durée de la charge de travail par lot est de jour, le tarif mensuel de stockage du brassage est divisé par 30.

Si la charge de travail par lot Dataproc sans serveur pour Spark s'exécute avec 12 unités de calcul de données et deux GPU L4 (spark.driver.cores=4,spark.executor.cores=4, spark.executor.instances=2,spark.dataproc.driver.compute.tier=premium, spark.dataproc.executor.compute.tier=premium, spark.dataproc.executor.disk.tier=premium, spark.dataproc.executor.resource.accelerator.type=l4) pendant 24 heures dans le us-central1 et utilise 25 Go de stockage en mode aléatoire, le calcul des prix se présente comme suit.

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.1/30¹) = $0.083
Total accelerator cost = 2 * 24 * $0.6720 = $48.39
------------------------------------------------
Total cost = $25.632 + $0.083 + $48.39 = $74.105

Remarques :

Dans cet exemple, le mois est de 30 jours. Comme la durée de la charge de travail par lot est de jour, le tarif mensuel de stockage du brassage est divisé par 30.

Si la charge de travail interactive Dataproc sans serveur pour Spark s'exécute avec 12 unités de calcul de données (spark.driver.cores=4,spark.executor.cores=4,spark.executor.instances=2) pendant 24 heures dans la région us-central1 et consomme 25 Go de stockage aléatoire, Le calcul du prix est le suivant:

Total compute cost = 12 * 24 * $0.089000 = $25.632
Total storage cost = 25 * ($0.040/30¹) = $0.03
------------------------------------------------
Total cost = $25.632 + $0.03 = $25.662

Remarques :

Dans cet exemple, le mois est de 30 jours. Comme la durée de la charge de travail par lot est de jour, le tarif mensuel de stockage du brassage est divisé par 30.

Exemple d'estimation de tarification

Lorsqu'une charge de travail par lot est terminée, Dataproc sans serveur pour Spark calcule UsageMetrics, qui contiennent une approximation du total de la DCU, de l'accélérateur et du brassage de stockage consommées par la charge de travail terminée. Après avoir exécuté une charge de travail, vous pouvez exécuter gcloud dataproc batches describe BATCH_ID pour afficher les métriques d'utilisation des charges de travail afin de vous aider à estimer le coût d'exécution la charge de travail.

Exemple :

Dataproc sans serveur pour Spark exécute une charge de travail sur un cluster éphémère avec un nœud maître et deux nœuds de calcul. Chaque nœud consomme 4 unités de calcul de données (par défaut, 4 unités de calcul de données par Core (voir spark.dataproc.driver.disk.size) et 400 Go de stockage en mode aléatoire (par défaut, 100 Go par cœur, voir spark.driver.cores). La durée d'exécution de la charge de travail est de 60 secondes. De plus, chaque nœud de calcul dispose d'un GPU pour 2 sur l'ensemble du cluster.

L'utilisateur exécute gcloud dataproc batches describe BATCH_ID --region REGION. pour obtenir des métriques d'utilisation. Le résultat de la commande inclut l'extrait de code suivant : (milliDcuSeconds: 4 DCUs x 3 VMs x 60 seconds x 1000 = 720000, milliAcceleratorSeconds: 1 GPU x 2 VMs x 60 seconds x 1000 = 120000 et shuffleStorageGbSeconds: 400GB x 3 VMs x 60 seconds = 72000):

runtimeInfo:
  approximateUsage:
    milliDcuSeconds: '720000'
    shuffleStorageGbSeconds: '72000'
    milliAcceleratorSeconds: '120000'

Utilisation d'autres ressources Google Cloud

Votre charge de travail Dataproc sans serveur pour Spark peut éventuellement utiliser le ressources suivantes, chacune facturée selon son propre tarif, y compris, mais sans s'y limiter:

Étape suivante

Consultez la documentation Dataproc sans serveur.
Faites vos premiers pas avec Dataproc sans serveur.
Essayez le Simulateur de coût.

Demander un devis personnalisé

Avec le paiement à l'usage de Google Cloud, vous ne payez que pour les services que vous utilisez. Contactez notre équipe commerciale pour obtenir un devis personnalisé pour votre entreprise.

Contacter le service commercial