Databricks基盤モデルAPI

この記事では、Databricksの基盤モデルAPIの概要を説明します。使用条件、対応機種、制限事項などが記載されています。

Databricks基盤モデルAPIとは

Mosaic AI Model Serving では、サービングエンドポイントから最先端のオープンモデルにアクセスしてクエリを実行することができる基盤モデル・APIsがサポートされるようになりました。基盤モデル APIsを使用すると、独自のモデルデプロイメントを維持することなく、高品質な生成AI モデルを活用したアプリケーションを迅速かつ簡単に構築できます。基盤モデル APIs は Databricks Designated サービスであり、顧客コンテンツを処理する際にDatabricks Geosを使用してデータ所在地を管理します。

基盤モデルAPIは、次の2つの価格体系で提供しています。

トークン単位の従量課金: これは、 Databricks上の基盤モデルへのアクセスを開始する最も簡単な方法であり、基盤モデルAPIsの使用を開始する場合にお勧めします。このモードは、高スループットアプリケーションやパフォーマンスの本番運用ワークロード向けに設計されていません。
プロビジョニングされたスループット：このモードは、すべての本番運用ワークロード、特に高スループット、パフォーマンス保証、ファインチューニングされたモデル、または追加のセキュリティ要件が必要なワークロードに推奨されます。プロビジョニングされたスループットエンドポイントは、HIPAAなどのコンプライアンス認証を取得して利用できます。

これら2つのモードの使用方法とサポートされているモデルについては、「基盤モデルAPIを使用する」を参照してください。

基盤モデルAPIを使用すると、次のことが可能になります。

追加のリソースを投資する前に、一般化されたLLMをクエリーしてプロジェクトの有効性を確認します。
カスタムモデルのトレーニングやデプロイに投資する前に、LLMベースのアプリケーションの概念実証を迅速に行うために、一般化されたLLMをクエリーします。
基盤モデルとベクトルデータベースを使用して、検索拡張生成（RAG）を使用するチャットボットを構築します。
独自のモデルをオープンな代替モデルに置き換えて、コストとパフォーマンスを最適化します。
LLMを効率的に比較して、ユースケースに最適な候補を確認したり、本番運用モデルをよりパフォーマンスの高いものと交換したりできます。
開発用または本番運用のLLMアプリケーションを、SLAに裏打ちされたスケーラブルなLLMサービスソリューションの上に構築し、本番環境のトラフィックの急増に対応できます。

要件

エンドポイント要求を認証するためのDatabricks APIトークン。
サーバーレスコンピュート（プロビジョニングされたスループットモデル用）。
サポートされているリージョンのワークスペース：
- トークン単位の従量課金が対応しているリージョン。
- プロビジョニングされたスループットのリージョン。

注：

DBRX基盤モデルを使用するプロビジョニング済みスループットワークロードについては、リージョンの可用性に関する「基盤モデルAPIの制限」を参照してください。

基盤モデルAPIを使用する

Foundation Model APIを使用するには、複数の選択肢があります。

APIsはOpenAIと互換性があるため、OpenAIクライアントを使用してクエリを実行できます。また、UI、基盤モデル APIs Python SDK、 MLflow Deployments の SDK、またはサポートされているモデルのクエリに REST API を使用することもできます。 Databricks では、拡張インタラクションには OpenAI クライアント SDK または API を使用し、機能を試すには UI を使用することをお勧めします。

スコアリングの例については、「Query 生成AI モデル」を参照してください。

トークン単位の従量課金の基盤モデルAPI

トークン単位の従量課金のモデルはDatabricksワークスペースからアクセスできるので、始めるのに推奨されます。ワークスペースでこれらにアクセスするには、左側のサイドバーの[配信中]タブに移動します。基盤モデルAPIエンドポイントリストビューの上部にあります。

次の表は、トークンごとの支払いでサポートされているモデルをまとめたものです。追加のモデル情報については「トークン単位の従量課金がサポートされるモデル」を参照してください。

これらのモデルを試してチャットしたい場合は、AI Playground を使用して行うことができます。「LLM とのチャット」および「AI Playground を使用した GenAI アプリのプロトタイプ作成」を参照してください。

重要

2024年7月23日より、Meta-Llama-3.1-70B-Instructは基盤モデルAPIのトークン単位の従量課金エンドポイントにおけるMeta-Llama-3-70B-Instructのサポートを置き換えます。
以下のモデルは現在廃止されています。推奨される交換モデルについては、廃止されたモデルを参照してください。
- Llama 2 70B Chat
- MPT 7B Instruct
- MPT 30B Instruct

モデル	タスクのタイプ	エンドポイント	注
GTE Large (英語)	Embeddings	`databricks-gte-large-en`	正規化された埋め込みは生成されません。
Meta-Llama-3.1-70B-Instruct	Chat	`databricks-meta-llama-3-1-70b-instruct`
Meta-Llama-3.1-405B-Instruct*	Chat	`databricks-meta-llama-3-1-405b-instruct`	リージョンの可用性については、基盤モデルAPIの制限を参照してください。
DBRX Instruct	Chat	`databricks-dbrx-instruct`	リージョンの可用性については、基盤モデルAPIの制限を参照してください。
Mixtral-8x7B Instruct	Chat	`databricks-mixtral-8x7b-instruct`	リージョンの可用性については、基盤モデルAPIの制限を参照してください。
BGE Large (英語)	Embeddings	`databricks-bge-large-en`	リージョンの可用性については、基盤モデルAPIの制限を参照してください。

* このモデルの使用中にエンドポイントのエラーや安定化エラーが発生した場合は、Databricks アカウントチームにお問い合わせください。

基盤モデルクエリの方法に関するガイダンスについては、 Query 生成AI モデルAPIs を参照してください。
必要なパラメーターと構文については、基盤モデルREST APIリファレンスを参照してください。

プロビジョニングされたスループットの基盤モデルAPI

プロビジョニングされたスループットは、パフォーマンスの保証を必要とする基盤モデルのワークロードに対してエンドポイントに最適化された推論を提供します。Databricks本番運用ワークロードにはプロビジョニングスループットを推奨します。プロビジョニングされたスループットの基盤モデルAPIをプロビジョニング全体でデプロイする方法のステップバイステップガイドについては、「プロビジョニングされたスループットの基盤モデルAPI」を参照してください。

プロビジョニングされたスループットのサポートには以下が含まれます。

DBRXベースなど、あらゆるサイズの基本モデル。基本モデルには、Databricks Marketplaceを使用してアクセスできます。または、Hugging Faceや他の外部ソースからダウンロードしてUnity Catalogに登録することもできます。後者のアプローチは、採用されているファインチューニングの方法に関係なく、サポートされているモデルのどのファインチューニングされたバリエーションでも機能します。
LlamaGuard-7Bのようなベースモデルのファインチューニングされたバリエーション。これには、独自のデータに基づいてファインチューニングされたモデルも含まれます。
完全にカスタマイズされた重みとトークナイザー (ゼロからトレーニングされたもの、または 基本モデルアーキテクチャ (CodeLlama) を使用して事前トレーニングされたものやその他のバリエーションなど)。

次の表は、プロビジョニングされたスループットでサポートされているモデルアーキテクチャをまとめたものです。

重要

モデルアーキテクチャ	タスクのタイプ	注
メタ Llama 3.2 3B	ChatまたはCompletion
メタ Llama 3.2 1B	ChatまたはCompletion
Meta Llama 3.1	ChatまたはCompletion
Meta Llama 3	ChatまたはCompletion
Meta Llama 2	ChatまたはCompletion
DBRX	ChatまたはCompletion	リージョンの可用性については、基盤モデルAPIの制限を参照してください。
Mistral	ChatまたはCompletion
Mixtral	ChatまたはCompletion
MPT	ChatまたはCompletion
GTE v1.5 (英語)	Embeddings	正規化された埋め込みは生成されません。
BGE v1.5 (英語)	Embeddings

制限事項

「基盤モデルのAPIs制限」を参照してください。

Databricks基盤モデルAPI