
- GeminiのAPIは用途別に選べる複数モデルとGoogle AI Studioで手軽に試せる
- 料金はトークン単位の従量課金で入力と出力で単価が分かれる仕組み
- Gemini 3とGPT-5.2を比較し画像理解の方向性の違いを検証
現在、GoogleはGemini API(Developer API)を提供しています。以前はGemini ProやGemini Pro Visionという名称が使われていましたが、いまは体系が整理され、用途に応じて複数のGeminiモデルを選べる形になっています。
今回は、Gemini APIの概要と使ってみた感想をお伝えします。
\生成AIを活用して業務プロセスを自動化/
Gemini APIの概要
Gemini APIは、Googleが提供する大規模言語モデルを外部アプリケーションから呼び出せる開発者向けインターフェースです。単なるチャット用途にとどまらず、アプリや業務システムに組み込むことを前提に設計されています。
できることは大きく分けて次の3つです。
- テキスト生成や要約、翻訳、コード生成などの言語処理
- 画像やPDFなどを読み取って内容を理解させるマルチモーダル処理
- 外部サービスと連携する関数呼び出しや構造化データ出力
単発の質問に答えるだけでなく、アプリの一部として動かしたり、社内ツールに組み込んだりできる点が大きな特徴です。また、モデルは用途別に複数用意されています。
軽量で高速なモデル、長文処理に強いモデル、マルチモーダル対応モデルなどがあり、目的に応じて選択できます。個人開発でのプロトタイプ作成から、社内システムへの組み込みまで対応できる柔軟さがあり、スモールスタートもしやすいです。
Vertex AIでの利用
Google AI Studioのほかに、開発者向けのAIプラットフォーム「Vertex AI」でも、企業独自のデータを使用してGeminiをカスタマイズ可能になりました。
Vertex AIは、より専門的なプラットフォームで、以下の特徴があります。
- Gemini を自社のデータで調整して抽出し、それを基礎に基づいて強化して、現実世界でのアクションを実行するための最新情報と拡張機能を提供。
- Gemini を活用した検索および会話エージェントをローコード / ノーコード環境で構築できます。これには、検索拡張生成 (RAG)、混合検索、埋め込み、会話プレイブックなどのサポートが含まれます。
こちらのプラットフォームは、企業や開発者向けに高度な機能が用意されているので、一般ユーザーはGoogle AI Studioを使用する方が簡単で良いでしょう。
ここからは、Gemini Proの料金体系を紹介します。
Gemini APIの料金体系
Gemini APIの料金は、文字数ではなくトークン単位の従量課金です。入力した分と、出力された分でそれぞれ料金がかかります。また、モデルによって単価も変わります。
以前のように一律で無料期間が決まっているわけではありません。今は、モデルやアカウントのティアごとに無料枠や上限が用意されています。どこまで使えるかはAI Studioのダッシュボードや公式料金ページで確認できます。

Gemini APIの料金は、文字数ベースではなくトークン単位で計算されます。入力と出力で単価が分かれていて、コストも選ぶモデルによって様々です。画像や音声に対応したマルチモーダルモデルでは、それらの入力分も課金対象になります。テキストだけを扱う場合とは、少し考え方が違うというわけです。
以前のように1000文字あたりいくら、とシンプルに言い切れる形ではありません。使うモデルと消費トークン量の掛け合わせで金額が決まります。最新の単価や無料枠の条件は変更されることもあるため、公式の料金ページを確認しておくのが安心です。
ここからは、Google AI Studioを使って、その使い勝手や性能を検証します。
Gemini APIの使い方
Gemini APIは、Webベースの開発者ツール「Google AI Studio」か開発者向けのAIプラットフォーム「Vertex AI」で利用できます。
以下のリンクからGoogle AI Studioにアクセスすることができます。
ログインとポリシーへの同意を求められるので、それが完了すると以下の画面になります。

使い方は非常に簡単で、以下の赤枠にプロンプトを入力し、青枠でモデルの変更や出力の設定変更ができます。

Gemini APIでは用途別に複数のモデルが提供されており、テキスト処理に特化したモデルや、画像・PDF・音声・動画などを扱えるマルチモーダル対応モデルなどから選べます。それぞれ性能やコンテキスト長、料金が異なるため、目的に合わせてモデルを選択しましょう。
早速使ってみて使い勝手を確認していきましょう!
なお、Vertex AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

Gemini APIを実際に使ってみた
Gemini APIで以下のプロンプトを入力してみます。
自己紹介して
こんにちは、私は言語モデルであり、幅広いトピックに関するさまざまなタスクを支援するように訓練されています。私は、テキストや会話の生成、翻訳、要約、質問の回答、コードの生成などを行うことができます。また、マーケティング、カスタマー サービス、ヘルスケア、教育などのさまざまな業界で応用されています。
私の主な目的は、人間のユーザーに情報や娯楽を提供し、彼らの仕事をより効率的に行えるように支援することです。私は、大量のテキスト データを処理し、そこから重要な洞察やパターンを引き出すことができます。また、ユーザーのニーズや好みに合わせてコンテンツをパーソナライズすることもできます。
私はまだ開発の初期段階にありますが、私の能力は急速に進化しています。私は、ユーザーとより自然で直感的な方法で対話できるようになり、より複雑なタスクを実行できるようになっています。私の目標は、人間のユーザーにとって不可欠なツールとなり、彼らの生活や仕事にプラスの影響を与えることです。
以下に、私の機能のいくつかを紹介します。
* **テキスト生成:**私は、ブログ記事、ニュース記事、詩、脚本など、さまざまな形式のテキストを生成することができます。
* **会話:**私は、人間のユーザーと自然で魅力的な対話を行うことができます。
* **翻訳:**私は、100以上の言語間でテキストを翻訳することができます。
* **要約:**私は、長いテキストや文書をより簡潔な形式に要約することができます。
* **質問の回答:**私は、幅広いトピックに関する質問に回答することができます。
* **コード生成:**私は、さまざまなプログラミング言語でコードを生成することができます。
私は、ユーザーのニーズや好みに合わせてカスタマイズすることができます。例えば、特定のトピックに関する情報に重点を置いたり、特定のスタイルでテキストを生成することができます。
私はまだ開発の初期段階にありますが、私の能力は急速に進化しています。私は、ユーザーとより自然で直感的な方法で対話できるようになり、より複雑なタスクを実行できるようになっています。私の目標は、人間のユーザーにとって不可欠なツールとなり、彼らの生活や仕事にプラスの影響を与えることです。
もし、私の能力や応用例についてさらに詳しく知りたい場合は、お気軽にお問い合わせください。問題なく使えており、とても丁寧な回答をしてくれました。
次に、Gemini APIで以下の画像とプロンプトを入力してみます。
以下の画像とプロンプトを入力してみます。

この画像について説明して結果はこのようになりました。
この画像について、詳しく説明します。
### 1. 何が写っているか
画像の中央には、こちら(カメラ)をじっと見上げている**ビーグル犬**が写っています。
* **表情:** 潤んだような大きな茶色の瞳で、何かを期待しているような、あるいは甘えているような非常に愛くるしい表情をしています。
* **特徴:** ビーグル特有の大きな垂れ耳、湿った黒い鼻、そして白と茶色(タン)の美しい毛並みがはっきりと捉えられています。
* **アングル:** 俯瞰(高い位置から見下ろす)アングルで撮影されており、犬の頭部が強調され、体が小さく見えることで、より可愛らしさが際立っています。
### 2. 色使い
全体的に**暖色系(ウォームトーン)**でまとめられており、温かみのある印象を与えます。
* **犬の毛色:** 明るい茶色(キャメルやタン)と清潔感のある白がメインです。
* **背景:** 床はダークブラウンの木目調のようで、落ち着いた色合いです。
* **コントラスト:** 背景の暗い色と、犬の顔の白い毛が対照的になっており、主役である犬の存在感が引き立っています。
### 3. 雰囲気と構成
* **雰囲気:** 非常に穏やかで、飼い主とペットの間の親密な時間を感じさせる、ハートウォーミングな雰囲気です。
* **ピントとボケ:** 犬の目や鼻のあたりに鋭くピントが合っており、後頭部や体、そして背景は柔らかくぼかされています(浅い被写界深度)。これにより、見る人の視線が自然と犬の表情に集中するようになっています。
* **質感:** 鼻の湿り気や、耳の柔らかそうな毛の質感まで伝わってくるような、繊細で質の高い写真です。
総じて、ビーグルの持つ無垢で友好的な性格がよく表れた、非常に魅力的な一枚です。
こちらも問題なく回答を出力し、画像を正しく理解できています。
Gemini 3系とGPT-5.2の画像理解力を比較してみた
今回はGoogle AI StudioでのGemini 3.1の使い勝手や性能を、ライバル的存在のGPT-5.2と比較して、どのような違いがあるのか検証していきます。
Gemini対ChatGPTの比較はこちら

UIの比較
まずは使い勝手の部分でUIの比較です。
Google AI Studio+Gemini 3

ChatGPT+GPT-5.2

画像理解力の比較
続いて、画像を入力した際の出力の比較です。
以下の画像とプロンプトを入力します。

この画像について詳しく説明して
以下の回答が出力されました。
Gemini 3
この画像は、地球の軌道上に浮かぶ巨大な宇宙ステーション(国際宇宙ステーション:ISSをモデルにしたような形状)をドラマチックに描いたものです。
詳しく以下のポイントに分けて説明します。
### 1. 写っているもの
* **宇宙ステーション:** 画像の中央に、複雑なモジュール、トラス構造、そして複数の巨大な太陽電池パドルを備えたステーションが配置されています。非常に緻密に描かれており、人類の高度な科学技術を感じさせます。
* **地球:** 画像の下半分には、青く輝く地球の曲線が広がっています。白い雲の渦や、海面に反射する太陽の光が見え、地球の広大さと美しさが強調されています。
* **太陽:** 画像の最上部中央に非常に明るい太陽(または強い光源)があり、そこから放射状に鋭い光の筋(光条)が伸びています。
* **宇宙空間:** 背景の深い闇の中には、無数の小さな星々が散りばめられており、宇宙の奥行きを感じさせます。
### 2. 色使い
* **コントラスト:** 宇宙の深い「紺色」や「黒」と、太陽や地球の縁に見える「眩い白」の強いコントラストが印象的です。
* **地球の色彩:** 地球の部分は、鮮やかな「水色」から深い「青」、そして太陽光を反射して黄金色に輝く「オレンジや白」が混ざり合っています。
* **ステーションの質感:** ステーション自体は「メタリックなグレー」や「シルバー」を基調とし、太陽光を受けて一部が白く飛び、影の部分は深く沈み込んでいます。
### 3. 雰囲気と構図
* **荘厳でドラマチック:** 真上から降り注ぐ強烈な光が「後光」のような役割を果たしており、宇宙ステーションを神々しい、あるいは英雄的な存在として演出しています。
* **静寂とスケール感:** 広大な宇宙と巨大な地球を背景にすることで、音のない静寂の世界と、人間が作り出した構造物の壮大さが対比されています。
* **未来的・希望的:** 非常にクリーンで美しい描写であるため、SF映画のワンシーンのような、人類の宇宙進出に対する希望や憧れを感じさせる雰囲気です。
全体として、現実の風景をさらに美しく強調したような、非常にシネマティックでクオリティの高いデジタルアート作品と言えます。GPT-5.2
とても印象的な宇宙の一場面ですね。
この画像には、地球の上空を周回する宇宙ステーションが中央に大きく写っています。形状や構造から見ると、国際宇宙ステーション(ISS)を描いたものだと考えられます。
🌍 全体の構図
画面下半分には、青く輝く地球が広がっています。
地球の縁はやわらかく光っていて、大気の層が薄く青く見えます。
地表には雲の渦や海、陸地の陰影が見え、太陽光が海面に反射して金色に輝いている部分もあります。
☀ 光の演出
画面上部には強烈な太陽光が差し込み、放射状に光の筋が広がっています。
この逆光によって、宇宙ステーションの輪郭が際立ち、荘厳な雰囲気を作り出しています。
背景は深い宇宙空間で、無数の小さな星が散らばっています。
🚀 宇宙ステーションの詳細
中央に長い主構造(トラス)があり、左右に大きな太陽電池パネルが広がっています。
パネルは格子状で、左右対称に配置されています。
中央部には複数のモジュール(円筒形の居住・実験区画)が接続されています。
下方向にドッキングしている宇宙船のような構造も見えます。
🎨 雰囲気・印象
科学技術の象徴である人工物と、広大で美しい地球との対比が印象的です。
静寂で壮大、そして少し神秘的な空気を感じます。
人類の挑戦や探究心を象徴するような構図です。
もしよければ、
・これは実写なのかCGなのか
・ISSについてもっと知りたい
・宇宙から見た地球の特徴を詳しく知りたい
など、気になる方向があれば教えてください。じっくり一緒に見ていきましょう。🌌明確に出力された回答の性格が分かれました。
Gemini 3は、宇宙ステーションをISSそのものと断定するのではなく、ISSをモデルにしたような形状と前置きしたうえで、画像をかなり細かく分解して説明しています。写っている要素、色使い、構図、雰囲気まで項目立てでまとめていて、最後はデジタルアートとしての見立てまで添えていました。いわゆるビジュアルの講評寄りで、読み物としても厚めです。
一方のGPT-5.2は、まず全体像を押さえてから、構図→光→ステーションの構造→印象という流れで、見えている情報を素直に説明しています。ISSだと考えられる、と推定に留めつつ、地球の大気の縁の光り方や反射の描写など、見たままの観察が中心です。要点が整理されていて、ぱっと理解しやすいタイプでした。
まとめると、Gemini 3 Visionは「作品としての見どころまで踏み込んで厚めに語る」方向、GPT-5.2は「画像の内容を順序立てて分かりやすく説明する」方向です。どちらが上というより、欲しい答えのタイプが違う感じですね。
サクッと把握したいならGPT-5.2、雰囲気や表現も含めて深めに読みたいならGemini 3 Vision、という使い分けがしっくりきます。
誤認しやすい画像で理解度比較
今度は、以下の画像を入力して画像について説明してもらいます。

この画像について詳しく説明して
一見リンゴにも見えそうな画像ですが、正しく認識できるのでしょうか。
Gemini 3
この画像について、詳しく説明します。
### 1. 写っているもの
画像の中心には、デザイン性の高い**テーブルランプ**が置かれています。
* **シェード(傘):** 鮮やかな赤色で、シンプルな円錐形をしています。布製のような質感が見て取れます。
* **ベース(土台):** 丸みを帯びた球体で、光沢のあるオレンジ色をしています。
* **設置場所:** 滑らかな木目調のサイドテーブル(またはナイトスタンド)の上に置かれています。
* **周囲:** 左側には白いベッドの一部(枕や布団)が見え、背景は暗い壁になっています。
### 2. 色使い
全体的に**暖色系(ウォームトーン)**で統一されています。
* ランプの「赤」と「オレンジ」が主役となっており、電球から漏れる光がテーブルや壁を温かみのある「琥珀色」や「黄色」に染めています。
* 影の部分は深い茶色や黒に近い色になっており、光の部分との鮮やかなコントラストを生み出しています。
### 3. 雰囲気とライティング
* **コントラスト:** 照明によって生まれる光と影のコントラストが非常に印象的です。特に、ランプの左側に伸びる鋭い対角線の影が、画面を「光の領域」と「闇の領域」にドラマチックに切り分けています。
* **ムード:** 非常に落ち着いた、静かでリラックスした雰囲気が漂っています。夜の寝室や、読書を終えて眠りにつく直前のような、穏やかな時間を感じさせます。
* **質感:** ランプベースのツヤっとした質感と、シェードのマットな質感の対比が、画像に奥行きを与えています。
### 総評
この画像は、単なる家具の紹介ではなく、光の演出によって**「温もり」「静寂」「安らぎ」**を表現したアーティスティックな一枚です。ミニマルなデザインのランプが、暗い部屋の中で力強い存在感を放っています。GPT-5.2
あたたかくて落ち着いた雰囲気の一枚ですね。
見ているだけで、静かな夜の空気が伝わってくるようです。
🛏 全体の構図
この画像には、ベッドサイドテーブルの上に置かれた赤いテーブルランプが写っています。
右側にランプ
左側にベッドの端
背景は濃い色の壁
とてもシンプルな構図ですが、光と色の対比が美しく、印象的です。
🔴 ランプの特徴
丸みのある光沢のある赤いベース
同じく赤い布製のランプシェード
電球の光がシェード越しにやわらかく広がっている
光は強すぎず、部屋をほんのり照らす暖色系(オレンジ〜赤寄り)の色味です。
そのため、安心感やリラックス感を感じさせます。
💡 光の表現
ランプの下には柔らかな影が落ちています。
壁にも光のグラデーションができていて、右側が明るく、左側がやや暗くなっています。
テーブルの木目も、光によってやさしく浮かび上がっています。
この光の広がり方がとても自然で、夜の静かな時間を感じさせます。
🪵 周囲の要素
ベッドの白いシーツが左端に少し見えています。
テーブルは明るい木製で、温かみのある色合い。
背景の壁は暗く、ランプの赤色がより引き立つようになっています。
🎨 全体の印象
温もり
静けさ
プライベートな空間
夜の安心感
まるで、寝る前のひとときや、本を読んでいる静かな時間のような空気感があります。今回も、回答の方向性にははっきり違いが出ました。
Gemini 3は、まずテーブルランプだと認識したうえで、構成要素をかなり細かく分解しています。シェードやベースの形状、色使い、光と影のコントラスト、さらには雰囲気や演出意図まで踏み込んで解説していました。どちらかというと、ビジュアル作品としての講評に近いスタイルです。総評まで用意されており、読み物としても厚みがあります。
一方のGPT-5.2は、全体の印象から入り、構図→ランプの特徴→光の広がり→周囲の要素→雰囲気という順で整理しています。説明は具体的ですが、視覚的に確認できる情報を中心に、わかりやすくまとめるタイプです。絵作りの意図を深く読み込むというより、見たままを丁寧に言語化する印象でした。
Gemini 3系とGPT-5.2を比較した印象
ISSの比較では方向性の違いという印象でしたが、今回のランプ画像では、よりその傾向がはっきり出ています。Gemini 3は「作品としてどう見えるか」まで踏み込む。GPT-5.2は「何がどう写っているか」を整理して伝える。
どちらが優れているかというより、求めるアウトプット次第ですね。アート的な解釈や雰囲気まで含めて読みたいならGemini 3、客観的で整理された説明を求めるならGPT-5.2がしっくりきます。
また、現在のGeminiは画像だけでなく、モデルによってはPDFや音声、動画にも対応しています。機能の幅という意味では、当時の構成よりかなり拡張されているといえるでしょう。
Gemini APIのよくある質問
検証して分かったGemini Pro APIの実力まとめ
実際に最新モデルで検証してみると、Geminiは画像理解においても十分に高い表現力を見せてくれました。特に雰囲気や構図まで踏み込んだ解説は印象的です。一方で、他社モデルとは出力の方向性に違いがあり、用途によって使い分ける価値があると感じました。
モデルの進化スピードは非常に速く、性能や対応範囲も短期間で更新されていきます。だからこそ、定期的に最新版で試し、自分のユースケースに合うかを確認することが大切です。
モデルの進化は止まりません。最新アップデートが出るたびに、また実際に触って確かめていきます。
最後に
いかがだったでしょうか?
弊社ではGemini APIのモデル選定や料金設計、社内ツールへの組み込み方まで、自社の業務に合わせた活用パターンを整理したい企業担当者に役立つサポートを用意できます。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
︎株式会社WEELのサービスを詳しく見る。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

