MAI-Thinking-1とは？Microsoft発の推論AIを徹底解説！性能・仕組み・ベンチマークまで紹介

押さえておきたいポイント

MAI-Thinking-1はMicrosoftがゼロから開発した35B active / 1T totalのMoE推論モデルで、第三者モデルからの蒸留を一切使わずに学習
AIME 2025で97.0%、SWE-Bench Proで52.8%を達成し、Claude Sonnet 4.6に匹敵する汎用性を持つ
STEM・エージェント・安全性の3つのRLクライムを経て単一モデルに統合するユニークな学習プロセスが特徴

2026年、Microsoft AIチームから新しい大規模推論モデルが発表されました。

今回登場した「MAI-Thinking-1」は、単なる性能向上にとどまらず、「ヒルクライミングマシン」と呼ぶ独自の開発フレームワークから生まれた最初のモデルです。第三者モデルからの蒸留を一切行わず、ゼロからトレーニングされています。

これまでの大規模言語モデル開発では、「他社モデルからの蒸留に依存した能力継承」「ベンチマーク汚染によるリスク」「推論とエージェント性能の両立の難しさ」といった課題がありました。

一方でMAI-Thinking-1は、STEM推論・エージェントコーディング・安全性の3分野でそれぞれ専門モデルを訓練し、それらを1つのモデルに統合するアプローチを採用しています。256Kトークンのコンテキスト長を持ちながら、数学・科学・コーディングの幅広い領域で高いスコアを達成。

しかし、新しい推論モデルが発表されるたびに、「既存の推論モデルと何が違うのか」「実際にどんな業務で使えるのか」「安全性はどのくらい信頼できるのか」といった疑問を抱く方も多いのではないでしょうか。

そこで本記事では、MAI-Thinking-1の概要や仕組み、特徴を整理しながら、具体的なベンチマーク結果や活用シーンについて詳しく解説します。

最後までお読みいただくことで、MAI-Thinking-1がどのような思想で設計され、どのような場面で力を発揮するのかが理解できるはずです。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

MAI-Thinking-1とは
MAI-Thinking-1の仕組み
MAI-Thinking-1の特徴
MAI-Thinking-1の安全性・制約
MAI-Thinking-1の料金
MAI-Thinking-1のライセンス
MAI-Thinking-1の使い方
1. Microsoft Foundryでの利用
【業界別】MAI-Thinking-1の活用シーン
【課題別】MAI-Thinking-1が解決できること
MAI-Thinking-1のよくある質問
MAI-Thinking-1が拓く推論AIの新時代
最後に

MAI-Thinking-1とは

MAI-Thinking-1は、Microsoft AI（MAI）チームが2026年6月に発表した大規模推論モデルです。

**参考：https://microsoft.ai/news/building-a-hillclimbing-machine-launching-seven-new-mai-models/**

35B（350億）のアクティブパラメーターと合計1T（1兆）のパラメーターを持つMixture-of-Experts（MoE）アーキテクチャを採用。推論時には512のエキスパートのうち上位8つのみが活性化されるため、巨大なモデル規模でありながら効率的な計算が可能です。

最大の特徴は、第三者モデルからの蒸留を一切行わずにゼロから学習している点。Microsoftが「ヒルクライミングマシン」と呼ぶ独自の開発フレームワークのもと、データパイプライン・学習インフラ・強化学習環境・評価を一体化し、継続的に性能を改善できる仕組みを構築しています。

STEM推論・競技プログラミング・ソフトウェアエンジニアリング・一般的な知識・安全性まで、幅広いドメインをカバー。

単語解説

【Claude Sonnet 4.6】Opus4.6に匹敵する性能をコスト効率よく実現したモデルを徹底解説！ | WEEL

大規模言語モデル（LLM）とは？仕組みや代表例、サービス、できることを徹底解説 | WEEL

【Claude Sonnet 4】コーディング・推論能力が大幅UPしたAnthropicのAIモデル！特徴から使い方まで解説 | W…

MAI-Thinking-1の仕組み

MAI-Thinking-1の開発プロセスは大きく「事前学習（Pre-training）」「中間学習（Mid-training）」「強化学習クライム（RL Climb）」の3フェーズで構成されています。

事前学習フェーズ：MAI-Base-1の構築

ベースモデルとなるMAI-Base-1は、約8000基のNVIDIA GB200 GPUを搭載したAzureクラスター上で学習されました。学習トークン数は30兆（30T）トークンに及び、Webデータ・公開GitHubコード・書籍・学術論文・ニュース・多言語テキストなど多岐にわたるソースを使用。

**参考：https://microsoft.ai/wp-content/uploads/2026/06/main_20260602_2.pdf**

注目すべきは、AIが生成した合成データを意図的に排除している点です。人間が生成したデータのみを使用することで、モデルの操縦性と頑健性を確保しています。

学習後、コンテキスト長を64Kから最終的に256Kトークンまで段階的に拡張する中間学習フェーズを経て、RLクライムの起点となる基盤モデルが完成します。

強化学習クライム：3つの専門モデルを並行訓練

RLフェーズでは、3つのドメイン特化型の専門モデルを並行して訓練。それぞれ異なる問題セットと報酬設計のもとで実施されます。

項目	内容
STEMクライム	数学・物理・化学・競技プログラミングなど、単一ターンの問題解決能力を強化。500万件以上のSTEM問題からなるSTEM Mixデータセットを活用
エージェントクライム	実際のコードリポジトリ上での多ステップ作業・ツール呼び出し・ソフトウェアエンジニアリングタスクに特化。実際のGitHub PRを起点に構築した26万超のSWE環境を使用
ヘルプフルネス＆セーフティクライム	人間の好みに沿った回答スタイル・安全性・指示遵守・誠実性を最適化。報酬モデル・AIジャッジ・検証可能な報酬を組み合わせた複合評価

各専門モデルはGRPOと自己蒸留を組み合わせた手法で数千ステップにわたって継続的に訓練されます。ゼロから推論能力を獲得するため、学習安定性の確保がとりわけ重要な課題です。

統合フェーズ：3つの専門モデルを1つに収束

3つの専門モデルをSFT（教師あり微調整）で1つの「統合モデル」に蒸留し、最後に軽量なRLクライムを実施してMAI-Thinking-1が完成します。

統合時のデータ比率はSTEMとコーディングがサンプル重みで56%と大半を占めます。単なるモデルマージではなく、各専門モデルのトレースを厳選してSFTすることで知識転移の精度を高め、推論能力を損なわずに安全性・スタイルを後付けで組み込む設計です。

3つの技術でローカルAIをアプリに統合するMicrosoft Foundry on Windowsについて、詳しくは知りたい方は以下の記事をご覧ください。

WEEL

【Microsoft Foundry on Windows】3つの技術でローカルAIをアプリに統合！仕組みから実装までを解説 | WEEL 「Microsoft Foundry on Windows」はWindows AI APIs・Foundry Local・Windows MLの3技術でローカルAIをWindowsアプリへ統合。Azure不要で無料、データを端末外に出さず低…

MAI-Thinking-1の特徴

MAI-Thinking-1には、他のモデルとは異なるいくつかの特徴があります。ここではMAI-Thinking-1の特徴について解説していきます。

STEM・コーディングベンチマーク性能

MAI-Thinking-1は数学・科学・競技コーディングを中心に、高い性能を発揮しています。

スクロールできます

ベンチマーク	MAI-Thinking-1	Sonnet 4.6	Opus 4.6	DeepSeek V3.2
AIME 2025（数学）	97.0%	95.6%	99.8%	93.1%
AIME 2026（数学）	94.5%	—	—	—
HMMT Feb 2026（数学）	84.9%	—	—	—
LCB v6（競技コーディング）	87.7%	—	—	83.3%
SWE-Bench Verified	73.5%	79.6%	80.8%	73.1%
SWE-Bench Pro	52.8%	—	53.4%	—
Terminal-Bench 2.0	46.0	59.1	65.4	46.4
GPQA Diamond（科学）	84.2%	89.9%	91.3%	82.4%

主要ベンチマークにおけるMAI-Thinking-1の性能比較（2026年時点）

AIME 2025では97.0%を達成し、Claude Sonnet 4.6（95.6%）を上回るスコア。SWE-Bench Proでは、Opus 4.6（53.4%）とほぼ同等の52.8%を記録しています。

**参考：https://microsoft.ai/news/introducing-mai-thinking-1/**

単語解説

【実装してみた】DeepSeek V3とは？性能や使い方を徹底解説！ | WEEL

ChatGPTのライバル！Claude（クロード）の実力を徹底分析！特徴・使い方・活用事例も解説 | WEEL

蒸留なし・ゼロから学習する設計思想

MAI-Thinking-1の開発で最も重視されたのが「能力は継承ではなく学習されるべき」という点です。

蒸留によって他社モデルの能力を模倣することは学習コストを下げる手段として広まっています。

しかし蒸留モデルは長期的な操縦性と頑健性に欠けるとMicrosoftは指摘。継続的な性能改善（ヒルクライミング）を安定して進めるためには、ゼロから能力を獲得することが不可欠だと判断しています。

スパースMoEアーキテクチャによる効率的な推論

MAI-Thinking-1の基盤モデルMAI-Base-1は、512のエキスパートのうち8つのみを各トークンで活性化する高スパースMoEを採用しています。全パラメーターは1兆に達しますが、推論時に動くのは35Bのみ。

アテンション層には5:1のLocal/Globalアテンション比を採用し、計算コストを抑えながら長文脈の理解力を維持します。FP8量化やAttention層のゼロ初期化による学習安定化など、細部の工夫も随所に見られます。

人間評価でSonnet 4.6を上回る簡潔さとスタイル

ベンチマーク以外に、Surge AIの評価者1,276タスクによる人間評価でも実力が確認されています。

Sonnet 4.6との比較では、「簡潔さ・関連性」「スタイルと文調」で優位にあることが判明。「指示遵守」「事実正確性」「完全性」については概ね同等です。MAI-Thinking-1がSonnet 4.6に勝ったのは49%、引き分けが6%、負けが45%という結果。

今回同時リリースされた他のMAIモデル

Microsoftは今回のリリースでMAI-Thinking-1を含む合計7つのMAIモデルを発表しました。テクニカルレポートで公開されている主要モデルを以下に整理します。

スクロールできます

モデル名	役割・特徴
MAI-Code-1-Flash	軽量なエージェント型コーディングモデル。GitHub CopilotやVS Code向け
MAI-Image-2.5	テキストから画像生成・画像編集に対応する画像モデル
MAI-Image-2.5 Flash	MAI-Image-2.5の高速・低コスト版
MAI-Voice-2	自然な音声生成モデル。15言語に対応

今回発表されたMAIモデル例

今回の7モデルリリースには、これらの研究・開発段階のモデルに加え、Microsoft CopilotやAzureサービスと統合されるバリアントも含まれると考えられます。

単語解説

GitHub Copilotとは？導入前に知っておきたい使い方・料金を徹底解説 | WEEL

MAI-Image-2とは？日本語テキストも崩れない次世代画像生成AIの特徴と活用法を徹底解説 | WEEL

MAI-Thinking-1の安全性・制約

MAI-Thinking-1では、安全性を「有害なリクエストを拒否する能力」と「正当なリクエストに応答する能力」のバランスとして定義しています。この2軸を同時に最適化することを目指した点が、安全性設計の中心です。

内部レッドチーミング

MAI-Thinking-1の開発期間中、安全性研究者と外部アノテーターによる25のポリシーカテゴリーをカバーする2,170以上のゴールベースシナリオでレッドチーミングを実施。

主要なジェイルブレイク攻撃への耐性を3カテゴリーで評価した結果は以下のとおりです。攻撃成功率（ASR）が低いほど安全性が高いことを示します。

スクロールできます

攻撃カテゴリー	MAI-Thinking-1（ASR）	GPT-5.4	Claude Opus 4.6	Claude Sonnet 4.6
Foundational（単純変換）	4.4%	7.0%	3.0%	5.7%
Compositional（複合変換）	17.6%	13.9%	17.4%	15.0%
Adaptive（適応型・マルチターン）	26.8%	32.3%	25.1%	26.4%

ジェイルブレイク攻撃成功率の比較（低いほど安全性が高い）

MAI-Thinking-1の攻撃成功率はSonnet 4.6やOpus 4.6と同等水準にあり、Foundational攻撃への耐性では4.4%という低い攻撃成功率を達成しています。

単語解説

【Claude Opus 4.6】100万トークン対応の最新モデル！新機能とベンチマーク結果を解説 | WEEL

まさかの人間越え！？GPT-5.4とは？PC自動操作・105万トークン対応モデルを徹底解説 | WEEL

独立レッドチーミング

社内評価に加え、Microsoft AI Red Team（AIRT）と第三者ベンダーによる独立したレッドチーミングも実施されました。

TAP攻撃への脆弱性が特定されたケースでは、ジェイルブレイク成功率が22%低下するまで対策データを追加。ヘイト・フェアネスで約43%、子どもの安全問題で約30%の攻撃成功率削減が確認されています。

現時点での制約と注意点

安全性評価はほぼ英語環境で実施されており、低リソース言語（ヨルバ語・テルグ語・アムハラ語・ビルマ語・クメール語・マレー語など）での多言語耐性は継続的な投資課題として明記されています。

また、マルチモーダル入力やアウトオブスコープなエージェントシナリオについては、今回の評価範囲に含まれていません。

1時間の音声を一括文字起こしできるVibeVoice-ASRについて、詳しくは知りたい方は以下の記事をご覧ください。

WEEL

【VibeVoice-ASR】1時間の音声を一括文字起こしできるMicrosoftの次世代ASRを徹底解説 | WEEL VibeVoice-ASRは最大60分の音声を切らずに一括で文字起こしし、話者分離とタイムスタンプで誰がいつ何を話したかを自動で整理できるMicrosoftの次世代ASR。64,000トークン…

MAI-Thinking-1の料金

MAI-Thinking-1の料金体系に関する詳細は公開されていません。

Microsoft CopilotやAzure AI Foundryなどのサービスを通じた提供が検討されており、エンタープライズ向けの料金体系や従量課金モデルについては今後の公式発表を待つ形となります。

本記事執筆（2026年6月）時点では、MAI-Thinking-1の具体的な料金プランは明らかにされていません。

単語解説

Copilot（BingAI）とは？使い方やChatGPTとの相違点、Copilot Visionについて解説 | WEEL

MAI-Thinking-1のライセンス

MAI-Thinking-1のライセンス情報は確認できませんでした。商用利用・配布・改変などを検討する場合は、事前にMicrosoftへの確認が必要です。

学習データについて、テクニカルレポートには「企業秘密・プライバシー上の理由でデータプロバイダーの全リストは開示しない」と明記されており、オープンソース公開のスケジュールについても現時点で公式な情報はありません。

GPT-5.5超えのオープンウェイトモデルであるMiniMax M3について、詳しくは知りたい方は以下の記事をご覧ください。

WEEL

【MiniMax M3】GPT-5.5超えのオープンウェイトモデルの性能・料金・使い方を徹底解説 | WEEL MiniMax M3は、MiniMaxが2026年6月1日に公開したオープンウェイトの次世代AIモデル。GPT-5.5を超えるコーディング性能と、独自MSAアーキテクチャによる100万トークンの超長…

MAI-Thinking-1の使い方

MAI-Thinking-1は、Microsoft FoundryもしくはMAI Playgroundを通じた提供が見込まれています。ここでは考えられるMAI-Thinking-1の使い方について簡単に触れます。

なお、MAI Playgroundでの提供はまだ始まっていません。

Microsoft Foundryでの利用

STEP

Microsoftアカウントでサインイン

Microsoft Azureにアクセスし、Microsoftアカウントでサインインします。

STEP

モデルを選択する

利用可能なモデルのリストからMAI-Thinking-1を選択しますが、本記事執筆時点ではまだ利用可能にはなっていませんでした。

**参考：https://ai.azure.com/explore/models?tid=1da05c0b-6121-440e-a6b3-6228f5f9681c**

STEP

推論タスクを入力して実行

利用可能になったら、数学の問題・コーディング課題・科学的分析など、推論能力を要するタスクを入力して結果を確認します。256Kトークンのコンテキスト長を活かした長文分析も可能でしょう。

価格据え置きで正直さと判断力が大幅強化されたClaude Opus 4.8について、詳しく知りたい方は下記の記事も併せてご覧ください。

WEEL

【Claude Opus 4.8】価格据え置きで正直さと判断力が大幅強化されたAnthropicのフラグシップモデルを徹底解… Claude Opus 4.8は、Anthropicが2026年5月28日に公開したClaudeシリーズ最新のフラグシップモデル。Opus 4.7から価格据え置きで、コード欠陥の見逃し率を約4分の1に低下さ…

【業界別】MAI-Thinking-1の活用シーン

MAI-Thinking-1の高度な推論能力とエージェント機能は、さまざまな業界における複雑な課題解決への活用が期待されます。

研究・学術機関

数学オリンピックレベルの問題や大学院レベルのSTEM問題への対応が可能です。研究者が手動で解くには時間のかかる計算・証明のドラフト作成を大幅に効率化できると考えられます。

競技プログラミングでの高スコアも示すとおり、アルゴリズム設計や計算量分析においても高い精度が期待できるでしょう。

ソフトウェア開発

SWE-bench Verified（73.5%）やSWE-Bench Pro（52.8%）のスコアが示すとおり、実際のGitHubリポジトリのIssueを読み取り、コードを修正するエージェント型コーディングに強みを持ちます。

サンドボックス実行環境と組み合わせることで、コードのデバッグ・リファクタリング・テストケース生成などの自動化が現実的な選択肢になりつつあります。

金融・コンサルティング

256Kトークンという大規模なコンテキスト長により、財務報告書・法律文書・調達仕様書など、長大なドキュメントを一括でインプットした分析が可能。

長文脈理解ベンチマーク（GraphWalks ≦128k: 90点）での高スコアが、複雑な文書処理タスクへの適性を裏付けています。

生成AIで銀行・金融業界のDX化について詳しく知りたい方は下記の記事をご覧ください。

WEEL

生成AIで銀行・金融業界のDX化！リスクと課題、活用事例を徹底解説 | WEEL 金融業界におけるDX化の課題と生成AIの活用方法について詳しく解説し、具体的な導入事例も紹介しています。生成AIがブラックボックス化したシステムの刷新や収益改善に役立…

エンタープライズ向けツール呼び出し

ツール呼び出しベンチマークが示すとおり、在庫管理・スケジューリングプラットフォーム・レポート作成・カスタマーサポートなどのエンタープライズ向けシナリオでのAPIやMCP（Model Context Protocol）連携においても活用が期待できます。

50種類以上のツールを含む複雑な環境でのタスク実行も対象として学習されており、実際の業務システムとの連携において幅広い用途に対応できると考えられます。

【課題別】MAI-Thinking-1が解決できること

ここではMAI-Thinking-1が解決できる代表的な課題を紹介します。これからMAI-Thinking-1を使おうと考えている方はぜひ参考にしてください。

高度な数学・科学的推論をAIに委任できる

これまで専門家のみが扱えたAIME・競技数学レベルの問題を97%の精度で解答。研究者や学生が行き詰まった問題のブレイクスルーに活用できる可能性があります。

500万件以上のSTEM問題からなるトレーニングデータとSymPy等の形式的検証ツールを使った報酬設計により、数学的に正確な回答生成が期待できます。

コードリポジトリのIssueを自律的に解決できる

実際のGitHubのPRやIssueを学習環境として使用した強化学習により、単純なコード補完にとどまらず、「問題の読み取り→調査→修正→テスト」という一連のエンジニアリングサイクルをエージェントとして実行できます。

SWE-bench Verifiedのスコアは、既存リポジトリへの変更が実際に機能するかを検証したものであり、実用水準の自律的なソフトウェア修正が可能といえるでしょう。

安全性を保ちながら高い有用性を両立できる

従来の推論モデルは安全性強化のために応答率が低下するケースが多くありました。

MAI-Thinking-1は安全性ゲーテッドアグリゲーターを採用しており、「安全でないレスポンスは最低報酬、有用性の高いレスポンスほど高報酬」という設計で両立を実現。

35時間の自律タスク実行を実現したAlibabaのQwen3.7-Maxについて、詳しくは知りたい方は以下の記事をご覧ください。

WEEL

【Qwen3.7-Max】35時間の自律タスク実行を実現したAlibabaの最新エージェント特化モデルを徹底解説 | WEEL Qwen3.7-Maxは、Alibabaが2026年5月のAlibaba Cloud Summit 2026で発表したエージェント特化型の最新フラッグシップAIモデル。100万トークンのコンテキストウィンドウや最…

MAI-Thinking-1のよくある質問

ここではMAI-Thinking-1のよくある質問について回答していきます。MAI-Thinking-1の使用を検討している場合には、ぜひ参考にしてみてください。

MAI-Thinking-1はどこで使えますか？

本記事執筆時点では、Microsoft CopilotやAzure AI Foundryを通じた提供が見込まれていますが、一般向けの詳細なアクセス方法は公開されていません。

MAI-Thinking-1の料金はいくらですか？

料金体系に関する詳細は公開されていません。商用利用を検討している場合は、Microsoftの営業窓口または公式サイトへの問い合わせが必要です。

MAI-Thinking-1はGPTやClaudeと比べてどうですか？

AIME 2025ではClaude Sonnet 4.6を上回る97.0%を記録しています。SWE-Bench ProではOpus 4.6とほぼ同等の52.8%です。特にSTEM・数学領域ではかなり高い性能ですが、Terminal-Bench 2.0などエージェントタスクの一部では改善の余地があります。

MAI-Thinking-1はオープンソースですか？

現時点ではオープンソース公開の予定は明らかにされていません。テクニカルレポートは公開されていますが、モデルの重みや学習データの詳細は非公開です。

MAI-Thinking-1が拓く推論AIの新時代

MAI-Thinking-1は、「ヒルクライミングマシン」という独自の開発思想に基づき、蒸留に依存せずゼロから能力を獲得した35B active / 1T total MoEの推論モデルです。

STEM・競技コーディング・エージェントコーディング・安全性という複数の専門領域を独立したRLクライムで個別に強化してから統合するアーキテクチャは、これまでの推論モデル開発の常識を一歩前に進めるものといえるでしょう。

単なる性能向上の手段にとどまらず、「シンプルさは持続可能」「科学的厳密さが近道を避ける」という考えが貫かれている点も注目です。同規模の他モデルと比較してより少ない計算コストで高い結果を出す効率性は、今後のエンタープライズ展開における大きな強みになると考えられます。

今後はマルチモーダル対応・より大規模なスケール・精緻化した能力への拡張が予定されており、Microsoftの「ヒルクライミングマシン」が継続的に性能を積み上げていくことが期待されます。

利用可能になったらぜひ皆さんも使ってみてください！

最後に

いかがだったでしょうか？

MAI-Thinking-1を活用することで、数学・科学的推論・自律的なコーディングといった高度なタスクをAIに委任できる可能性が広がります。一方で、料金・ライセンス・一般公開のタイミングは設計次第で効果が大きく変わるため、最新の公式情報を追い続けることも重要な選択肢です。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
︎株式会社WEELのサービスを詳しく見る。