
- Segment Anything Model 2は、画像だけでなく動画内の任意のオブジェクトも高精度にセグメンテーションできるMetaのAIモデル
- SAM 2.1では新しいチェックポイントや学習コードが追加され、遮蔽や似た対象への対応力を強化
- クリック・ボックス・マスクで対象を指定でき、動画編集や物体追跡、研究開発など幅広い用途で活用可能
SAM 2(Segment Anything Model 2)は、Meta社が2024年7月29日に公開した画像・動画セグメンテーションモデルです。
初代SAMは、画像内の任意の対象を高精度に切り抜けるモデルとして注目されましたが、SAM 2ではそこに動画追跡・対話的な修正・リアルタイム性が加わりました。クリックやボックス、マスクなどのプロンプトで対象を指定するだけで、動画内の同じオブジェクトを後続フレームでも追跡できます。さらに、途中で追跡がずれた場合も、追加のクリックなどで簡単に修正可能です。
Metaによると、SAM 2は動画では従来法より少ない操作で高精度なセグメンテーションができ、画像でも初代SAMより高速かつ高精度に動作するとされています。
本記事では、SAM 2の概要から特徴、使い方、実際に使ってみた検証結果まで詳しく解説します。
\生成AIを活用して業務プロセスを自動化/
SAM 2の概要
SAM 2は、Meta社が2024年7月に公開した画像および動画のオブジェクトを一貫してセグメント化する「画像・動画セグメンテーションモデル」です。このモデルは、任意のフレームでのプロンプト(クリック、ボックス、マスク)を使用して対象のオブジェクトを簡単に選択でき、このように非常に高い精度で選択したオブジェクトを追跡できます。
さらに、2024年9月には改良版にあたるSAM 2.1も公開されています。SAM 2.1では、新しいチェックポイントや学習コード、Webデモコードが追加され、見た目が似ているオブジェクトや遮蔽が発生するシーンへの対応も強化されています。

SAM 2の特徴を以下にまとめます。
| 項目 | 内容 |
|---|---|
| 画像と動画を統一的に処理 | クリック・ボックス・マスクなどのプロンプトを使い、画像や動画内の任意のオブジェクトをセグメンテーションできます。 |
| ストリーミングメモリによる動画追跡 | 過去フレームの情報を保持しながら動画を1フレームずつ処理するため、対象を継続的に追跡できます。 |
| インタラクティブな修正 | 途中フレームで追加のプロンプトを与えることで、追跡やマスクのずれをユーザー側で修正できます。 |
| SAM 2.1による更新 | 2024年9月に改良版のチェックポイントや学習コード、Webデモコードが公開されています。 |
SAM 2の学習に使用されたSA-Vデータセットは、CC BY 4.0ライセンスの下で公開されており、既存の最大のビデオ セグメンテーションデータセットよりも4.5倍多くのビデオを含んでおり、53倍多くアノテーションされています。
実際の動画データの内容は、54%が屋内、46%が屋外シーンで、多様な日常のシナリオをカバーしておりモデルがさまざまな状況に対応できるように設計されています 。
SA-Vデータセットに含まれる動画は、世界47カ国で収集された動画であり、契約したサードパーティ企業を通じて収集されたそうです。

SAM 2は、学習していない新しい画像や動画に対してもセグメンテーションが可能です。
これは、SAM 2がモデルが事前に学習していない新しいデータ(画像や動画)に対しても高精度で適応できるゼロショット性能によるものです。。
Metaが開発した最新のLLMであるLlama 3.1について詳しく知りたい方はこちらの記事をご覧ください。

SAM 2のライセンス
| 利用用途 | 可否 |
|---|---|
| 商用利用 | ![]() |
| 改変 | ![]() |
| 配布 | ![]() |
| 特許使用 | ![]() |
| 私的使用 | ![]() |
SAM 2の使い方
SAM 2は、以下のリンク先からデモを試すことができます。
アクセスするとこのような画面になるので、「Try it now」をクリックします。

利用規約への同意が求められるので同意してください。
なお、このデモで出力された結果を商用利用することはできない点や、デモの利用データはMetaに収集される点に注意が必要です。
同意が完了すると以下のような画面になります。

これで、任意のビデオを入力して追跡したいオブジェクトを選択すると、セグメンテーションが開始されます。
SAM 2を実際に使ってみた
今回はあらかじめ入力されていた動画を利用して試しにサッカーボールをセグメンテーションしてみたいと思います。サッカーボールをクリックすると、このように高い精度でサッカーボールを識別してくれます。

これでオブジェクトの追跡を開始してみましょう。
すると、1秒ほどでセグメンテーションが完了し、このようになりました。
SAM 2のセグメンテーション能力をさらに深堀してみた!
ここからは、SAM 2のセグメンテーション能力をさらに検証するために、いくつかの異なる場面の動画を入力して、セグメンテーションをさせてみます。
人混みの中
まずは以下の動画を入力として、特定の人物を追跡させます。
このように、動画の開始時点で全体が映っておらず、動画後半に完全に姿が映らなくなる男性を選択して追跡させてみます。

結果はこのようになりました。
最初は非常に高い精度で追跡できていましたが、前の人と被って完全に隠れてしまった後、再度映った際の追跡ができていません。
このようにモデルが正しくオブジェクトを追跡できていない場合は、そのシーンで再度ユーザー側でオブジェクトを指定することで修正できます。
スクランブル交差点
次に、さらに多くの人が歩いている夜のスクランブル交差点の動画から特定の人物が追跡できるかやってみましょう。
こちらは対象がかなり小さく、解像度も高くないので、正しく追跡できるでしょうか。
オブジェクトをこのように指定して実行します。

結果はこのようになりました。
最初は正しく追跡できていましたが、反対側の人混みとぶつかったタイミングで見失ってしまいました。
さすがにここまで小さな対象かつ大勢の人がすれ違う複雑な動画だとまだまだ厳しいのかもしれません。
空港の飛行機
最後に、空港に駐機されている飛行機や、離陸する飛行機を追跡させてみます。
ここでは、複数のオブジェクトを指定します。

結果はこのようになりました。
駐機している飛行機と離陸している飛行機を高い精度で追跡しています。
離陸する飛行機は、建物の陰に隠れてしまった後は追跡されなくなってしまっていますが、こちらは先ほどと同じように手動での修正で対応できます。
将来的にSAM 2を空港の運用・管制業務に活用すれば、業務がさらに効率化するだけでなく、2024年の初めに羽田空港で起きたような事故を未然に防ぐことができる可能性を秘めています。
SAM 2の検証結果
今回の検証の結果、SAM 2は非常に高い精度で指定したオブジェクトを追跡してくれることが確認できました。
しかし、対象が一度隠れてしまったり、小さくなったりすると追跡が外れてしまうことがあり、手動で簡単に修正できるとはいえ、さらに改善の余地はあると感じました。
将来的には、今回紹介したような空港運用業務での活用のほかに、自動運転技術や環境モニタリング、もっと身近なところだと動画編集作業の効率化等に活用できると考えられます。
実際に、このポストで紹介されているように、アニメの特定のキャラを切り抜いて、背景をグリーンバックにすることもできるようです。
今後様々な活用方法が考案されることが考えられ、その動向に目が離せません!
Stability AIが開発した1つの動画からマルチアングルやビューを生成するモデルについて詳しく知りたい方はこちらの記事をご覧ください。

SAM 2のよくある質問
ここではSAM 2のよくある質問に回答していきます。利用を検討されている方はぜひ参考にしてください。
SAM 2は唯一無二の画像・動画セグメンテーションモデル
SAM 2は、Meta社が2024年7月に公開した画像および動画のオブジェクトを一貫してセグメント化する「画像・動画セグメンテーションモデル」です。クリック・ボックス・マスクなどのプロンプトで対象を指定するだけで、画像内のオブジェクトを切り抜いたり、動画内の同じ対象を後続フレームまで追跡したりできます。
さらに、追跡がずれた場合も途中フレームで追加プロンプトを与えることで、ユーザー側で簡単に修正可能です。SAM 2は過去フレームの情報を保持するストリーミングメモリを備えており、動画内で対象の見え方が変わっても、一貫したセグメンテーションを行いやすい設計になっています。
また、ゼロショット能力や過去のフレームデータを保持するメモリ機能を備えており、学習していない画像や動画に対しても高精度なオブジェクト追跡が可能になっています。実際に使用したところ、確かに指定したオブジェクトを高い精度で追跡してくれますが、対象が一度隠れてしまったり、小さくなったりすると追跡が外れてしまうことがありました。
2024年9月には改良版のSAM 2.1も公開されています。SAM 2.1では、新しいチェックポイントや学習コード、Webデモコードが追加されており、これからSAM 2を使う場合はSAM 2.1まで含めて確認するのがおすすめです。
最後に
いかがだったでしょうか?
動画内の人物・商品・設備を高精度に切り分けるSAM 2は、映像制作や検査業務の効率化に有効です。自社データに合わせた活用設計で、生成AIによる業務改善を具体化できます。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
︎株式会社WEELのサービスを詳しく見る。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

これはかなり衝撃!

