【SAM2】生成AIを使ってミーム無限生成！MetaのAIの性能を徹底解説

Q: Segment Anything Model 2はダウンロードできますか？

Segment Anything Model 2は、 公式GitHub からコードやモデルを確認できます。Metaの 公式ページ にも「Download the model」が用意されているため、ローカル環境で検証したい場合は、ダウンロードして利用可能です。

Q: ComfyUIでSegment Anything Model 2は使えますか？

ComfyUIでも、Segment Anything Model 2を使うための拡張ノードが公開されています 。 ComfyUI-segment-anything-2 は、ComfyUI上でSAM 2を扱うためのノードとしてGitHubに公開されています。 ただし、これは Meta公式のSAM 2本体ではなく、サードパーティ製のComfyUI拡張 です。

押さえておきたいポイント

Segment Anything Model 2は、画像だけでなく動画内の任意のオブジェクトも高精度にセグメンテーションできるMetaのAIモデル
SAM 2.1では新しいチェックポイントや学習コードが追加され、遮蔽や似た対象への対応力を強化
クリック・ボックス・マスクで対象を指定でき、動画編集や物体追跡、研究開発など幅広い用途で活用可能

SAM 2(Segment Anything Model 2)は、Meta社が2024年7月29日に公開した画像・動画セグメンテーションモデルです。

初代SAMは、画像内の任意の対象を高精度に切り抜けるモデルとして注目されましたが、SAM 2ではそこに動画追跡・対話的な修正・リアルタイム性が加わりました。クリックやボックス、マスクなどのプロンプトで対象を指定するだけで、動画内の同じオブジェクトを後続フレームでも追跡できます。さらに、途中で追跡がずれた場合も、追加のクリックなどで簡単に修正可能です。

Metaによると、SAM 2は動画では従来法より少ない操作で高精度なセグメンテーションができ、画像でも初代SAMより高速かつ高精度に動作するとされています。

本記事では、SAM 2の概要から特徴、使い方、実際に使ってみた検証結果まで詳しく解説します。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

SAM 2の概要
SAM 2のライセンス
SAM 2の使い方
SAM 2を実際に使ってみた
SAM 2のセグメンテーション能力をさらに深堀してみた！
SAM 2のよくある質問
SAM 2は唯一無二の画像・動画セグメンテーションモデル
最後に

SAM 2の概要

SAM 2は、Meta社が2024年7月に公開した画像および動画のオブジェクトを一貫してセグメント化する「画像・動画セグメンテーションモデル」です。このモデルは、任意のフレームでのプロンプト（クリック、ボックス、マスク）を使用して対象のオブジェクトを簡単に選択でき、このように非常に高い精度で選択したオブジェクトを追跡できます。

また、SAM 2は画像を「1フレームだけの動画」として扱う設計になっており、画像と動画を同じモデルで処理できる点が特徴。動画入力時には、過去フレームの情報を保持するメモリ機構を使い、対象の見え方が変化した場合でも一貫したセグメンテーションを行います。

単語解説

生成AIのプロンプトとは？書き方・テンプレート例10選！業務効率を上げる実践テクニックを徹底解説 | WEEL

AIモデルとは？生成AI・基盤モデルを含む種類一覧と仕組み・開発での選び方を徹底解説 | WEEL

【OpenAIを超える可能性】Metaのオープンソース戦略がAI業界を塗り替えるのか！？ | WEEL

さらに、2024年9月には改良版にあたるSAM 2.1も公開されています。SAM 2.1では、新しいチェックポイントや学習コード、Webデモコードが追加され、見た目が似ているオブジェクトや遮蔽が発生するシーンへの対応も強化されています。

SAM 2.1アップデート — 参考：https://github.com/facebookresearch/sam2

SAM 2の特徴を以下にまとめます。

スクロールできます

項目	内容
画像と動画を統一的に処理	クリック・ボックス・マスクなどのプロンプトを使い、画像や動画内の任意のオブジェクトをセグメンテーションできます。
ストリーミングメモリによる動画追跡	過去フレームの情報を保持しながら動画を1フレームずつ処理するため、対象を継続的に追跡できます。
インタラクティブな修正	途中フレームで追加のプロンプトを与えることで、追跡やマスクのずれをユーザー側で修正できます。
SAM 2.1による更新	2024年9月に改良版のチェックポイントや学習コード、Webデモコードが公開されています。

SAM 2の特徴一覧表

SAM 2の学習に使用されたSA-Vデータセットは、CC BY 4.0ライセンスの下で公開されており、既存の最大のビデオセグメンテーションデータセットよりも4.5倍多くのビデオを含んでおり、53倍多くアノテーションされています。

実際の動画データの内容は、54%が屋内、46%が屋外シーンで、多様な日常のシナリオをカバーしておりモデルがさまざまな状況に対応できるように設計されています。

SA-Vデータセットに含まれる動画は、世界47カ国で収集された動画であり、契約したサードパーティ企業を通じて収集されたそうです。

ビデオカウント数 — 参考：https://ai.meta.com/datasets/segment-anything-video/

SAM 2は、学習していない新しい画像や動画に対してもセグメンテーションが可能です。

これは、SAM 2がモデルが事前に学習していない新しいデータ（画像や動画）に対しても高精度で適応できるゼロショット性能によるものです。。

これ以外にも、SA-Vデータセットを含む大規模なトレーニングにより、幅広い状況に対応できる汎用性を備えていることや、メモリ機能を用いて、過去のフレーム情報を新しい動画のセグメンテーションに活用していることも挙げられます。

Metaが開発した最新のLLMであるLlama 3.1について詳しく知りたい方はこちらの記事をご覧ください。

WEEL

【Llama 3.1】405BパラメータMeta製LLM！数々のクローズドソースを凌駕？ | WEEL WEELメディア事業LLMライターのゆうやです。 2024年7月24日、ついにMeta社からLlama 3.1が公開されました！ https://twitter.com/AIatMeta/status/1815766327463907421

単語解説

大規模言語モデル（LLM）とは？仕組みや代表例、サービス、できることを徹底解説 | WEEL

SAM 2のライセンス

スクロールできます

利用用途	可否
商用利用
改変
配布
特許使用
私的使用

SAM 2は、Apache-2.0 licenseのもとで提供されているため、商用利用や再配布等が可能になっています。

SAM 2の使い方

SAM 2は、以下のリンク先からデモを試すことができます。

SAM 2 Demo

アクセスするとこのような画面になるので、「Try it now」をクリックします。

SAM 2デモ — 参考：https://sam2.metademolab.com/

利用規約への同意が求められるので同意してください。

なお、このデモで出力された結果を商用利用することはできない点や、デモの利用データはMetaに収集される点に注意が必要です。

同意が完了すると以下のような画面になります。

SAM 2同意完了後 — 参考：https://sam2.metademolab.com/

これで、任意のビデオを入力して追跡したいオブジェクトを選択すると、セグメンテーションが開始されます。

SAM 2を実際に使ってみた

今回はあらかじめ入力されていた動画を利用して試しにサッカーボールをセグメンテーションしてみたいと思います。サッカーボールをクリックすると、このように高い精度でサッカーボールを識別してくれます。

これでオブジェクトの追跡を開始してみましょう。

すると、1秒ほどでセグメンテーションが完了し、このようになりました。

非常に高精度にオブジェクトの追跡ができていますよね！ここからは、もっと多様な動画に対してセグメンテーションを行っていきます。

SAM 2のセグメンテーション能力をさらに深堀してみた！

ここからは、SAM 2のセグメンテーション能力をさらに検証するために、いくつかの異なる場面の動画を入力して、セグメンテーションをさせてみます。

人混みの中

まずは以下の動画を入力として、特定の人物を追跡させます。

このように、動画の開始時点で全体が映っておらず、動画後半に完全に姿が映らなくなる男性を選択して追跡させてみます。

結果はこのようになりました。

最初は非常に高い精度で追跡できていましたが、前の人と被って完全に隠れてしまった後、再度映った際の追跡ができていません。

このようにモデルが正しくオブジェクトを追跡できていない場合は、そのシーンで再度ユーザー側でオブジェクトを指定することで修正できます。

スクランブル交差点

次に、さらに多くの人が歩いている夜のスクランブル交差点の動画から特定の人物が追跡できるかやってみましょう。

こちらは対象がかなり小さく、解像度も高くないので、正しく追跡できるでしょうか。

オブジェクトをこのように指定して実行します。

結果はこのようになりました。

最初は正しく追跡できていましたが、反対側の人混みとぶつかったタイミングで見失ってしまいました。

さすがにここまで小さな対象かつ大勢の人がすれ違う複雑な動画だとまだまだ厳しいのかもしれません。

空港の飛行機

最後に、空港に駐機されている飛行機や、離陸する飛行機を追跡させてみます。

ここでは、複数のオブジェクトを指定します。

結果はこのようになりました。

駐機している飛行機と離陸している飛行機を高い精度で追跡しています。

離陸する飛行機は、建物の陰に隠れてしまった後は追跡されなくなってしまっていますが、こちらは先ほどと同じように手動での修正で対応できます。

将来的にSAM 2を空港の運用・管制業務に活用すれば、業務がさらに効率化するだけでなく、2024年の初めに羽田空港で起きたような事故を未然に防ぐことができる可能性を秘めています。

SAM 2の検証結果

今回の検証の結果、SAM 2は非常に高い精度で指定したオブジェクトを追跡してくれることが確認できました。

しかし、対象が一度隠れてしまったり、小さくなったりすると追跡が外れてしまうことがあり、手動で簡単に修正できるとはいえ、さらに改善の余地はあると感じました。

将来的には、今回紹介したような空港運用業務での活用のほかに、自動運転技術や環境モニタリング、もっと身近なところだと動画編集作業の効率化等に活用できると考えられます。

実際に、このポストで紹介されているように、アニメの特定のキャラを切り抜いて、背景をグリーンバックにすることもできるようです。

今後様々な活用方法が考案されることが考えられ、その動向に目が離せません！

Stability AIが開発した1つの動画からマルチアングルやビューを生成するモデルについて詳しく知りたい方はこちらの記事をご覧ください。

WEEL

【Stable Video 4D】1つの動画からマルチアングルやビューを生成！ | WEEL 2024年7月25日にStability AIから新たなAIモデルが登場しました！新たに登場したStable Video 4Dはこれまでにない画期的なAIモデル。1本の入力動画から8つの異なる角度/視…

SAM 2のよくある質問

ここではSAM 2のよくある質問に回答していきます。利用を検討されている方はぜひ参考にしてください。

Segment Anything Model 2はダウンロードできますか？

Segment Anything Model 2は、公式GitHubからコードやモデルを確認できます。Metaの公式ページにも「Download the model」が用意されているため、ローカル環境で検証したい場合は、ダウンロードして利用可能です。

Segment Anything Model 2のarchitectureはどうなっていますか？

Segment Anything Model 2のarchitectureは、画像と動画を統一的に扱える設計になっています。SAM 2は「画像を1フレームだけの動画」として扱うことで、画像と動画の両方に対応しています。

ComfyUIでSegment Anything Model 2は使えますか？

ComfyUIでも、Segment Anything Model 2を使うための拡張ノードが公開されています。ComfyUI-segment-anything-2は、ComfyUI上でSAM 2を扱うためのノードとしてGitHubに公開されています。

ただし、これはMeta公式のSAM 2本体ではなく、サードパーティ製のComfyUI拡張です。

Segment Anything Model 2にAPIはありますか？

Segment Anything Model 2は、ChatGPTのようなWeb APIとして提供されているというより、公式GitHubのコードを使ってPythonから利用するタイプのモデルです。

GitHubには推論用のコードやモデルチェックポイントが公開されているため、開発者はローカル環境やクラウド環境に組み込んで利用できます。

単語解説

【ComfyUIで創造力が爆発】ブラウザ対応で進化した神拡張機能と本気で使い倒す始め方を解説 | WEEL

初心者でも仕事が10倍速くなるChatGPTとは？日常が変わる生成AIの使い方と注意点を解説 | WEEL

生成AIのAPIとは？業務効率を高める使い方からできること、活用事例を徹底解説 | WEEL

SAM 2は唯一無二の画像・動画セグメンテーションモデル

SAM 2は、Meta社が2024年7月に公開した画像および動画のオブジェクトを一貫してセグメント化する「画像・動画セグメンテーションモデル」です。クリック・ボックス・マスクなどのプロンプトで対象を指定するだけで、画像内のオブジェクトを切り抜いたり、動画内の同じ対象を後続フレームまで追跡したりできます。

さらに、追跡がずれた場合も途中フレームで追加プロンプトを与えることで、ユーザー側で簡単に修正可能です。SAM 2は過去フレームの情報を保持するストリーミングメモリを備えており、動画内で対象の見え方が変わっても、一貫したセグメンテーションを行いやすい設計になっています。

また、ゼロショット能力や過去のフレームデータを保持するメモリ機能を備えており、学習していない画像や動画に対しても高精度なオブジェクト追跡が可能になっています。実際に使用したところ、確かに指定したオブジェクトを高い精度で追跡してくれますが、対象が一度隠れてしまったり、小さくなったりすると追跡が外れてしまうことがありました。

2024年9月には改良版のSAM 2.1も公開されています。SAM 2.1では、新しいチェックポイントや学習コード、Webデモコードが追加されており、これからSAM 2を使う場合はSAM 2.1まで含めて確認するのがおすすめです。

最後に

いかがだったでしょうか？

動画内の人物・商品・設備を高精度に切り分けるSAM 2は、映像制作や検査業務の効率化に有効です。自社データに合わせた活用設計で、生成AIによる業務改善を具体化できます。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ