Googleのビジュアル言語AI PaliGemma2がリリース

2024.12.10

はじめに

Googleは2024年12月5日に高性能な画像認識・理解機能を備えた新しいAIモデル「PaliGemma 2」を発表しました。PaliGemma 2は、昨年5月に登場したPaliGemmaの後継モデルで、画像処理能力が大幅に向上しているのが特徴です。

PaliGemma 2の最大の特徴は、モデルのサイズと画像解像度を用途に応じて選択できる点です。具体的には以下のようなオプションが用意されています。

また、画像に対する理解力も大きく進化し、単に「犬がいる」といった単純な物体認識だけでなく、「茶色い犬が公園で元気よくボールで遊んでいる」といった、より詳細で文脈を踏まえた説明が可能になりました。

特筆すべきは、化学式の認識や楽譜の読み取り、空間的な推論、さらには胸部X線画像のレポート生成など、専門的な分野での性能の高さです。これにより、研究や医療など、より幅広い分野での活用が期待されています。

既にPaliGemmaを使用している方にとって、朗報があります。PaliGemma 2は「ドロップイン置換」として設計されているため、既存のコードをほとんど変更することなく、新バージョンへの移行が可能です。また、特定の用途に合わせてファインチューニング（微調整）を行うことも容易になっています。

PaliGemma 2は以下の主要なフレームワークに対応しています。

モデルとコードは、Hugging FaceとKaggleで公開されており、すぐに試すことができます。また、詳細なドキュメントやサンプルノートブックも用意されているため、初心者でも取り組みやすい環境が整っています。

PaliGemma 2は、高度な画像処理能力と使いやすさを兼ね備えたモデルで、専門家から初心者まで、幅広いユーザーが活用できる設計になっていることが大きな特徴と言えます。

ということで、冬休みの自由研究でこれ使ってみようかな…。時間あるかな…。