はじめに
Googleは2024年12月5日に高性能な画像認識・理解機能を備えた新しいAIモデル「PaliGemma 2」を発表しました。PaliGemma 2は、昨年5月に登場したPaliGemmaの後継モデルで、画像処理能力が大幅に向上しているのが特徴です。
主な特徴と改善点
PaliGemma 2の最大の特徴は、モデルのサイズと画像解像度を用途に応じて選択できる点です。具体的には以下のようなオプションが用意されています。
- モデルサイズ:3B、10B、28Bパラメータの3種類
- 画像解像度:224px、448px、896pxの3種類
また、画像に対する理解力も大きく進化し、単に「犬がいる」といった単純な物体認識だけでなく、「茶色い犬が公園で元気よくボールで遊んでいる」といった、より詳細で文脈を踏まえた説明が可能になりました。
特筆すべきは、化学式の認識や楽譜の読み取り、空間的な推論、さらには胸部X線画像のレポート生成など、専門的な分野での性能の高さです。これにより、研究や医療など、より幅広い分野での活用が期待されています。
導入のしやすさ
既にPaliGemmaを使用している方にとって、朗報があります。PaliGemma 2は「ドロップイン置換」として設計されているため、既存のコードをほとんど変更することなく、新バージョンへの移行が可能です。また、特定の用途に合わせてファインチューニング(微調整)を行うことも容易になっています。
早速試してみたい方へ
PaliGemma 2は以下の主要なフレームワークに対応しています。
- Hugging Face Transformers
- Keras
- PyTorch
- JAX
- Gemma.cpp
モデルとコードは、Hugging FaceとKaggleで公開されており、すぐに試すことができます。また、詳細なドキュメントやサンプルノートブックも用意されているため、初心者でも取り組みやすい環境が整っています。
さいごに
PaliGemma 2は、高度な画像処理能力と使いやすさを兼ね備えたモデルで、専門家から初心者まで、幅広いユーザーが活用できる設計になっていることが大きな特徴と言えます。
ということで、冬休みの自由研究でこれ使ってみようかな…。時間あるかな…。
コメント