Googleのビジュアル言語AI PaliGemma2がリリース

Asset selection

はじめに

Googleは2024年12月5日に高性能な画像認識・理解機能を備えた新しいAIモデル「PaliGemma 2」を発表しました。PaliGemma 2は、昨年5月に登場したPaliGemmaの後継モデルで、画像処理能力が大幅に向上しているのが特徴です。

主な特徴と改善点

PaliGemma 2の最大の特徴は、モデルのサイズと画像解像度を用途に応じて選択できる点です。具体的には以下のようなオプションが用意されています。

  • モデルサイズ:3B、10B、28Bパラメータの3種類
  • 画像解像度:224px、448px、896pxの3種類

また、画像に対する理解力も大きく進化し、単に「犬がいる」といった単純な物体認識だけでなく、「茶色い犬が公園で元気よくボールで遊んでいる」といった、より詳細で文脈を踏まえた説明が可能になりました。

特筆すべきは、化学式の認識や楽譜の読み取り、空間的な推論、さらには胸部X線画像のレポート生成など、専門的な分野での性能の高さです。これにより、研究や医療など、より幅広い分野での活用が期待されています。

導入のしやすさ

既にPaliGemmaを使用している方にとって、朗報があります。PaliGemma 2は「ドロップイン置換」として設計されているため、既存のコードをほとんど変更することなく、新バージョンへの移行が可能です。また、特定の用途に合わせてファインチューニング(微調整)を行うことも容易になっています。

早速試してみたい方へ

PaliGemma 2は以下の主要なフレームワークに対応しています。

  • Hugging Face Transformers
  • Keras
  • PyTorch
  • JAX
  • Gemma.cpp

モデルとコードは、Hugging FaceとKaggleで公開されており、すぐに試すことができます。また、詳細なドキュメントやサンプルノートブックも用意されているため、初心者でも取り組みやすい環境が整っています。

Paligemma2 Vqav2 - a Hugging Face Space by merve
PaliGemma2 LoRA finetuned on VQAv2
Google | PaliGemma 2 | Kaggle
The PaliGemma family of models is inspired by PaLI-3 and based on open components such as the SigLIP vision model and Ge...

さいごに

PaliGemma 2は、高度な画像処理能力と使いやすさを兼ね備えたモデルで、専門家から初心者まで、幅広いユーザーが活用できる設計になっていることが大きな特徴と言えます。

ということで、冬休みの自由研究でこれ使ってみようかな…。時間あるかな…。

コメント