Home Empfohlen Google Open Sources PaliGemma 2 KI-Modell, das visuelle Eingaben „sehen“ kann

Google Open Sources PaliGemma 2 KI-Modell, das visuelle Eingaben „sehen“ kann

6
0
Google Open Sources PaliGemma 2 KI-Modell, das visuelle Eingaben „sehen“ kann



Google stellte am Donnerstag den Nachfolger seines Vision-Sprachmodells PaliGemma für künstliche Intelligenz (KI) vor. Die Familie der KI-Modelle mit dem Namen PaliGemma 2 übertrifft die Fähigkeiten der älteren Generation. Der in Mountain View ansässige Technologieriese sagte, das Vision-Language-Modell könne visuelle Eingaben wie Bilder und andere visuelle Elemente sehen, verstehen und mit ihnen interagieren. Es basiert auf den im August veröffentlichten Gemma 2 Small Language Models (SLM). Interessanterweise behauptete der Technologieriese, dass das Modell Emotionen in den hochgeladenen Bildern analysieren könne.

Google PaliGemma KI-Modell

In einem Blogbeitragstellte der Technologieriese das neue KI-Modell PaliGemma 2 detailliert vor. Während Google über mehrere Vision-Language-Modelle verfügt, war PaliGemma das erste derartige Modell in der Gemma-Familie. Vision-Modelle unterscheiden sich von typischen Large Language Models (LLMs) dadurch, dass sie über zusätzliche Encoder verfügen, die visuelle Inhalte analysieren und in vertraute Datenform umwandeln können. Auf diese Weise können Visionsmodelle die Außenwelt technisch „sehen“ und verstehen.

Ein Vorteil eines kleineren Vision-Modells besteht darin, dass es für eine große Anzahl von Anwendungen verwendet werden kann, da kleinere Modelle auf Geschwindigkeit und Genauigkeit optimiert sind. Da PaliGemma 2 Open-Source ist, können Entwickler seine Fähigkeiten nutzen, um Apps zu integrieren.

Das PaliGemma 2 ist in drei verschiedenen Parametergrößen erhältlich: 3 Milliarden, 10 Milliarden und 28 Milliarden. Es ist auch in den Auflösungen 224p, 448p und 896p verfügbar. Aus diesem Grund behauptet der Technologieriese, dass es einfach sei, die Leistung des KI-Modells für eine Vielzahl von Aufgaben zu optimieren. Google gibt an, detaillierte, kontextrelevante Bildunterschriften zu generieren. Es kann nicht nur Objekte identifizieren, sondern auch Handlungen, Emotionen und die Gesamterzählung der Szene beschreiben.

Google betonte, dass das Tool zur Erkennung chemischer Formeln, zur Erkennung von Musikpartituren, zum räumlichen Denken und zur Erstellung von Röntgenberichten des Brustkorbs verwendet werden kann. Das Unternehmen hat außerdem eine veröffentlicht Papier im Online-Preprint-Journal arXiv.

Entwickler und KI-Enthusiasten können das PaliGemma 2-Modell und seinen Code auf Hugging Face und Kaggle herunterladen Hier Und Hier. Das KI-Modell unterstützt Frameworks wie Hugging Face Transformers, Keras, PyTorch, JAX und Gemma.cpp.



Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here