Google stellt Gemini 2.0 vor: KI mit erweiterten Fähigkeiten

Google hat mit Gemini 2.0 eine neue Generation von Künstlicher Intelligenz vorgestellt, die selbstständig Aufgaben ausführen und mit verschiedenen Datentypen interagieren kann. Dieser Fortschritt markiert einen bedeutenden Schritt in der Entwicklung von digitalen Assistenten, die nicht nur Informationen bereitstellen, sondern auch aktiv Handlungen ausführen.

Neue Funktionen und Anwendungsbereiche

Gemini 2.0 baut auf seinem Vorgängermodell Gemini 1.5 auf und erweitert dessen Fähigkeiten erheblich. Neben der Verarbeitung von Text, Bildern und Audiodaten kann das System nun auch eigenständig Bilder und Audioinhalte generieren. Zudem greift es direkt auf Google-Dienste wie die Suchfunktion zu und kann Programmcode ausführen.

Ein zentrales Element der neuen Version ist das “Project Mariner”. Dieser Prototyp ermöglicht es der KI, wie ein Mensch durch Webseiten zu navigieren, inklusive Klicken, Scrollen und Tippen. “Das System wurde so programmiert, dass sensible Aktionen wie Käufe nur mit ausdrücklicher Zustimmung des Nutzers erfolgen”, erklärte Tulsee Doshi, Managerin bei Google.

Beispiele für praktische Anwendungen sind die Suche nach Bauteilen für Hobbyprojekte, die die KI direkt in den Warenkorb legen kann, oder das eigenständige Erstellen von Multimediainhalten. Die finale Entscheidung bleibt jedoch stets beim Nutzer.

Google-CEO über die neue Ära der KI-Agenten

Sundar Pichai, CEO von Google, bezeichnete Gemini 2.0 als Beginn einer “neuen Ära der Agenten”. Im Vergleich zur ersten Generation, die hauptsächlich Informationen organisierte, sei die neue Version deutlich vielseitiger und könne Aufgaben in mehreren Schritten planen und ausführen. “Diese KI handelt immer im Auftrag der Nutzer und bleibt dabei unter ihrer Kontrolle”, betonte Pichai.

Erweiterte Anwendungen und Entwicklung

Google plant, Gemini 2.0 in verschiedene Produkte zu integrieren. Ein Beispiel ist das “Project Astra”, bei dem eine smarte Brille entwickelt wird, die Zusatzinformationen zu Bauwerken oder Kunstwerken einblenden kann. Für Entwickler gibt es ebenfalls Fortschritte: Die Variante Gemini Flash 2.0 kann lokal auf Computern und bestimmten Smartphones genutzt werden.

Die neue KI-Version wird zunächst von ausgewählten Testpersonen erprobt. Ab Januar 2025 soll die multimodale Ausgabe allen Entwicklern zugänglich gemacht werden.

Zukunftsperspektiven

Google setzt mit Gemini 2.0 neue Maßstäbe in der KI-Entwicklung. Von der Integration in alltägliche Anwendungen bis hin zu speziellen Tools für Entwickler zeigt die neue Generation, wie KI zunehmend eigenständig und nutzerorientiert arbeiten kann. Dies ist ein weiterer Schritt in Richtung einer KI-gestützten Zukunft.