Google präsentiert Gemini 2.0: Fortschritt bei KI-Agenten

Mit Gemini 2.0 hat Google eine revolutionäre Weiterentwicklung seiner Künstlichen Intelligenz präsentiert. Das System ist in der Lage, eigenständig Aufgaben zu erledigen, verschiedene Datentypen zu verarbeiten und eng mit anderen Google-Diensten zu interagieren.

Neue Funktionen und Fähigkeiten

Gemini 2.0 erweitert die Möglichkeiten seines Vorgängers Gemini 1.5 deutlich. Neben der Verarbeitung von Text, Bildern und Audioinhalten kann die neue Version auch selbst Bilder und Audioausgaben generieren. Außerdem kann sie eigenständig auf Google-Produkte wie die Suchfunktion zugreifen und sogar Programmcode ausführen.

Besonders hervorzuheben ist das „Project Mariner“. Dieses Feature ermöglicht es der KI, wie ein Mensch Webseiten zu navigieren, zu scrollen, zu klicken und Eingaben zu tätigen. „Das System wurde so programmiert, dass es sensible Handlungen wie Käufe nur mit Zustimmung des Nutzers ausführt“, erklärte Tulsee Doshi, Managerin bei Google.

Ein Beispiel für den Einsatz: Die KI kann Bauteile für ein Hobbyprojekt in einem Onlineshop suchen und sie direkt in den Warenkorb legen – die finale Kaufentscheidung trifft jedoch weiterhin der Nutzer.

„Neue Ära der Agenten“

Google-CEO Sundar Pichai bezeichnet Gemini 2.0 als Beginn einer „neuen Ära der Agenten“. Während die erste Generation sich darauf konzentrierte, Informationen zu organisieren und bereitzustellen, kann die neue Version komplexe Aufgaben mehrstufig planen und umsetzen. Pichai betonte: „Diese KI arbeitet im Auftrag des Nutzers und bleibt vollständig unter dessen Kontrolle.“

Innovative Anwendungen und Integration

Neben klassischen Anwendungen plant Google, Gemini 2.0 in weitere Projekte zu integrieren. So arbeitet das Unternehmen mit „Project Astra“ an einer smarten Brille, die Zusatzinformationen zu Bauwerken oder Kunstwerken einblenden kann. Für Entwickler bietet die neue Version zusätzliche Flexibilität: Die Variante Gemini Flash 2.0 lässt sich lokal auf Computern und bestimmten Smartphones ausführen.

Gemini 2.0 wird zunächst von ausgewählten Entwicklern und Testpersonen genutzt. Ab Januar 2025 soll die multimodale Ausgabe für alle Entwickler zugänglich sein. Google plant außerdem, die KI schrittweise in weitere Produkte zu integrieren.

Blick in die Zukunft

Mit Gemini 2.0 zeigt Google die Möglichkeiten der nächsten Generation von KI-Agenten. Von der eigenständigen Bearbeitung komplexer Aufgaben bis hin zur Integration in den Alltag markiert diese Entwicklung einen wichtigen Schritt in Richtung einer KI-gestützten Zukunft. Dabei bleibt der Nutzer stets im Zentrum der Kontrolle, wie Google betont.