Gemini markiert den Beginn einer neuen Ära in der künstlichen Intelligenz bei Google. Damit symbolisiert Google den zweiseitigen Ansatz bei der Entwicklung von KI: einerseits die Integration in alltägliche Geräte und Dienste, andererseits die Bereitstellung fortschrittlicher KI-Lösungen für komplexe Probleme. Dabei ist Gemini ein Sprachmodell und keine App oder Frontend, weswegen Bard als Benutzerschnittstelle dient, die den Zugriff auf Gemini-Modelle ermöglicht.
Welche Bedeutung hat Gemini im Kontext der KI Entwicklung?
Das von CEO Sundar Pichai angekündigte bahnbrechende Sprachmodell wurde erstmals auf der I/O Entwicklerkonferenz im Juni angedeutet und kürzlich offiziell eingeführt. Mit Gemini wird es möglich, mit digitaler Geschwindigkeit ganz neue Durchbrüche bei der Datenverarbeitung und Datenauswertung zu generieren.
Gemini repräsentiert einen bedeutenden Fortschritt in der KI-Technologie, der sich laut Pichai und Demis Hassabis, CEO von Google DeepMind, auf fast alle Google-Produkte auswirken wird. Diese Innovation wird als Googles größtes Forschungs- und Entwicklungsprojekt angesehen und gilt als die Zukunft des Unternehmens in der KI-Domäne. Sie stellt einen Quantensprung dar, da Gemini über multimodale Fähigkeiten verfügt. Es wurde darauf trainiert, nicht nur mit Text, sondern auch mit Audio, Bildern und Video zu arbeiten. Diese Fähigkeiten unterscheiden Gemini von früheren Modellen wie Googles LaMDA, die nur auf Textdaten trainiert wurden.
Welche Fähigkeiten besitzt Google Gemini?
Gemini besteht aus verschiedenen Modellen, die auf unterschiedliche Anwendungsfälle zugeschnitten sind: Gemini Nano für Android-Geräte, Gemini Pro für Google AI Services und Bard, sowie Gemini Ultra für Rechenzentren und direkte Unternehmensanwendungen.
Die Version Gemini Nano ist ein effizientes Modell für die direkte Verarbeitung von Aufgaben auf einem Endgerät mit Android 14, wie dem Pixel Pro 8. Durch die Unterstützung von KI werden auf dem Smartphone neue Funktionen möglich, wie schnelle Zusammenfassungen des Gesprochenen in der Rekorder App oder “intelligente Antworten” in Chat-Apps wie WhatsApp.
Gemini Pro dient zur Verarbeitung eines breiten Aufgabenspektrums, weswegen es bereits in Google Bard integriert wurde, um die Informationsverarbeitung und -planung zu verbessern. Seit dem 13. Dezember 2023 können Entwickler:innen und Unternehmenskunden über die Gemini API oder Google Cloud Vertex AI auf die Pro Version zugreifen.
Das größte und leistungsfähigste Modell für die Verarbeitung hochkomplexer Aufgaben ist Gemini Ultra. Es ist das erste Modell, das menschliche Expert:innen im Massive Multitask Language Understanding Test (MMLU) übertroffen hat. Dieses Testergebnis wurde möglich, da Gemini in der Lage ist, vor der Beantwortung der Fragen eine genaue Analyse der Aufgaben durchzuführen und dementsprechend spezifische Antworten zu generieren. Auch in Disziplinen wie Mathematik oder Code übertrifft Gemini Ultra die neueste Version von GPT-4. Da aktuell noch umfangreiche Sicherheitsprüfungen und Vertrauensprüfungen durch externe Partner durchgeführt werden, ist Gemini Ultra aktuell noch nicht für die Verbraucher:innen verfügbar.
Die drei verschiedenen Modelle zeichnen sich durch ihre Multimodalität aus, d.h. sie können Informationen aus verschiedenen Datenquellen interpretieren und vereinheitlichen. Besonders hervorzuheben sind die logischen und konzeptionellen Fähigkeiten von Gemini, die deutlich leistungsfähiger und schneller auf den von Google selbst entwickelten Tensor Processing Units v4 und v5e laufen. Die vollen Fähigkeiten dieser Gemini-Modelle sind noch nicht in allen Produkten verfügbar, aber Google verspricht, sie in naher Zukunft einzuführen.
Wie sieht es mit den Sicherheitsfaktoren bei Gemini aus?
Bei Gemini stehen Verantwortung und Sicherheit im Mittelpunkt. Aus diesem Grund beinhaltet Gemini die umfassendsten Sicherheitsbewertungen aller bisherigen AI-Modelle von Google. Im Fokus stehen Toxizität und Voreingenommenheit. In diesem Zuge entwickelte Google spezielle Sicherheitsklassifikatoren, um zum Beispiel Gewalt zu kennzeichnen und auszusortieren. Zur Identifikation interner Schwachpunkte in den Bewertungsansätzen arbeitet Google mit externen Partnern zusammen und verwendete beim Trainieren des AI Modells Benchmarks wie Real Toxicity Prompts. Diesen verschiedenen Prompts beinhalten unterschiedliche Toxizitätsgrade und wurden am Allen Institute of AI entwickelt.
Wie positioniert sich Gemini am Markt?
Gemini steht in direktem Wettbewerb mit anderen großen Sprachmodellen wie GPT-4 von OpenAI, unterscheidet sich jedoch durch seine Integration in verschiedene Google-Geräte und -Plattformen. Durch die Bereitstellung von Modellen unterschiedlicher Größe erfüllt Google sowohl die alltäglichen Bedürfnisse der Verbraucher als auch die anspruchsvollen Anforderungen von Entwickler:innen und Unternehmen. Es ist bereits in Bard und über die Vertex AI verfügbar, einer vollständig von Google verwalteten Entwicklerplattform, mit Plänen für eine breitere Einführung in andere Dienste und Anwendungen.
Wie sieht die Zukunft von Google Gemini aus?
Die Zukunft von Google Gemini ist vielversprechend. Durch die Integration in Kernprodukte wie die Google-Suchmaschine und SGE, Werbeprodukte und den Chrome-Browser plant Google die weltweite Einführung des Modells. Gemini Ultra, das für hochkomplexe Aufgaben gedacht ist, befindet sich noch in der Entwicklung und wird nach umfangreichen Vertrauens- und Sicherheitsprüfungen Anfang 2024 für Entwickler:innen verfügbar sein. Gemini ist derzeit nur auf Englisch verfügbar, doch sind Erweiterungen auf weitere Sprachen geplant, was die globale Reichweite und den Einfluss dieses Modells weiter erhöhen wird.
Registrieren Sie sich für unseren Newsletter, um immer auf dem neuesten Stand zu sein!