OpenAI und Google haben vorletzte Woche umfangreiche Ankündigungen für ihre KI-Modelle vorgestellt, darunter OpenAIs GPT-4o und Googles Project Astra. Beide Veröffentlichungen umfassen multimodale Fähigkeiten und legen einen starken Schwerpunkt auf Audio-Interaktionen. Doch bringen diese Entwicklungen wirklich bereits die Fähigkeiten von KI-Agenten mit, die die Art und Weise, wie wir als Menschen mit Maschinen interagieren, grundlegend verändern könnten?
Alles begann vorletzten Montag, als OpenAI GPT-4o vorstellte. Es ist das erste Modell des Unternehmens, das umfassend für Text-, Bild- und Audioverarbeitung trainiert wurde. Laut einem Blogpost vom 13. Mai kann das neue Modell auf Audioeingaben innerhalb von 230 Millisekunden reagieren, was der menschlichen Reaktionszeit in einem Gespräch entspricht. Das Unternehmen veröffentlichte auch eine Reihe von Kurzvideos, die verschiedene Anwendungsfälle für das neue Modell demonstrieren. Einen Tag später stellte Google auf der jährlichen Entwicklerkonferenz Google I/O das neue Project Astra vor. Astra verarbeitet Audio-, Bild- und Videoeingaben und soll ebenfalls so auf Nutzeranfragen reagieren, dass die Antwortzeit auf ein konversationelles Niveau gesenkt wird. Ähnlich wie bei OpenAI zeigen Demo-Videos, wie das Modell in der Lage ist, seine Umgebung durch eine Smartphone-Kamera auf beeindruckende Weise zu beschreiben und zu erklären.
Während einige Kommentatoren diese Veröffentlichungen als einen potenziellen „Paradigmenwechsel in der Mensch-Computer-Schnittstelle, der so bedeutend ist wie die Einführung der Maus oder des Touchscreens“, sehen, hat Jeremy Kahn von Fortune einen interessanten Artikel verfasst, in dem er die Frage aufwirft, ob diese Neuerungen wirklich die neuen „Killer-Applikationen der persönlichen Assistenten“ sind. Er erläutert, dass die vorgestellten Anwendungsfälle, wo beispielsweise OpenAIs GPT-4o als Mathe-Tutor oder als Sprachübersetzer fungiert, zwar unterhaltsam und hilfreich erscheinen, es aber unklar bleibt, ob solche Assistenten tatsächlich zu allgegenwärtigen, unverzichtbaren Produkten werden. Dies, da fast keiner der von OpenAI oder Google vorgestellten Anwendungsfälle darauf abzielt, Menschen bei ihrer Arbeit zu unterstützen. Er stellt auch die Frage, ob die Vorteile dieser Assistenten die Kosten überwiegen – sowohl für die Unternehmen, die Geld in die Entwicklung der Modelle investieren, als auch für die Nutzer, die mit ihren persönlichen Daten, wie ihrer Stimme, bezahlen, und für die Gesellschaft, angesichts des schwer nachvollziehbaren CO2-Fussabdrucks der Modelle oder des potenziellen Einflusses auf echte menschliche Beziehungen.
KI entwickelt sich rasant weiter, und es bleibt weiterhin spannend zu beobachten, wann und wie wir alle unsere eigenen persönlichen Assistenten haben werden, die viele Aufgaben in unserem täglichen Leben für uns erledigen können. Wir laden Sie herzlich ein, sich über die neuesten Entwicklungen zu informieren und sich anhand der neuen Ankündigungen und der verlinkten Artikel eine eigene Meinung zu bilden.
Autor: Simon Scharegg
Tags: Artificial Intelligence, Digital, Linktipps