OpenAI und Google haben vorletzte Woche umfangreiche Ankündigungen für ihre KI-Modelle vorgestellt, darunter OpenAIs GPT-4o und Googles Project Astra. Beide Veröffentlichungen umfassen multimodale Fähigkeiten und legen einen starken Schwerpunkt auf Audio-Interaktionen. Doch bringen diese Entwicklungen wirklich bereits die Fähigkeiten von KI-Agenten mit, die die Art und Weise, wie wir als Menschen mit Maschinen interagieren, grundlegend verändern könnten?
Alles begann vorletzten Montag, als OpenAI GPT-4o vorstellte. Es ist das erste Modell des Unternehmens, das umfassend für Text-, Bild- und Audioverarbeitung trainiert wurde. Laut einem Blogpost vom 13. Mai kann das neue Modell auf Audioeingaben innerhalb von 230 Millisekunden reagieren, was der menschlichen Reaktionszeit in einem ...