Home Empfohlen GPT-4 und Gemini erreichten bei diesem neuen KI-Benchmark weniger als 2 Prozent

GPT-4 und Gemini erreichten bei diesem neuen KI-Benchmark weniger als 2 Prozent

6
0
GPT-4 und Gemini erreichten bei diesem neuen KI-Benchmark weniger als 2 Prozent


Epoch AI, ein in Kalifornien ansässiges Forschungsinstitut, hat ein neues Unternehmen ins Leben gerufen künstliche Intelligenz (KI)-Benchmark letzte Woche. Der neue KI-Benchmark mit dem Namen FrontierMath testet große Sprachmodelle (LLMs) auf ihre Fähigkeit zum Reseasoning und zur mathematischen Problemlösung. Das KI-Unternehmen behauptet, dass bestehende mathematische Benchmarks aufgrund von Faktoren wie Datenkontamination und KI-Modellen, die bei ihnen sehr hohe Ergebnisse erzielen, nicht sehr nützlich seien. Epoch AI behauptet, dass selbst die führenden LLMs beim neuen Benchmark weniger als zwei Prozent erreicht haben.

Epoch AI startet FrontierMath-Benchmark

In einem Post Auf X (früher bekannt als Twitter) erklärte das KI-Unternehmen, dass es mit mehr als 60 Mathematikern zusammengearbeitet habe, um Hunderte von Ursprüngen und unveröffentlichten mathematischen Problemen zu erstellen. Epoch AI behauptet, dass selbst Mathematiker Stunden brauchen würden, um diese Fragen zu lösen. Als Grund für die Entwicklung des neuen Benchmarks wurden die Einschränkungen bestehender Benchmarks wie GSM8K und MATH genannt, bei denen KI-Modelle im Allgemeinen eine hohe Punktzahl erreichen.

Das Unternehmen behauptete, dass die hohen Punktzahlen der LLMs größtenteils auf Datenkontamination zurückzuführen seien. Das bedeutet, dass die Fragen irgendwie bereits in die KI-Modelle eingespeist wurden, was dazu führte, dass sie die Fragen leicht lösen konnten.

FrontierMath löst das Problem, indem es neue Probleme einbezieht, die einzigartig sind und nirgendwo veröffentlicht wurden, wodurch die mit der Datenkontamination verbundenen Risiken gemindert werden. Darüber hinaus umfasst der Benchmark ein breites Spektrum an Fragen, darunter rechenintensive Probleme in der Zahlentheorie, der reellen Analysis und der algebraischen Geometrie sowie Themen wie die Zermelo-Fraenkel-Mengentheorie. Die KI-Firma sagt, alle Fragen seien „vermutungssicher“, was bedeutet, dass sie nicht versehentlich ohne fundierte Begründung gelöst werden können.

Epoch AI betonte, dass zur Messung der KI-Fähigkeit Benchmarks für kreative Problemlösungen erstellt werden sollten, bei denen die KI über mehrere Schritte hinweg schlussfolgern muss. Insbesondere glauben viele Branchenveteranen, dass die bestehenden Benchmarks nicht ausreichen, um korrekt zu messen, wie fortgeschritten ein KI-Modell ist.

Reaktion auf den neuen Benchmark in a PostNoam Brown, ein OpenAI-Forscher, der hinter dem o1-Modell des Unternehmens stand, begrüßte den neuen Benchmark und sagte: „Ich liebe es, eine neue Bewertung mit so niedrigen Erfolgsquoten für Grenzmodelle zu sehen.“

Für das Neueste Tech-News Und Bewertungenfolgen Sie Gadgets 360 auf X, Facebook, WhatsApp, Themen Und Google News. Abonnieren Sie unsere, um die neuesten Videos zu Gadgets und Technik zu erhalten YouTube-Kanal. Wenn Sie alles über Top-Influencer wissen möchten, folgen Sie unserem Inhouse Who'sThat360 An Instagram Und YouTube.


Poco X7 Pro könnte das erste Smartphone sein, das in Indien mit Xiaomis HyperOS 2 ausgeliefert wird



Die 13 Farboptionen von iQOO wurden vor der Markteinführung in Indien am 3. Dezember enthüllt





Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here