Home Empfohlen GPT-4 und Gemini erreichten bei diesem neuen KI-Benchmark weniger als 2 Prozent

Empfohlen

GPT-4 und Gemini erreichten bei diesem neuen KI-Benchmark weniger als 2 Prozent

November 12, 2024

Epoch AI, ein in Kalifornien ansässiges Forschungsinstitut, hat ein neues Unternehmen ins Leben gerufen künstliche Intelligenz (KI)-Benchmark letzte Woche. Der neue KI-Benchmark mit dem Namen FrontierMath testet große Sprachmodelle (LLMs) auf ihre Fähigkeit zum Reseasoning und zur mathematischen Problemlösung. Das KI-Unternehmen behauptet, dass bestehende mathematische Benchmarks aufgrund von Faktoren wie Datenkontamination und KI-Modellen, die bei ihnen sehr hohe Ergebnisse erzielen, nicht sehr nützlich seien. Epoch AI behauptet, dass selbst die führenden LLMs beim neuen Benchmark weniger als zwei Prozent erreicht haben.

Epoch AI startet FrontierMath-Benchmark

In einem Post Auf X (früher bekannt als Twitter) erklärte das KI-Unternehmen, dass es mit mehr als 60 Mathematikern zusammengearbeitet habe, um Hunderte von Ursprüngen und unveröffentlichten mathematischen Problemen zu erstellen. Epoch AI behauptet, dass selbst Mathematiker Stunden brauchen würden, um diese Fragen zu lösen. Als Grund für die Entwicklung des neuen Benchmarks wurden die Einschränkungen bestehender Benchmarks wie GSM8K und MATH genannt, bei denen KI-Modelle im Allgemeinen eine hohe Punktzahl erreichen.

Das Unternehmen behauptete, dass die hohen Punktzahlen der LLMs größtenteils auf Datenkontamination zurückzuführen seien. Das bedeutet, dass die Fragen irgendwie bereits in die KI-Modelle eingespeist wurden, was dazu führte, dass sie die Fragen leicht lösen konnten.

FrontierMath löst das Problem, indem es neue Probleme einbezieht, die einzigartig sind und nirgendwo veröffentlicht wurden, wodurch die mit der Datenkontamination verbundenen Risiken gemindert werden. Darüber hinaus umfasst der Benchmark ein breites Spektrum an Fragen, darunter rechenintensive Probleme in der Zahlentheorie, der reellen Analysis und der algebraischen Geometrie sowie Themen wie die Zermelo-Fraenkel-Mengentheorie. Die KI-Firma sagt, alle Fragen seien „vermutungssicher“, was bedeutet, dass sie nicht versehentlich ohne fundierte Begründung gelöst werden können.

Epoch AI betonte, dass zur Messung der KI-Fähigkeit Benchmarks für kreative Problemlösungen erstellt werden sollten, bei denen die KI über mehrere Schritte hinweg schlussfolgern muss. Insbesondere glauben viele Branchenveteranen, dass die bestehenden Benchmarks nicht ausreichen, um korrekt zu messen, wie fortgeschritten ein KI-Modell ist.

Reaktion auf den neuen Benchmark in a PostNoam Brown, ein OpenAI-Forscher, der hinter dem o1-Modell des Unternehmens stand, begrüßte den neuen Benchmark und sagte: „Ich liebe es, eine neue Bewertung mit so niedrigen Erfolgsquoten für Grenzmodelle zu sehen.“

Für das Neueste Tech-News Und Bewertungenfolgen Sie Gadgets 360 auf X, Facebook, WhatsApp, Themen Und Google News. Abonnieren Sie unsere, um die neuesten Videos zu Gadgets und Technik zu erhalten YouTube-Kanal. Wenn Sie alles über Top-Influencer wissen möchten, folgen Sie unserem Inhouse Who'sThat360 An Instagram Und YouTube.

Poco X7 Pro könnte das erste Smartphone sein, das in Indien mit Xiaomis HyperOS 2 ausgeliefert wird

Die 13 Farboptionen von iQOO wurden vor der Markteinführung in Indien am 3. Dezember enthüllt

Source link

TAGS
ai
Epoche AI Frontiermath Benchmark-Tests großer Sprachmodelle startete Epoche Ai
KI-Benchmark
Künstliche Intelligenz

Facebook
Twitter
Pinterest
WhatsApp

Previous articleKindertag: Das können Sie Kindern entsprechend Ihrem Sternzeichen schenken, um ihnen Glück zu bringen – News18
Next articleRezept für Anjeer-Marmelade (Feige): Diese hausgemachte Marmelade verfeinert Ihr Frühstück wie keine andere

admin
https://sportsnowonline.com

GPT-4 und Gemini erreichten bei diesem neuen KI-Benchmark weniger als 2 Prozent

Epoch AI startet FrontierMath-Benchmark

LEAVE A REPLY Cancel reply

EDITOR PICKS

YMU stellt Briony Gowlett als Global Literary Chief ein und fördert die Position des...

Kabir Bedi spricht über seine offene Ehe mit Protima Bedi: „Sie wollte eine Affäre...

Der Ausbruch des Vulkans Mount Lewotobi Laki-Laki in Indonesien legt den Flugverkehr lahm und...

NFL-Legende Brett Favre bietet eine düstere Analyse der Präsidentschaftswahlen 2024