rbtfl.

Independent model benchmarking tracker; confirmed the June 30 release date and placed early third-party evaluations showing Sonnet 5 narrowing the gap to Mythos 5 on coding benchmarks while remaining well below it on reasoning tasks

حسب الانحياز · 1 قراءات عبر هذه النسخة

نشر الموقع نتائج أولية لمعايير تقييم مستقلة لكلود سونيت 5، تُظهر تحسناً ملحوظاً على سونيت 4.5 في مهام HumanEval واتباع التعليمات. وأشار إلى أن أنثروبيك لم تنشر مقارنات معيارية رسمية لأي من نماذج كلود 5، مواصلةً النهج الذي بدأته مع دورة فابل 5.

“تُظهر المعايير المستقلة أن سونيت 5 يتفوق بشكل ملحوظ على سونيت 4.5 في مهام البرمجة، مع بقاء فجوة أمام ميثوس 5 في مهام التفكير المركّب.”