Independent model benchmarking tracker; confirmed the June 30 release date and placed early third-party evaluations showing Sonnet 5 narrowing the gap to Mythos 5 on coding benchmarks while remaining well below it on reasoning tasks
حسب الانحياز · 1 قراءات عبر هذه النسخة
LLM Stats · Global · أنثروبيك تطلق كلود سونيت 5، مكتملةً بذلك تشكيلة كلود 5 متوسطة الرتبة
نشر الموقع نتائج أولية لمعايير تقييم مستقلة لكلود سونيت 5، تُظهر تحسناً ملحوظاً على سونيت 4.5 في مهام HumanEval واتباع التعليمات. وأشار إلى أن أنثروبيك لم تنشر مقارنات معيارية رسمية لأي من نماذج كلود 5، مواصلةً النهج الذي بدأته مع دورة فابل 5.
“تُظهر المعايير المستقلة أن سونيت 5 يتفوق بشكل ملحوظ على سونيت 4.5 في مهام البرمجة، مع بقاء فجوة أمام ميثوس 5 في مهام التفكير المركّب.”