شفقنا افغانستان- محققان دقت پنج مدل هوش مصنوعی را با استفاده از ۵۰۰ سوال ریاضی روزمره آزمایش کردند. نتایج نشان میدهد که تقریباً ۴۰ درصد احتمال دارد که یک هوش مصنوعی پاسخ اشتباه بدهد.
به گزارش سرویس ترجمه شفقنا؛ یورونیوز نوشت: هوش مصنوعی (AI) در حال تبدیل شدن به بخش جداییناپذیر زندگی روزمره، از جمله محاسبات روزمره است. اما این سیستمها واقعاً چقدر خوب ریاضیات پایه را انجام میدهند؟ و کاربران چقدر باید به آنها اعتماد کنند؟
با این حال یک مطالعه جدید احتیاط را توصیه میکند. تحقیقات «Omni» در مورد محاسبه در هوش مصنوعی نشان میدهد که وقتی از یک چتبات هوش مصنوعی میخواهید که مسئله ریاضی را انجام دهد، تقریباً ۴۰ درصد احتمال دارد که پاسخ اشتباه بدهد. اما دقت در انواع مختلف هوش مصنوعی و سوالات ریاضی به طور قابل توجهی متفاوت است.
بنابراین سوال این است که کدام ابزارهای هوش مصنوعی دقیقتر هستند و چگونه در انواع مختلف محاسبات، مانند آمار، امور مالی یا فیزیک عمل میکنند؟
نتایج بر اساس عملکرد در ۵۰۰ سوال برگرفته از مسائل قابل محاسبه در دنیای واقعی است و هر مدل هوش مصنوعی با استفاده از مجموعه یکسانی از ۵۰۰ سوال آزمایش شد. این شرکتها عبارتند از:
ChatGPT-5 از شرکت (OpenAI)
Gemini 2.5 Flash از گوگل
Claude 4.5 Sonnet از شرکت (Anthropic)
DeepSeek V3.2 از (DeepSeek AI)
Grok-4 از (xAI)
این تحقیق نشان داد که هیچ مدل هوش مصنوعی در ریاضیات روزمره امتیاز بالاتر از 63 درصد کسب نکرده است به طوریکه Gemini (با 63 درصد) در صدر قرار دارد اما هنوز تقریباً از هر 10 مسئله، 4 مسئله را اشتباه حل میکند. Grok تقریباً امتیاز مشابهی با 62.8 درصد دارد. DeepSeek با 52 درصد در رتبه سوم قرار دارد. ChatGPT با 49.4 درصد در رتبه بعدی قرار دارد و Claude با 45.2 درصد در رتبه آخر قرار دارد.
میانگین ساده پنج مدل ۵۴.۵ درصد است. این نمرات نشان دهنده عملکرد کلی مدلها در تمام ۵۰۰ سوال است. با این حال وضعیت در فیزیک بدتر است و میانگین دقت آن فقط ۳۵.۸ درصد است. در زیست شناسی هم وضعیت همینقدر بد است و حتی در امور مالی و اقتصاد شکاف میان بهترین هوش مصنوعی با بدترین بسیار زیاد است.
محققانی که این تحقیق را انجام دادهاند به کاربران توصیه میکنند همیشه با ماشین حساب دوباره بررسی کنید چون فعلاً نمیتوان به هوش مصنوعی اعتماد کرد.
این خبر را در یورونیوز ببینید
