یکشنبه 27 ثور 1405

آخرین اخبار

حزب وحدت: برخورد طالبان با عالم شیعه در کابل «نشانه تبعیض ساختاری» است

شفقنا افغانستان - «حزب وحدت اسلامی افغانستان» به رهبری...

رهبر طالبان: از علما خواست برای کشته‌شدگان طالبان کتاب بنویسند

شفقنا افغانستان - هبت‌الله آخوندزاده، رهبر طالبان، در دیدار...

آغاز کمپاین سراسری واکسین پولیو در ۱۶ ولایت افغانستان

شفقنا افغانستان - سازمان «افغانستان عاری از پولیو» اعلام...

گلچینی از ۱۰ حدیث اخلاقی و پندآموز امام جواد (ع)

شفقنا افغانستان - سخنان اخلاقی گرانبهایی از امام جواد...

هوش مصنوعی به کمک بیماران سرطانی آمد؛ کاهش اضطراب با آواتار دیجیتال

شفقنا افغانستان – پژوهشی جدید که در کنگره انجمن...

آیا این تراشه کف‌دستی آینده مأموریت‌های فضایی را تغییر می‌دهد؟

شفقنا افغانستان – ناسا تراشه پیشرفته جدیدی ساخته است...

آیا مغز سالم می‌تواند اثرات اولیه آلزایمر را خنثی کند؟

شفقنا – پژوهشگران دانشگاه مورداک استرالیا دریافتند افرادی که...

روایت دیلی‌میل از زندگی یک زن افغان؛ از شکنجه در گذشته تا بازگشت دوباره طالبان

شفقنا افغانستان - رسانه بریتانیایی «دیلی‌میل» در گزارشی اختصاصی،...

علی بلال در رقابت‌های پرورش‌اندام «پتسبورگ پرو» نایب‌قهرمان شد

شفقنا افغانستان - علی بلال، ورزشکار پرورش‌اندام اهل افغانستان،...

ذکیه خدادادی پس از قهرمانی در پاراتکواندو اروپا: «این یک افتخار بزرگ است»

شفقنا افغانستان - ذکیه خدادادی، ورزشکار افغانستانی-فرانسوی، با غلبه...

آغاز استخراج بیروج در پنجشیر؛ طالبان از توسعه فعالیت‌های معدنی خبر داد

شفقنا افغانستان - مقام‌های محلی طالبان در پنجشیر اعلام...

اخراج اجباری بیش از ۵ هزار مهاجر افغانستانی به کشور در ۲۴ ساعت گذشته

شفقنا افغانستان- طالبان اعلام کرد روز گذشته یک‌هزار و...

هزاره‌ها در حاکمیت طالبان؛ بازگشت تدریجی به عصر عبدالرحمن

شفقنا افغانستان - وضعیت کنونی هزاره‌ها در حاکمیت طالبان،...

بحران رهبری در بریتانیا: فشار برای استعفای استارمر پس از خروج وزیر بهداشت و سقوط محبوبیت

شفقنا افغانستان– در بحبوحه آشفتگی سیاسی در بریتانیا، نخست‌وزیر...

شیوع هانتاویروس در کشتی هوندیوس؛ کانادا مورد جدید را تأیید کرد

شفقنا افغانستان – بانی هنری، مسئول بهداشت بریتیش کلمبیا،...

سازمان جهانی بهداشت: شیوع ابولا در آفریقا وضعیت اضطراری بین‌المللی دارد

شفقنا افغانستان – سازمان بهداشت جهانی (WHO) به دلیل...

میراث حکمت امام جواد(ع)؛ گنجینه‌ای از توصیه‌های اخلاقی که هنوز راهگشاست

شفقنا افغانستان– چنان ‌که ‌لقب ‌جواد حاکی ‌از آن‌...

نخست‌وزیر ایتالیا: تنگه هرمز باید بدون محدودیت بازگشایی شود

شفقنا افغانستان - نخست وزیر ایتالیا خواستار بازگشایی تنگه...

فایق: گزارش‌ها از دایکندی نشان‌دهنده گسترش سرکوب و فشار بر زنان در افغانستان است

شفقنا افغانستان؛ نصیراحمد فایق، نماینده دایمی افغانستان در سازمان...

آزمون ریاضی هوش مصنوعی؛ خطای ۴۰ درصدی چت‌بات‌ها در محاسبات روزمره

شفقنا افغانستان- محققان دقت پنج مدل هوش مصنوعی را با استفاده از ۵۰۰ سوال ریاضی روزمره آزمایش کردند. نتایج نشان می‌دهد که تقریباً ۴۰ درصد احتمال دارد که یک هوش مصنوعی پاسخ اشتباه بدهد.

به گزارش سرویس ترجمه شفقنا؛ یورونیوز نوشت: هوش مصنوعی (AI) در حال تبدیل شدن به بخش جدایی‌ناپذیر زندگی روزمره، از جمله محاسبات روزمره است. اما این سیستم‌ها واقعاً چقدر خوب ریاضیات پایه را انجام می‌دهند؟ و کاربران چقدر باید به آنها اعتماد کنند؟

با این حال یک مطالعه جدید احتیاط را توصیه می‌کند. تحقیقات «Omni» در مورد محاسبه در هوش مصنوعی نشان می‌دهد که وقتی از یک چت‌بات هوش مصنوعی می‌خواهید که مسئله ریاضی را انجام دهد، تقریباً ۴۰ درصد احتمال دارد که پاسخ اشتباه بدهد. اما دقت در انواع مختلف هوش مصنوعی و سوالات ریاضی به طور قابل توجهی متفاوت است.

بنابراین سوال این است که کدام ابزارهای هوش مصنوعی دقیق‌تر هستند و چگونه در انواع مختلف محاسبات، مانند آمار، امور مالی یا فیزیک عمل می‌کنند؟

نتایج بر اساس عملکرد در ۵۰۰ سوال برگرفته از مسائل قابل محاسبه در دنیای واقعی است و هر مدل هوش مصنوعی با استفاده از مجموعه یکسانی از ۵۰۰ سوال آزمایش شد. این شرکت‎‌ها عبارتند از:

ChatGPT-5 از شرکت (OpenAI)
Gemini 2.5 Flash از گوگل
Claude 4.5 Sonnet از شرکت (Anthropic)
DeepSeek V3.2 از (DeepSeek AI)
Grok-4 از (xAI)

این تحقیق نشان داد که هیچ مدل هوش مصنوعی در ریاضیات روزمره امتیاز بالاتر از 63 درصد کسب نکرده است به طوریکه Gemini (با 63 درصد) در صدر قرار دارد اما هنوز تقریباً از هر 10 مسئله، 4 مسئله را اشتباه حل می‌کند. Grok تقریباً امتیاز مشابهی با 62.8 درصد دارد. DeepSeek با 52 درصد در رتبه سوم قرار دارد. ChatGPT با 49.4 درصد در رتبه بعدی قرار دارد و Claude با 45.2 درصد در رتبه آخر قرار دارد.

میانگین ساده پنج مدل ۵۴.۵ درصد است. این نمرات نشان دهنده عملکرد کلی مدل‌ها در تمام ۵۰۰ سوال است. با این حال وضعیت در فیزیک بدتر است و میانگین دقت آن فقط ۳۵.۸ درصد است. در زیست شناسی هم وضعیت همینقدر بد است و حتی در امور مالی و اقتصاد شکاف میان بهترین هوش مصنوعی با بدترین بسیار زیاد است.

محققانی که این تحقیق را انجام داده‌اند به کاربران توصیه می‌کنند همیشه با ماشین حساب دوباره بررسی کنید چون فعلاً نمی‌توان به هوش مصنوعی اعتماد کرد.

این خبر را در یورونیوز ببینید

اخبار مرتبط