در یک مطالعه جدید ، محققان اپل نشان دادند که مدل های “هوش مصنوعی” به اندازه آنها هوشمند نیستند و این مدل ها در استدلال واقعی نیستند. مدلهای معقول مانند Claude ، O3 یا R1 ، مدل های خاص زبان (LLM) که زمان و قدرت محاسبه بیشتری نسبت به نسخه های قبلی برای تولید پاسخ های دقیق تر صرف می کنند.
رشد این مدل ها به این واقعیت منجر شد که شرکت های بزرگ فناوری در حال نزدیک شدن به توسعه “هوش مصنوعی جامع” (AGI) هستند. این سیستم ها در بیشتر کارها بهتر از افراد عمل می کنند. با این حال ، این مطالعه این ادعا را مطرح کرد. در این مطالعه ، دانشمندان می گویند که مدل های استدلال نه تنها استدلال عمومی هستند بلکه با پیچیده تر شدن وظایف آنها ، دقت آنها کاملاً فروپاشیده می شود.
“با آزمایش های جامع در معماهای مختلف ، ما نشان داده ایم که مدل های پیشرفته زبان کاملاً در برابر پیچیدگی های خاص فروپاشیده اند.” آنها گفتند. علاوه بر این ، آنها محدودیت مقیاس عجیب و غریب را نشان می دهند و تلاش بحث تا حدودی افزایش پیچیدگی است ، اما حتی اگر ظرفیت کافی برای پردازش بعداً داشته باشد ، کاهش می یابد.
مدل های بزرگ زبان با جذب داده های آموزشی از مقدار زیادی از محتوای انسانی رشد می کنند. با استفاده از این داده ها ، آنها قالب های احتمالی را از طریق شبکه های عصبی تولید می کنند و هنگام خرید ورودی به جلو حرکت می کنند. مدل های استدلال از فرایندی به نام زنجیره ای برای افزایش دقت “هوش مصنوعی” استفاده می کنند. این روش از پاسخ های چند مرحله ای به داده ها استفاده می کند و از استفاده از منطق انسانی برای به دست آوردن نتیجه تقلید می کند.
این رویکرد به مکالمات اجازه می دهد تا منطق را مرور کرده و با دقت بیشتری به کارهای پیچیده تر پاسخ دهند. در طی این فرآیند ، مدل ها گام به گام در استدلال قابل مشاهده و ساده هستند. با این حال ، از آنجا که این فرایند مبتنی بر فرضیات آماری است نه درک واقعی ، چت ها بسیار مستعد توهم هستند. این به معنای ارائه پاسخ های دروغین ، در صورت عدم وجود داده ها و گاهی ارائه توصیه های عجیب یا مضر است.
نویسندگان این مطالعه گفتند: “ما معتقدیم عدم وجود تجزیه و تحلیل سیستماتیک این سؤالات به دلیل محدودیت مدلهای ارزیابی موجود است. اگرچه ارزیابی های فعلی عمدتاً ارزشمند هستند ، اگرچه آنها به طور کلی ارزشمند هستند ، اما به طور کلی ارزشمند هستند ، بر اساس معیارهای ریاضی و برنامه نویسی که در شرایط مختلف با مجتمع متغیر اجازه نمی دهند.
جعبه سیاه هوش مصنوعی
به منظور بررسی بیشتر این مشکلات ، نویسندگان این مطالعه چهار معمای کلاسیک را به مدل های “هوش مصنوعی” دادند. آنها سپس مؤلفه های بیشتری را به معماها اضافه می کنند و پیچیدگی را به سه سطح تنظیم می کنند. در کارهای پیچیدگی کم ، مدل های کلی بهتر از مدل های استدلال ساخته شده اند ، زیرا محاسبه اضافی بدون هزینه هزینه به جواب درست رسیده است. با افزایش پیچیدگی افزایش ، عملکرد مدل های استدلال بهبود یافته است ، اما در مواجهه با مشکلات بسیار پیچیده ، عملکرد هر دو گروه به صفر کاهش یافته است.
پس از گذراندن یک آستانه بحرانی ، مدل های استدلال باعث کاهش تعداد معاملات اختصاص داده شده به کارهای پیچیده می شوند که نشان می دهد استدلال آنها کاهش یافته است و محافظت از “زنجیره تفکر” دشوار است. حتی وقتی راه حل داده شد ، آنها هنوز هم مشکلات مشابهی داشتند.
این یافته ها نشان می دهد که مدل ها در شناخت و منطق کمتر در حال ظهور اطمینان بیشتری دارند. اپل همچنین در مسابقه “هوش مصنوعی” پشت رقبای خود قرار دارد. در عوض ، این شرکت با توسعه “هوش مصنوعی” و مدلهای استدلال بزرگ ، در دستگاه ها اولویت داشته است. برخی از دانشمندان “هوش مصنوعی” این کار را به عنوان یک شوک اساسی بر ادعاهای بزرگ ابزارهای موجود “هوش مصنوعی” در آینده تحسین کردند.
آندری بورکوف ، رئیس جمهور سابق متخصص اطلاعات هوش مصنوعی و تیم یادگیری ماشین در شرکت تحقیقاتی گارتنر ، “اپل ،” اپل “، LLMS” فقط شبکه های عصبی و سایر شبکه های عصبی تحصیل کرده ، سایر شبکه های عصبی تحصیل کرده ، سایر شبکه های عصبی تحصیل کرده است. “و تقلب -در خیلی زیاد بود.
“اکنون ، من امیدوارم که دانشمندان با کار” LLM “مانند ریاضیدانانی که کارکردهای خود را مطالعه می کنند اما با آنها صحبت نمی کنند ، به علوم واقعی برگردند.
ارسال پاسخ