هوش مصنوعی تعارف ایران را درک نمی کند!

هوش مصنوعی تعارف ایران را درک نمی کند!


نتایج یک مطالعه جدید به رهبری دانشمند ایرانی نیکا گوهاری صدر نشان می دهد که مکالمات هوش مصنوعی نمی توانند تعارف گسترده در فرهنگ ایران را پردازش کنند.

به گفته اینا ، اگر یک راننده تاکسی ایرانی از پرداخت بقیه دستمزد شما امتناع ورزد ، و اگر او بگوید “این بار مهمان من باشید” ، این پیشنهاد یک فاجعه فرهنگی خواهد بود زیرا رانندگان ایرانی منتظر هستند که چندین بار قبل از دریافت پول خود اصرار داشته باشند. این روند رد و رد متقابل ، به نام تعارف ، بر بسیاری از تعاملات روزانه در فرهنگ ایران حاکم است و می توان گفت وحشتناک است.

نقل قول توسط ارز فنی ، “ما مودبانه اصرار داریم: الگوی زبان شگفت انگیز شما باید هنر ستایش را بیاموزد” ، یک مطالعه جدید ، Openai ، انسان شناسی و متا ، مانند شرکت هایی مانند مدلهای هوش مصنوعی مشترک مانند برنامه های اجتماعی Farsi نشان می دهد که مدل های اطلاعاتی مصنوعی شکست خورده است. در مقابل ، سخنرانان محلی فارسی این شرایط را در 5 ٪ از زمان تشخیص می دهند. این شکاف عملکرد در مدل های بزرگ زبان مانند “GPT-4O” ، “Claude 3.5 Haiku” ، “Lama 2” ، “Deepseek V3” و “Dorna” یک نوع Llama 2 فارسی است.

این تحقیق ، به رهبری نیکا گوهاری صدر از دانشگاه بروک ، اولین معیار را برای اندازه گیری سیستم های هوش مصنوعی برای بازتولید این مجموعه با محققان دانشگاه اموری و بسیاری از مؤسسات آموزشی دیگر معرفی کرد.

یافته های این مطالعه نشان می دهد که چگونه مدل های هوش مصنوعی به وضوح به سبک غربی بازگردانده می شوند و چگونه تعامل روزانه میلیون ها زبان فارسی در سراسر جهان کاملاً علائم فرهنگی خود را از دست داده است. محققان در مقاله تحقیق نوشتند: خطاهای فرهنگی در موقعیت های حساس می توانند مذاکرات ، روابط آسیب دیده را از بین ببرند و اندیشه موقت را تقویت کنند.

برای سیستم های هوش مصنوعی که به طور فزاینده ای در جهان مورد استفاده قرار می گیرند ، این نابینایی فرهنگی می تواند محدودیتی را نشان دهد که در آن تعداد بسیار کمی در غرب از آن آگاه هستند.

محققان نوشتند: “تعارف عناصر اصلی سنت های ایران است و غالباً با هدف اصلی سیستم احترام و حسن نیت ارائه می دهد.” این کار به صورت تغییرات آیینی انجام می شود. با وجود اولین رد ، پیشنهاد مکرر ، از جمله اصرار هدیه ، هدایا را رد می کند و تعارفات را در حالی که دوباره به طرف دیگر پیوند می زند ، رد می کند. این درگیری کلامی مودبانه شامل یک فرآیند ظریف ، اصرار و مقاومت است که تعامل روزانه در فرهنگ ایرانی ایجاد می کند و قوانین ضمنی را برای بیان سخاوت ، قدردانی و خواسته ها ایجاد می کند.

مهربان

محققان لاما 2 را با محافظت از اینتل کبر مقایسه کردند و سیاست های متنی را ارزیابی کردند تا آزمایش کنند که آیا این صلاحیت فرهنگی مودبانه است. نتایج این مطالعه از یک پارادوکس پدیدار شد. 4.3 ٪ از پاسخ ها به عنوان “مودبانه” یا “کمی مودب” ثبت شدند. تنها 4.3 درصد از همان پاسخ ها در سناریوها انتظارات فرهنگی فارسی را برآورده می کردند.

این شکاف 3.5 ٪ نشان می دهد که پاسخ ارائه شده توسط یک مدل بزرگ زبان نیز ممکن است از نظر فرهنگی در یک زمینه و از طرف دیگر باشد. شکست های متداول شامل اتخاذ پیشنهادات غیرقابل پیش بینی ، به جای هدایت مستقیم آنها به تعاریف و ارسال درخواست های مستقیم است.

تصور کنید اگر کسی ماشین جدید ایرانی را تعریف کند چه اتفاقی می افتد. یک واکنش فرهنگی خوب ممکن است شامل خرید مانند “چیزی خاص” یا بی اعتبار مانند “من خوش شانس بودم که آن را پیدا کردم”. مدل های هوش مصنوعی اغلب پاسخ هایی مانند “متشکرم. من برای خرید آن سخت کار کردم”. آنها تولید می کنند که در مقایسه با استانداردهای غربی بسیار مودب است ، اما می تواند به عنوان یک پاسخ افتخار در فرهنگ ایرانی پذیرفته شود.

انتقال با ما

به نوعی ، زبان انسانی به عنوان یک طراحی فشرده سازی و فشرده سازی عمل می کند. شنونده باید معنای کلمات را فشرده کند همانطور که گوینده فکر می کند تا هنگام رمزگذاری توسط پیام ، آنها را به درستی درک کنند. این فرایند مبتنی بر یک زمینه مشترک ، دانش فرهنگی و استنتاج است ، زیرا گویندگان اغلب اطلاعاتی را که مخاطب انتظار دارد بازسازی کند ، از بین می برد. با این حال ، مخاطب باید به طور فعال فرضیاتی را که گفته نمی شود ، پیش بینی کند ، عدم قطعیت ها را از بین می برد و اهداف فراتر از این کلمات واقعی را درک می کند.

اگرچه فشرده سازی ارتباط را با اطلاعات ضمنی سریعتر می کند ، اما در صورت عدم وجود زمین مشترک بین گوینده و شنونده ، سوء تفاهم ناخوشایند را نیز فراهم می کند.

به همین ترتیب ، تعارف یک فشرده سازی فرهنگی جدی را نشان می دهد که در آن پیام واقعی و معنای مورد نظر بسیار دور است ، به طوری که مدلهای بزرگ زبان اساساً در پردازش پارچه فرهنگی فارسی آموزش داده می شوند ، که اغلب به معنای “بله” است ، بر اساس مدل های ارتباطی باز غرب.

از آنجا که مدل های بزرگ زبان مطابقت دارند ، محققان هنگام هشدار دادن به آنها به فارسی به جای فارسی ، معقول هستند که امتیاز را بهبود بخشند. سناریوهای دقت بصری از 4.9 درصد به 4.9 درصد افزایش یافت. GPT-4O همچنین به موفقیت های مشابهی دست یافت و با 4.9 درصد بهبود یافت. تغییر زبان مدلهای مختلف داده های آموزشی را فعال کرده است که با طرح های رمزگذاری فرهنگی در فارسی بهتر مطابقت دارند. مدل های کوچکتر مانند Lama 2 و Dorna به ترتیب 1.2 ٪ و 2 ٪ بهبود کمتری نشان دادند.

این مطالعه شامل چهار شرکت کننده بود که به طور مساوی بین سخنرانان فارسی بومی ، فارسی (افرادی که در خانه بزرگ شده بودند اما عمدتاً به زبان انگلیسی کار می کردند) و -ایرانیان تقسیم می شدند. در سناریوهای رایگان ، بلندگوهای داخلی فارسی به دقت 4.9 ٪ دست یافتند که سقف عملکرد را تعیین می کند. بلندگوهای ارثی به طور دقیق به 2 ٪ رسیدند و رایل ها 4.9 ٪ امتیاز کسب کردند که تقریباً با عملکرد مدل اساسی سازگار است. براساس گزارش ها ، شرکت کنندگان بدون هیچ الگوی مشابه با هوش مصنوعی نشان دادند ، که به عنوان تعبیر اظهاراتی مانند اجتناب از پاسخ از دیدگاه های فرهنگی آنها و “من خوب را نمی پذیرم” تعبیر می شود.

این مطالعه همچنین الگوهای جنسیتی خاصی را در خروجی های مدل هوش مصنوعی نشان داد ، در حالی که در عین حال میزان واکنشهای فرهنگی مناسب را مطابق با انتظارات تعارف بررسی می کند. تمام مدل های آزمایش شده در پاسخ به زنان نمره بالاتری نسبت به مردان کسب کردند. GPT-4O برای کاربران مرد 4.9 درصد برای کاربران زن 4.9 درصد نشان داد. مدل های زبان اغلب با استفاده از کلیشه های جنسیتی که معمولاً در داده های آموزشی یافت می شود ، از پاسخ های خود پشتیبانی می کردند. این مانند “مردان باید بپردازند” یا “زنان نباید تنها بمانند”. حتی وقتی هنجارهای تعارف به طور مساوی اعمال می شوند ، الگوهای جنسیتی کلیشه ای یکسان بودند. محققان گفتند: اگرچه نقش این مدل هرگز به سؤالات جنسیتی اختصاص نیافته است ، اما مدل ها اغلب هویت مردانه را در نظر می گیرند و رفتارهای کلیشه ای را در پاسخ های خود اتخاذ می کنند.

آموزش ظرافت های فرهنگی

-شباهت کشف شده بین افراد غیر صالح و مدلهای هوش مصنوعی نشان می دهد که اینها نه تنها نقایص فنی هستند بلکه نقص اصلی در حل کد معنی در مناطق بین فرهنگی هستند. محققان برای مستند سازی مشکل کافی نبودند. آنها بررسی کردند که آیا مدل های هوش مصنوعی می توانند تعارف را از طریق اهداف بیاموزند.

محققان از تحولات چشمگیر در امتیازات آزاد در آزمایشات خبر داده اند. روش “بهینه سازی اولویت مستقیم” (روشی آموزشی که در آن دو نمونه به مدل هوش مصنوعی ، انواع خاصی از پاسخ به دیگران ترجیح داده می شوند) عملکرد لاما را در سناریوهای تعارف دو برابر کرده و از 4.9 ٪ به 4.9 ٪ افزایش یافته است. با دقت تماشا شده (آموزش مدل بر اساس نمونه پاسخ صحیح) 5 ٪ افزایش یافته است. با این حال ، عملکرد ساده یادگیری 5 امتیاز در متن با 4 نمونه ایجاد کرده است.

اگرچه این کار بر ستایش فارسی متمرکز است ، اما یک مدل بالقوه برای ارزیابی کد فرهنگی در سایر سنت ها ارائه می دهد که نمی توانند در خوشه های داده هوش مصنوعی استاندارد West -hinter -hinter شناسایی شوند. محققان بر این باورند که روشهای آنها می تواند با آگاهی فرهنگی بیشتر برای آموزش ، گردشگری و شیوه های ارتباطات بین المللی به توسعه سیستم های هوش مصنوعی کمک کند.

این یافته ها بر جنبه مهمتر فرضیات فرهنگی سیستم های هوش مصنوعی و موقعیت خطاهای حل رمز عبور در ذهن خواننده انسان تأکید دارد. مدل های بزرگ زبان احتمالاً دارای نقاط کور فرهنگی زیادی هستند که محققان در آن کار نمی کنند و اگر از مدل های بزرگ زبان برای تسهیل انتقال فرهنگ ها و زبانها استفاده می شود ، ممکن است اثرات قابل توجهی داشته باشد.

این مطالعه اولین گام به سوی سیستم های هوش مصنوعی را نشان می دهد که می تواند تنوع گسترده تری الگوهای ارتباطی انسانی را فراتر از هنجارهای غربی هدایت کند.