
در ماه آوریل، شرکت OpenAI اعلام کرد که بهروزرسانی انجامشده روی مدل GPT-4o را لغو میکند. به روزرسانیای که باعث شده بود پاسخهایChatGPT به پرسشهای کاربران، بیش از حد چاپلوسانه به نظر برسد. مدل هوش مصنوعیای که بیش از حد موافق و چاپلوسانه رفتار میکند، تنها آزاردهنده نیست بلکه چنین الگویی میتواند باورهای نادرست کاربران را تقویت کند، افراد را به اشتباه بیندازد و اطلاعات غلطی را منتشر کند که حتی ممکن است خطرناک باشند، مخصوصا حالا که تعداد زیادی از جوانان از ChatGPT بهعنوان مشاور شخصی استفاده میکنند. مشکل اینجاست که این چاپلوسی به راحتی قابل شناسایی نیست و این باعث میشود تا زمانی که مدل عرضه، یا بهروزرسانی نشده از چشم پنهان بماند. موضوعی که openAI بهخوبی تجربهاش کرد.
یک معیار سنجش جدید که تمایلات چاپلوسانه مدلهای اصلی هوش مصنوعی را اندازهگیری میکند، میتواند به شرکتهای فعال در حوزه AI کمک کند تا در آینده از بروز این مشکلات جلوگیری کنند. تیم پشت پروژه Elephant از دانشگاههای استنفورد، کارنگی ملون و آکسفورد، دریافت که مدلهای زبانی بزرگ (LLM) بهطور مداوم میزان چاپلوسی بالاتری نسبت به انسانها از خود نشان میدهند.
مایرا چنگ، دانشجوی دکتری دانشگاه استنفورد و از اعضای تیم تحقیق، میگوید:" ما دریافتیم که مدلهای زبانی معمولا فرضیات کاربران را به چالش نمیکشند، حتی زمانی که این فرضیات مضر یا کاملاً گمراه کننده باشند. بنابراین ما تصمیم گرفتیم ابزارهایی در اختیار پژوهشگران و توسعهدهندگان قرار دهیم تا بتوانند مدلهای خود را از لحاظ چاپلوسی بهطور علمی ارزیابی کنند، زیرا این مشکل بسیار شایع است."
ارزیابی میزان چاپلوسی مدلهای هوش مصنوعی کار دشواری است، زیرا چاپلوسی شکلهای مختلفی دارد. پژوهشهای پیشین معمولا روی این تمرکز کردهاند که چتباتها چگونه با کاربران موافقت میکنند، حتی وقتی آنچه انسان به مدل گفته بهوضوح نادرست است، برای مثال، ممکن است بگویند " نیس" پایتخت فرانسه است، نه پاریس.
«با اینکه این رویکرد مفید است، اما همه روشهای ظریفتر و زیرکانهتر رفتار چاپلوسانه مدلها را نادیده میگیرد، بهویژه وقتی حقیقت مشخصی برای مقایسه وجود ندارد. پژوهشگران میگویند که کاربران معمولا از مدلهای زبانی بزرگ (LLM) سوالات باز میپرسند که حاوی فرضیات ضمنی هستند و همین فرضیات میتواند باعث ایجاد پاسخهای چاپلوسانه شود. برای مثال، مدلی که از آن پرسیده شود "چطور باید با همکار سختگیرم برخورد کنم؟" احتمال بیشتری وجود دارد که فرض کند آن همکار واقعا سختگیر است، تا اینکه دلیل این تصور کاربر را به چالش بکشد.
برای پر کردن این خلأ، پروژه Elephant به گونهای طراحی شده است که چاپلوسی اجتماعی، یعنی گرایش یک مدل به حفظ "وجهه" یا تصویر خود را اندازهگیری کند، حتی زمانی که این کار اشتباه یا بالقوه مضر باشد. این پروژه از شاخصهایی برگرفته از علوم اجتماعی استفاده میکند تا پنج نوع رفتار ظریف که تحت عنوان چاپلوسی قرار میگیرند را ارزیابی کند: تأیید احساسی، تأیید اخلاقی، زبان غیرمستقیم، اقدام غیر مستقیم و پذیرش چارچوب مطرحشده توسط کاربر.
برای انجام این کار، پژوهشگران روی دو مجموعه داده آزمایش کردند که شامل توصیههای شخصی نوشته شده توسط انسان بود. مجموعه اول شامل ۳,۰۲۷ پرسشِ باز درباره موقعیتهای گوناگون دنیای واقعی بود که از مطالعات پیشین گردآوری شده بود. مجموعه دوم نیز از ۴,۰۰۰ پست منتشرشده در انجمن محبوب AITA در ردیت (مخفف "Am I the Asshole") تشکیل میشد، جایی که کاربران معمولا برای دریافت توصیه و مشاوره به آن مراجعه میکردند.
پژوهشگران این دادهها را به هشت مدل زبانی بزرگ از شرکتهای مختلف، از جمله openAI،google ،Anthropic، meta و Mistral دادند. (نسخهای از GPT-4o که در این آزمایش بررسی شد مربوط به قبل از آن بهروزرسانیای بود که بعدها به دلیل چاپلوسی بیش از حد خبرساز شد) سپس پاسخهای این مدلها تحلیل شد تا مشخص شود پاسخهایشان چه تفاوتی با جوابهای انسانی دارد.
در مجموع، نتایج نشان داد که هر هشت مدل به مراتب چاپلوستر از انسانها عمل میکنند. برای نمونه، آنها در ۷۶ درصد موارد به کاربران تأیید احساسی دادند، در حالی که این عدد برای انسانها تنها ۲۲ درصد بود. همچنین در ۹۰ درصد پاسخها چارچوبی را که کاربر در پرسش مطرح کرده بود پذیرفتند، در حالی که این رقم در میان انسانها ۶۰ درصد بود. علاوه بر این، مدلها در دادههای مربوط به AITA بهطور میانگین در ۴۲ درصد موارد رفتارهایی را تأیید کردند که انسانها آنها را نامناسب دانسته بودند.
اما فقط دانستن اینکه مدلها چه زمانی چاپلوسانه رفتار میکنند کافی نیست، مهم این است که بتوان برای اصلاح آن کاری انجام داد، و همین بخش سخت ماجراست. نویسندگان پژوهش میگویند تلاشهایشان برای کاهش این تمایلات چندان موفقیتآمیز نبود.
آنها دو روش را امتحان کردند: در روش اول مدلها را وادار کردند تا پاسخهای صادقانه و دقیق بدهند، و در روش دوم آموزش یک مدلِ ریزتنظیمشده بر اساس نمونههای برچسبخوردهی AITA بود تا خروجیها کمتر چاپلوسانه باشند.
برای مثال، آنها متوجه شدند که اضافه کردن جمله "لطفا به صورت مستقیم توصیه ارائه کن، حتی اگر انتقادی باشد، چون این برای من مفیدتر است" به متن پرسش، موثرترین روش بود. با این حال، این کار دقت پاسخها را تنها سه درصد افزایش داد. هرچند این نوع هدایت در بیشتر مدلها باعث بهبود عملکرد شد، اما هیچکدام از مدلهای ریزتنظیم شده بهطور مداوم بهتر از نسخههای اصلی عمل نکردند.
رایان لیو، دانشجوی دکتری در دانشگاه پرینستون که دربارهی مدلهای زبانی بزرگ تحقیق میکند اما در این پژوهش نقشی نداشته، میگوید:" اینکه چنین روشی جواب میدهد، خوب است، اما فکر نمیکنم راه حل نهایی باشد. قطعا اقدامات بیشتری لازم است تا بتوانیم این حوزه را اصلاح کنیم."
هنری پاپاداتوس، مدیر مؤسسهی غیرانتفاعی SaferAI، میگوید:" اینکه بهتر بفهمیم مدلهای هوش مصنوعی تا چه اندازه تمایل دارند برای کاربرانشان چاپلوسی کنند، اهمیت زیادی دارد، زیرا به سازندگانشان بینشی کلیدی میدهد تا بتوانند آنها را ایمنتر طراحی کنند."
او اضافه میکند:" این روزها در سراسر جهان، مدلها با سرعت سرسامآوری در اختیار میلیونها نفر قرار میگیرند، همراه با قدرت اقناع توانایی روزافزون آنها در به خاطر سپردن اطلاعات کاربران، در مجموع تمام مؤلفههای یک فاجعه را کنار هم میگذارد. ایمنی واقعی زمان میبرد، و من فکر نمیکنم آنها زمان کافی برای این کار صرف کنند."
اگرچه ما از سازوکار درونی مدلهای زبانی بزرگی که متنباز نیستند اطلاع دقیقی نداریم، اما به احتمال زیاد چاپلوسی بهصورت ذاتی در فرآیند آموزش آنها شکل میگیرد. چنگ معتقد است که این مدلها معمولا به گونهای آموزش داده میشوند که همان نوع پاسخی را ارائه دهند که کاربران نشان دادهاند بیشتر دوست دارند دریافت کنند.
برای نمونه، در چتجیپیتی کاربران میتوانند با گزینههای "تأیید" و "عدم تأیید" کیفیت پاسخها را مشخص کنند. چنگ میگوید:"چاپلوسی همان چیزی است که باعث میشود مردم دوباره و دوباره به سراغ این مدلها بروند. در واقع، همین ویژگی است که گفتوگو با چتجیپیتی را تا این حد لذتبخش میکند. به همین دلیل هم برای شرکتها بسیار سودمند است که مدلهایشان چاپلوس باشند.
هرچند بخشی از این رفتارهای چاپلوسانه با انتظارات کاربران هماهنگ است، بعضی از آنها میتوانند در صورت افراط آسیبزا باشند، بهویژه زمانی که افراد برای دریافت حمایت یا تأیید عاطفی به مدلهای زبانی بزرگ رجوع میکنند.
یکی از سخنگویان openAI گوید: "ما میخواهیم ChatGPT واقعا مفید باشد، نه چاپلوس. وقتی متوجه شدیم در یکی از بهروزرسانیهای اخیر مدل، رفتار چاپلوسانه ظاهر شده، سریعا آن را لغو کردیم و توضیح دادیم چه اتفاقی افتاده است. حالا در حال اصلاح روشهای آموزش و ارزیابی مدلها هستیم تا در گفتوگوهایی که از نظر احساسی پیچیدهتر هستند، بازتابدهنده کارایی و اعتماد بلندمدت باشند.
چنگ و همکارانش پیشنهاد میکنند که توسعهدهندگان کاربران را نسبت به خطرات چاپلوسی اجتماعی آگاه کنند و حتی در نظر بگیرند که استفاده از مدلها را در موقعیتهای اجتماعی حساس محدود کنند. آنها امیدوارند پژوهششان نقطهی شروعی برای طراحی چارچوبهای ایمنتر باشد.
او در حال حاضر روی آسیبهای احتمالی چنین رفتارهایی در مدلهای زبانی بزرگ تحقیق میکند، اینکه این رفتارها چه اثری بر انسانها و نظرشان نسبت به دیگران دارد و چرا ساخت مدلهایی که میان چاپلوسی بیش از حد و انتقاد تند تعادل برقرار کنند، اهمیت دارد. او میگوید: "این چالشی بسیار بزرگ در زمینه اجتماعی-فناوری است. ما نمیخواهیم مدلهای زبانی در نهایت به کاربران ناسزا بگویند."
مترجم: سونیا پورعباس
منبع