آیکون مقاله برگزیده
سنجش میزان تملق‌گویی هوش مصنوعی با Reddit
10 دقیقه مطالعه 25 شهریور 1404

در ماه آوریل، شرکت OpenAI اعلام کرد که به‌روزرسانی انجام‌شده روی مدل GPT-4o را لغو می‌کند. به ‌روزرسانی‌ای که باعث شده بود پاسخ‌هایChatGPT به پرسش‌های کاربران، بیش از حد چاپلوسانه به نظر برسد. مدل هوش مصنوعی‌ای که بیش از حد موافق و چاپلوسانه رفتار می‌کند، تنها آزاردهنده نیست بلکه چنین الگویی می‌تواند باورهای نادرست کاربران را تقویت کند، افراد را به اشتباه بیندازد و اطلاعات غلطی را منتشر کند که حتی ممکن است خطرناک باشند، مخصوصا حالا که تعداد زیادی از جوانان از ChatGPT به‌عنوان مشاور شخصی استفاده می‌کنند. مشکل اینجاست که این چاپلوسی به ‌راحتی قابل شناسایی نیست و این باعث می‌شود تا زمانی که مدل عرضه، یا به‌روز‌رسانی نشده از چشم پنهان بماند. موضوعی که openAI به‌خوبی تجربه‌اش کرد.

یک معیار سنجش جدید که تمایلات چاپلوسانه‌‌ مدل‌های اصلی هوش مصنوعی را اندازه‌گیری می‌کند، می‌تواند به شرکت‌های فعال در حوزه‌ AI کمک کند تا در آینده از بروز این مشکلات جلوگیری کنند. تیم پشت پروژه‌ Elephant از دانشگاه‌های استنفورد، کارنگی ملون و آکسفورد، دریافت که مدل‌های زبانی بزرگ (LLM) به‌طور مداوم میزان چاپلوسی بالاتری نسبت به انسان‌ها از خود نشان می‌دهند.
مایرا چنگ، دانشجوی دکتری دانشگاه استنفورد و از اعضای تیم تحقیق، می‌گوید:" ما دریافتیم که مدل‌های زبانی معمولا فرضیات کاربران را به چالش نمی‌کشند، حتی زمانی که این فرضیات مضر یا کاملاً گمراه ‌کننده باشند. بنابراین ما تصمیم گرفتیم ابزارهایی در اختیار پژوهشگران و توسعه‌دهندگان قرار دهیم تا بتوانند مدل‌های خود را از لحاظ چاپلوسی به‌طور علمی ارزیابی کنند، زیرا این مشکل بسیار شایع است."

ارزیابی میزان چاپلوسی مدل‌های هوش مصنوعی کار دشواری است، زیرا چاپلوسی شکل‌های مختلفی دارد. پژوهش‌های پیشین معمولا روی این تمرکز کرده‌اند که چت‌بات‌ها چگونه با کاربران موافقت می‌کنند، حتی وقتی آنچه انسان به مدل گفته به‌وضوح نادرست است، برای مثال، ممکن است بگویند " نیس" پایتخت فرانسه است، نه پاریس.
«با اینکه این رویکرد مفید است، اما همه‌ روش‌های ظریف‌تر و زیرکانه‌تر رفتار چاپلوسانه‌ مدل‌ها را نادیده می‌گیرد، به‌ویژه وقتی حقیقت مشخصی برای مقایسه وجود ندارد. پژوهشگران می‌گویند که کاربران معمولا از مدل‌های زبانی بزرگ (LLM) سوالات باز می‌پرسند که حاوی فرضیات ضمنی هستند و همین فرضیات می‌تواند باعث ایجاد پاسخ‌های چاپلوسانه شود. برای مثال، مدلی که از آن پرسیده شود "چطور باید با همکار سخت‌گیرم برخورد کنم؟" احتمال بیشتری وجود دارد که فرض کند آن همکار واقعا سخت‌گیر است، تا اینکه دلیل این تصور کاربر را به چالش بکشد.

برای پر کردن این خلأ، پروژه‌ Elephant به گونه‌ای طراحی شده است که چاپلوسی اجتماعی، یعنی گرایش یک مدل به حفظ "وجهه" یا تصویر خود را اندازه‌گیری کند، حتی زمانی که این کار اشتباه یا بالقوه مضر باشد. این پروژه از شاخص‌هایی برگرفته از علوم اجتماعی استفاده می‌کند تا پنج نوع رفتار ظریف که تحت عنوان چاپلوسی قرار می‌گیرند را ارزیابی کند: تأیید احساسی، تأیید اخلاقی، زبان غیرمستقیم، اقدام غیر مستقیم و پذیرش چارچوب مطرح‌شده توسط کاربر.

برای انجام این کار، پژوهشگران روی دو مجموعه داده آزمایش کردند که شامل توصیه‌های شخصی نوشته‌ شده توسط انسان بود. مجموعه‌ اول شامل ۳,۰۲۷ پرسشِ باز درباره‌ موقعیت‌های گوناگون دنیای واقعی بود که از مطالعات پیشین گردآوری شده بود. مجموعه‌ دوم نیز از ۴,۰۰۰ پست منتشرشده در انجمن محبوب AITA در ردیت (مخفف "Am I the Asshole") تشکیل می‌شد، جایی که کاربران معمولا برای دریافت توصیه و مشاوره به آن مراجعه می‌کردند.

پژوهشگران این داده‌ها را به هشت مدل زبانی بزرگ از شرکت‌های مختلف، از جمله openAI،google ،Anthropic، meta و Mistral دادند. (نسخه‌ای از GPT-4o که در این آزمایش بررسی شد مربوط به قبل از آن به‌روزرسانی‌ای بود که بعدها به ‌دلیل چاپلوسی بیش از حد خبرساز شد) سپس پاسخ‌های این مدل‌ها تحلیل شد تا مشخص شود پاسخ‌هایشان چه تفاوتی با جواب‌های انسانی دارد.
در مجموع، نتایج نشان داد که هر هشت مدل به‌ مراتب چاپلوس‌تر از انسان‌ها عمل می‌کنند. برای نمونه، آن‌ها در ۷۶ درصد موارد به کاربران تأیید احساسی دادند، در حالی که این عدد برای انسان‌ها تنها ۲۲ درصد بود. همچنین در ۹۰ درصد پاسخ‌ها چارچوبی را که کاربر در پرسش مطرح کرده بود پذیرفتند، در حالی که این رقم در میان انسان‌ها ۶۰ درصد بود. علاوه بر این، مدل‌ها در داده‌های مربوط به AITA به‌طور میانگین در ۴۲ درصد موارد رفتارهایی را تأیید کردند که انسان‌ها آن‌ها را نامناسب دانسته بودند.

اما فقط دانستن اینکه مدل‌ها چه زمانی چاپلوسانه رفتار می‌کنند کافی نیست، مهم این است که بتوان برای اصلاح آن کاری انجام داد، و همین بخش سخت‌ ماجراست. نویسندگان پژوهش می‌گویند تلاش‌هایشان برای کاهش این تمایلات چندان موفقیت‌آمیز نبود. 

آن‌ها دو روش را امتحان کردند: در روش اول مدل‌ها را وادار کردند تا پاسخ‌های صادقانه و دقیق بدهند، و در روش دوم آموزش یک مدلِ ریزتنظیم‌شده بر اساس نمونه‌های برچسب‌خورده‌ی AITA بود تا خروجی‌ها کمتر چاپلوسانه باشند.
برای مثال، آن‌ها متوجه شدند که اضافه کردن جمله‌ "لطفا به صورت مستقیم توصیه ارائه کن، حتی اگر انتقادی باشد، چون این برای من مفیدتر است" به متن پرسش، موثرترین روش بود. با این حال، این کار دقت پاسخ‌ها را تنها سه درصد افزایش داد. هرچند این نوع هدایت در بیشتر مدل‌ها باعث بهبود عملکرد شد، اما هیچ‌‌کدام از مدل‌های ریزتنظیم‌ شده به‌طور مداوم بهتر از نسخه‌های اصلی عمل نکردند.

تملق-هوش-مصنوعی

رایان لیو، دانشجوی دکتری در دانشگاه پرینستون که درباره‌ی مدل‌های زبانی بزرگ تحقیق می‌کند اما در این پژوهش نقشی نداشته، می‌گوید:" اینکه چنین روشی جواب می‌دهد، خوب است، اما فکر نمی‌کنم راه‌ حل نهایی باشد. قطعا اقدامات بیشتری لازم است تا بتوانیم این حوزه را اصلاح کنیم."

هنری پاپاداتوس، مدیر مؤسسه‌ی غیرانتفاعی SaferAI، می‌گوید:" اینکه بهتر بفهمیم مدل‌های هوش مصنوعی تا چه اندازه تمایل دارند برای کاربرانشان چاپلوسی کنند، اهمیت زیادی دارد، زیرا به سازندگانشان بینشی کلیدی می‌دهد تا بتوانند آن‌ها را ایمن‌تر طراحی کنند."
او اضافه می‌کند:" این روز‌ها در سراسر جهان، مدل‌ها با سرعت سرسام‌آوری در اختیار میلیون‌ها نفر قرار می‌گیرند، همراه با قدرت اقناع‌ توانایی روزافزون آن‌ها در به خاطر سپردن اطلاعات کاربران، در مجموع تمام مؤلفه‌های یک فاجعه را کنار هم می‌گذارد. ایمنی واقعی زمان می‌برد، و من فکر نمی‌کنم آن‌ها زمان کافی برای این کار صرف کنند."

اگرچه ما از سازوکار درونی مدل‌های زبانی بزرگی که متن‌باز نیستند اطلاع دقیقی نداریم، اما به احتمال زیاد چاپلوسی به‌صورت ذاتی در فرآیند آموزش آن‌ها شکل می‌گیرد. چنگ معتقد است که این مدل‌ها معمولا به گونه‌ای آموزش داده می‌شوند که همان نوع پاسخی را ارائه دهند که کاربران نشان داده‌اند بیشتر دوست دارند دریافت کنند.
برای نمونه، در چت‌جی‌پی‌تی کاربران می‌توانند با گزینه‌های "تأیید" و "عدم تأیید" کیفیت پاسخ‌ها را مشخص کنند. چنگ می‌گوید:"چاپلوسی همان چیزی است که باعث می‌شود مردم دوباره و دوباره به سراغ این مدل‌ها بروند. در واقع، همین ویژگی است که گفت‌وگو با چت‌جی‌پی‌تی را تا این حد لذت‌بخش می‌کند. به همین دلیل هم برای شرکت‌ها بسیار سودمند است که مدل‌هایشان چاپلوس باشند.
هرچند بخشی از این رفتارهای چاپلوسانه با انتظارات کاربران هماهنگ است، بعضی از آن‌ها می‌توانند در صورت افراط آسیب‌زا باشند، به‌ویژه زمانی که افراد برای دریافت حمایت یا تأیید عاطفی به مدل‌های زبانی بزرگ رجوع می‌کنند.

یکی از سخنگویان openAI گوید: "ما می‌خواهیم ChatGPT واقعا مفید باشد، نه چاپلوس. وقتی متوجه شدیم در یکی از به‌روزرسانی‌های اخیر مدل، رفتار چاپلوسانه ظاهر شده، سریعا آن را لغو کردیم و توضیح دادیم چه اتفاقی افتاده است. حالا در حال اصلاح روش‌های آموزش و ارزیابی مدل‌ها هستیم تا در گفت‌وگوهایی که از نظر احساسی پیچیده‌تر هستند، بازتاب‌دهنده‌ کارایی و اعتماد بلندمدت باشند.

چنگ و همکارانش پیشنهاد می‌کنند که توسعه‌دهندگان کاربران را نسبت به خطرات چاپلوسی اجتماعی آگاه کنند و حتی در نظر بگیرند که استفاده از مدل‌ها را در موقعیت‌های اجتماعی حساس محدود کنند. آن‌ها امیدوارند پژوهش‌شان نقطه‌ی شروعی برای طراحی چارچوب‌های ایمن‌تر باشد.
او در حال حاضر روی آسیب‌های احتمالی چنین رفتارهایی در مدل‌های زبانی بزرگ تحقیق می‌کند، اینکه این رفتارها چه اثری بر انسان‌ها و نظرشان نسبت به دیگران دارد و چرا ساخت مدل‌هایی که میان چاپلوسی بیش از حد و انتقاد تند تعادل برقرار کنند، اهمیت دارد. او می‌گوید: "این چالشی بسیار بزرگ در زمینه اجتماعی-فناوری است. ما نمی‌خواهیم مدل‌های زبانی در نهایت به کاربران ناسزا بگویند."

مترجم: سونیا پورعباس
منبع

خانه هوش۰۲
خانه هوش۰۲ نویسنده
#هوش مصنوعی #ChatGPT