رشد نمایی و ارزیابی عملکرد LLMها
6 دقیقه مطالعه 25 مرداد 1404

در ابتدا لازم است بدانیم LLM‌ها اصلا چه کار می‌کنند، در واقع کار آن‌ها این است که متونی ارائه کنند که تا حد خوبی از نوشته‌های انسان قابل تمایز نباشد، و همین مسئله سنجش عملکرد نسبی آن‌ها را بسیار دشوار می‌کند، زیرا معیارهای سنتی که برای سنجش عملکرد پردازنده‌ها استفاده می‌شود، در اینجا قابل استفاده نیست.

اما محققین (METR-Model Evaluation & Threat Research) در برکلی، ایده‌ای مطرح کردند. آن‌ها در ابتدا وظایفی با پیچیدگی‌های مختلف را در نظر گرفتند و زمان متوسط انجام آن توسط انسان را برای انجام آن وظایف ثبت کردند. سپس آن وظایف را به LLM‌های مختلفی سپردند و زمان انجام را ثبت کردند. نتایج به خوبی نشان می‌دهند با گذشت زمان، نسل‌های جدیدتر هر نسخه توانایی انجام وظایف پیچیده‌تر در زمان‌های کوتاه‌تر هستند. اما این نکته‌ی عجیبی نیست، مسئله این بود که این توانایی به صورت نمایی افزایش می‌یافت!

در ادامه به گفت‌وگو نشریه IEEE Spectrum با مگان کینیمنت، یکی از نویسندگان مقاله‌ای که این اتفاق و پیامدهای آن را توصیف می‌کند می‌پردازیم:

سنجش معیارهای عملکرد LLM ها

آیا انتظار داشتید که این نتایج حاصل شود؟
-    مگان کینیمِنت: حداقل انتظار چنین روند نمایی را نداشتم. البته مدل‌ها بدون شک خیلی سریع پیشرفت کرده‌اند. بنابراین یک نرخ پیشرفت سریع غیرمنتظره نبود.

همانطور که در مقاله اشاره کردید، نگاه کردن به آینده و برون‌یابی خطرناک است. اگرچه که پیشنهاد کرده‌اید این روند ادامه پیدا می‌کند و تا سال ۲۰۳۰ وظایف یک ماهه در توانایی مدل‌های پیشرفته LLM ها است.
-    کینیمِنت: اینطور به مسئله نگاه کنید که یک ماه به معنی حدود ۱۶۷ ساعت کاری انسانی است. اما این با قابلیت اطمینان کمتری است، درحالی که وظایف طولانی‌تر عموما به قابلیت اطمینان بیشتری دارند. بنابراین تاثیر واقعی و اقتصادی می‌تواند کمتر از پیش‌بینی‌ها باشد.

عوامل مختلفی باید طبق این پیش‌بینی توسعه پیدا کنند،‌ سخت‌افزار باید با نرخ خوبی همچنان بهبود یابد، و علاوه بر نرم افزار باید آموزش و داده‌های کافی با سرعت خوبی ادامه پیدا کنند.
-    کینیمنت: این پیش‌بینی‌ها فقط نتیجه برون‌یابی روندی است که تا الان وجود داشته و عوامل دنیای واقعی را در نظر نمی‌گیرند.

اگر یک LLM بتواند  قابلیت انجام وظایفی معادل با ۱۶۷ ساعت کاری انسانی را با قابلیت اطمینان حدود ۵۰ درصد به دست آورد، چه کارهایی در حیطه توانایی آن قرار می‌دهد.
-    کینیمنت:‌ چیزی که بیشتر همه ما اغلب به آن فکر می‌کنیم، این است که روند توسعه هوش مصنوعی تسریع شود و توانایی‌های شرکت شما را بهبود ببخشد. این ممکن است که هوش مصنوعی در حیطه کاری شما رشد بسیار سریعی داشته باشد.

رشد نمایی هوش مصنوعی چه معنایی برای بشریت دارد؟

آنچه که شما توصیف می‌کنید بسیار شبیه به جایی است که هوش مصنوعی خودش بدون کمک انسان هوش مصنوعی‌های دیگری ایجاد می‌کند.
-    کینیمنت: به نظر من احتمال دارد شتابی بسیار شدید وجود داشته باشد که کنترل شرایط را دشوار کند،‌ اما موانعی وجود خواهد داشت که در واقعیت این شتاب را کاهش می‌دهد. برای مثال محدودیت‌هایی در حوزه سخت افزار وجود دارد.

به نظر شما توانایی LLMها در سازگاری و بهبود عملکرد از اشتباهات پیشرفت کرده؟
-    کینیمنت:‌ من اینطور فکر می‌کنم که این تغییر تقریبا تدریجی بوده، الان در حال حاضر بسیار بهتر در تغییر راهبردها عمل می‌کنند وقتی چیزی جواب نمی‌دهد. اما برخی جنبه‌های اساسی تغییری نکرده‌اند. مسئله‌ای که خیلی دوست دارم آن را در مدل‌های پیشرفته امتحان کنم این است که ما برای هر وظیفه تعداد کلماتی که می‌تواند بگوید را مشخص کنیم و این محدودیت را کم و زیاد کنیم. احتمالا خواهیم دید که از نقطه‌ای به بعد با افزایش تعداد کلمات به اشباع می‌رسند و بهبودی در عملکرد مدل نخواهیم داشت.
البته انسان هم از زمان مشخصی به بعد بازدهی‌اش روند نزولی پیدا می‌کند، اما اگر زمان زیادی به انسان بدهید در نهایت کار را بهتر انجام دهد،‌ به خصوص اگر چند نفر باشند.

شما متوجه شدید که LLMها در انجام وظایفی با امتیاز messiness بالاتر، ضیف‌تر عمل می‌کنند. آیا نشانه‌ای وجود دارد که این روند در حال تغییر است؟ آیا با گذشت زمان آن‌ها در انجام وظایف با messiness بالاتر بهتر شده‌اند؟
-    کینیمنت: messiness معیاری است که خودم طراحی کردم، تا بتوانیم معیاری کمی از واقعی یا غیرواقعی بودن وظایف نسبت دنیای واقعی داشته باشیم. این معیار ۱۶ امتیازی است و میانگین وظایف عددی حدود ۳ است. 

وظایفی با messiness برابر با ۱۶ چطور هستند؟
-    کینیمنت: کارهایی مثل جاسوسی که محدودیت‌های زیادی وجود دارد و عوامل فعال علیه شما بسیار هستند.

آیا قصد ادامه این مطالعات را دارید؟
-    ما به پیگیری در زمینه اندازه‌گیری LLM ها را ادامه می‌دهیم و قصد داریم همچنان درباره توسعه هوش مصنوعی و ریسک‌ها و خطرات آن تحقیق و اطلاع رسانی کنیم.

ریسک‌های فاجعه‌بار از هوش مصنوعی پیشرفته

چه ریسک فاجعه باری محتمل‌تر است؟ منظورم فجایعی مانند اختلالات بزرگ در اشتغال و ...
-    کینیمنت: صحبت از ریسک‌های فاجعه‌بار بسیار فراتر از بیکاری گسترده است. اگر نیروی انسانی برای اکثر امور نیاز نباشد ممکن است برای نگهداری یک ارتش هم نیازی به نیروی انسانی نباشد و این کودتا را برای هرکسی راحت‌تر می‌کند. ممکن است شاهد تمرکز قدرت باشیم و دیگر حکوت دموکراتیکی وجود نداشته باشد.

تمام این اتفاقات بدون آگاهی (consciousness) اتفاق می‌افتد،‌ این ماشین‌ها قابلیت برنامه‌ریزی و طرح‌ریزی دارند، بدون آگاهی که توانایی انسان را مشخص می‌کند.
-    کینیمنت: آگاهی مسئله پیچیده‌ای است و بنظر می‌رسد از تخصص من خارج است، اما فکر می‌کنم آنقدر هم دیوانه‌وار نیست که فکر کنیم در این مرحله می‌توانند آگاه هم باشند.

پس شما فکر می‌کنید ممکن است در آینده آگاه شوند؟
-    کینیمنت: منظور بنده این است که اگر به مرحله‌ای برسند که به اندازه من و شما باهوش باشند به نظر نمی‌سد کاملا غیرممکن باشد.

مترجم: نیلوفر کریمی
منبع

خانه هوش۰۲
خانه هوش۰۲ نویسنده
#هوش مصنوعی #LLMها