
در ابتدا لازم است بدانیم LLMها اصلا چه کار میکنند، در واقع کار آنها این است که متونی ارائه کنند که تا حد خوبی از نوشتههای انسان قابل تمایز نباشد، و همین مسئله سنجش عملکرد نسبی آنها را بسیار دشوار میکند، زیرا معیارهای سنتی که برای سنجش عملکرد پردازندهها استفاده میشود، در اینجا قابل استفاده نیست.
اما محققین (METR-Model Evaluation & Threat Research) در برکلی، ایدهای مطرح کردند. آنها در ابتدا وظایفی با پیچیدگیهای مختلف را در نظر گرفتند و زمان متوسط انجام آن توسط انسان را برای انجام آن وظایف ثبت کردند. سپس آن وظایف را به LLMهای مختلفی سپردند و زمان انجام را ثبت کردند. نتایج به خوبی نشان میدهند با گذشت زمان، نسلهای جدیدتر هر نسخه توانایی انجام وظایف پیچیدهتر در زمانهای کوتاهتر هستند. اما این نکتهی عجیبی نیست، مسئله این بود که این توانایی به صورت نمایی افزایش مییافت!
در ادامه به گفتوگو نشریه IEEE Spectrum با مگان کینیمنت، یکی از نویسندگان مقالهای که این اتفاق و پیامدهای آن را توصیف میکند میپردازیم:
سنجش معیارهای عملکرد LLM ها
آیا انتظار داشتید که این نتایج حاصل شود؟
- مگان کینیمِنت: حداقل انتظار چنین روند نمایی را نداشتم. البته مدلها بدون شک خیلی سریع پیشرفت کردهاند. بنابراین یک نرخ پیشرفت سریع غیرمنتظره نبود.
همانطور که در مقاله اشاره کردید، نگاه کردن به آینده و برونیابی خطرناک است. اگرچه که پیشنهاد کردهاید این روند ادامه پیدا میکند و تا سال ۲۰۳۰ وظایف یک ماهه در توانایی مدلهای پیشرفته LLM ها است.
- کینیمِنت: اینطور به مسئله نگاه کنید که یک ماه به معنی حدود ۱۶۷ ساعت کاری انسانی است. اما این با قابلیت اطمینان کمتری است، درحالی که وظایف طولانیتر عموما به قابلیت اطمینان بیشتری دارند. بنابراین تاثیر واقعی و اقتصادی میتواند کمتر از پیشبینیها باشد.
عوامل مختلفی باید طبق این پیشبینی توسعه پیدا کنند، سختافزار باید با نرخ خوبی همچنان بهبود یابد، و علاوه بر نرم افزار باید آموزش و دادههای کافی با سرعت خوبی ادامه پیدا کنند.
- کینیمنت: این پیشبینیها فقط نتیجه برونیابی روندی است که تا الان وجود داشته و عوامل دنیای واقعی را در نظر نمیگیرند.
اگر یک LLM بتواند قابلیت انجام وظایفی معادل با ۱۶۷ ساعت کاری انسانی را با قابلیت اطمینان حدود ۵۰ درصد به دست آورد، چه کارهایی در حیطه توانایی آن قرار میدهد.
- کینیمنت: چیزی که بیشتر همه ما اغلب به آن فکر میکنیم، این است که روند توسعه هوش مصنوعی تسریع شود و تواناییهای شرکت شما را بهبود ببخشد. این ممکن است که هوش مصنوعی در حیطه کاری شما رشد بسیار سریعی داشته باشد.
رشد نمایی هوش مصنوعی چه معنایی برای بشریت دارد؟
آنچه که شما توصیف میکنید بسیار شبیه به جایی است که هوش مصنوعی خودش بدون کمک انسان هوش مصنوعیهای دیگری ایجاد میکند.
- کینیمنت: به نظر من احتمال دارد شتابی بسیار شدید وجود داشته باشد که کنترل شرایط را دشوار کند، اما موانعی وجود خواهد داشت که در واقعیت این شتاب را کاهش میدهد. برای مثال محدودیتهایی در حوزه سخت افزار وجود دارد.
به نظر شما توانایی LLMها در سازگاری و بهبود عملکرد از اشتباهات پیشرفت کرده؟
- کینیمنت: من اینطور فکر میکنم که این تغییر تقریبا تدریجی بوده، الان در حال حاضر بسیار بهتر در تغییر راهبردها عمل میکنند وقتی چیزی جواب نمیدهد. اما برخی جنبههای اساسی تغییری نکردهاند. مسئلهای که خیلی دوست دارم آن را در مدلهای پیشرفته امتحان کنم این است که ما برای هر وظیفه تعداد کلماتی که میتواند بگوید را مشخص کنیم و این محدودیت را کم و زیاد کنیم. احتمالا خواهیم دید که از نقطهای به بعد با افزایش تعداد کلمات به اشباع میرسند و بهبودی در عملکرد مدل نخواهیم داشت.
البته انسان هم از زمان مشخصی به بعد بازدهیاش روند نزولی پیدا میکند، اما اگر زمان زیادی به انسان بدهید در نهایت کار را بهتر انجام دهد، به خصوص اگر چند نفر باشند.
شما متوجه شدید که LLMها در انجام وظایفی با امتیاز messiness بالاتر، ضیفتر عمل میکنند. آیا نشانهای وجود دارد که این روند در حال تغییر است؟ آیا با گذشت زمان آنها در انجام وظایف با messiness بالاتر بهتر شدهاند؟
- کینیمنت: messiness معیاری است که خودم طراحی کردم، تا بتوانیم معیاری کمی از واقعی یا غیرواقعی بودن وظایف نسبت دنیای واقعی داشته باشیم. این معیار ۱۶ امتیازی است و میانگین وظایف عددی حدود ۳ است.
وظایفی با messiness برابر با ۱۶ چطور هستند؟
- کینیمنت: کارهایی مثل جاسوسی که محدودیتهای زیادی وجود دارد و عوامل فعال علیه شما بسیار هستند.
آیا قصد ادامه این مطالعات را دارید؟
- ما به پیگیری در زمینه اندازهگیری LLM ها را ادامه میدهیم و قصد داریم همچنان درباره توسعه هوش مصنوعی و ریسکها و خطرات آن تحقیق و اطلاع رسانی کنیم.
ریسکهای فاجعهبار از هوش مصنوعی پیشرفته
چه ریسک فاجعه باری محتملتر است؟ منظورم فجایعی مانند اختلالات بزرگ در اشتغال و ...
- کینیمنت: صحبت از ریسکهای فاجعهبار بسیار فراتر از بیکاری گسترده است. اگر نیروی انسانی برای اکثر امور نیاز نباشد ممکن است برای نگهداری یک ارتش هم نیازی به نیروی انسانی نباشد و این کودتا را برای هرکسی راحتتر میکند. ممکن است شاهد تمرکز قدرت باشیم و دیگر حکوت دموکراتیکی وجود نداشته باشد.
تمام این اتفاقات بدون آگاهی (consciousness) اتفاق میافتد، این ماشینها قابلیت برنامهریزی و طرحریزی دارند، بدون آگاهی که توانایی انسان را مشخص میکند.
- کینیمنت: آگاهی مسئله پیچیدهای است و بنظر میرسد از تخصص من خارج است، اما فکر میکنم آنقدر هم دیوانهوار نیست که فکر کنیم در این مرحله میتوانند آگاه هم باشند.
پس شما فکر میکنید ممکن است در آینده آگاه شوند؟
- کینیمنت: منظور بنده این است که اگر به مرحلهای برسند که به اندازه من و شما باهوش باشند به نظر نمیسد کاملا غیرممکن باشد.
مترجم: نیلوفر کریمی
منبع