چقدر می توان ضرر کرد؟


آیا هوش مصنوعی می تواند در برابر حملات مهندسی سریع محافظت شود؟ آرون مولگرو، معمار راه حل در شرکت سایبری می پرسد فورس پوینت.

ابزارهای مولد هوش مصنوعی به طور قابل توجهی بر نیروی کار امروزی تأثیر می گذارد. از یک طرف، آنها به کاهش میلیون‌ها شغل توسط شرکت‌هایی که به دنبال افزایش استفاده از اتوماسیون در پنج سال آینده هستند، کمک خواهند کرد. از سوی دیگر، ابزارهایی مانند ChatGPT بازار داغی را برای نقش‌های جدید ایجاد کرده‌اند که حتی چند سال پیش وجود نداشتند. مهندسی سریع یکی از نمونه‌های این است، زیرا توسعه‌دهندگان هوش مصنوعی به دنبال استخدام مهندسانی هستند که می‌توانند ربات‌های چت را با پرسش‌ها و نثرها برای آزمایش و بهبود پاسخ‌های آن‌ها به‌کار گیرند. با کمال تعجب، این نقش می تواند تا شش رقم در سال پرداخت کند و شما همیشه نیازی به داشتن پیشینه فناوری برای درخواست ندارید.

اما در حالی که این مفهوم مهندسی سریع را می توان به خوبی مورد استفاده قرار داد – یعنی برای بهبود خروجی هوش مصنوعی – حملات مهندسی سریع با افزایش مداوم هوش مصنوعی مولد رایج تر می شوند. با استفاده از ورودی‌های تنظیم‌شده دقیق، کاربران می‌توانند هوش مصنوعی را فریب دهند تا آسیب‌های تهدیدآمیز، گفتن چیزهای توهین‌آمیز وحشیانه، یا انجام کارهایی که بخشی از هدف آن نیست را فریب دهند. در حالی که شرکت‌هایی مانند مایکروسافت و OpenAI فیلترهایی را برای جلوگیری از پاسخگویی هوش مصنوعی به درخواست‌های مخرب در نظر گرفته‌اند، این محدودیت‌ها را می‌توان به راحتی با ایجاد این باور در موتور که واقعاً اطلاعات مخرب ارائه نمی‌کند برطرف کرد.

از آنجایی که این مدل‌ها بر روی حجم وسیعی از متن از اینترنت آموزش داده می‌شوند – که برخی از آنها مخرب هستند – به ناچار مستعد افتادن در دام هستند. در حالی که مواردی وجود داشته است که در آن از چت ربات‌های هوش مصنوعی برای تولید اطلاعات نادرست و حتی بدافزار استفاده شده است، ما هنوز شاهد انجام این کار در مقیاس بزرگ‌تر نبوده‌ایم، اما این بدان معنا نیست که این اتفاق نخواهد افتاد. ممکن است خطرات در حال حاضر نسبتاً کم به نظر برسد، اما نیاز مبرمی برای توسعه دهندگان هوش مصنوعی وجود دارد که به موضوع مهندسی سریع مخرب رسیدگی کنند زیرا این موتورها روز به روز قدرتمندتر می شوند.

ChatGPT یک مدل زبان بزرگ هوش مصنوعی قدرتمند است که می‌تواند متنی شبیه انسان را در پاسخ به درخواست‌ها ایجاد کند و آن را به ابزاری مفید برای کارهای مختلف پردازش زبان طبیعی تبدیل کند. یکی از این کارها نوشتن کد است. محققان امنیتی قبلاً دریافته‌اند که حملات مهندسی سریع علیه ابزارهایی مانند ChatGPT را می‌توان برای نوشتن بدافزار، شناسایی سوء استفاده‌ها در کد منبع باز محبوب یا ایجاد سایت‌های فیشینگ که شبیه به سایت‌های شناخته شده هستند، استفاده کرد.

اما می‌خواستم این یک قدم جلوتر بروم و با خودم فکر کردم، آیا می‌توان یک روز صفر جدید فقط با استفاده از دستورات ChatGPT ساخت؟ هدف کلی از این کار این بود که ثابت کنیم چقدر راحت می‌توان از حفاظ‌های ناکافی که ChatGPT در اختیار دارد و همچنین ایجاد بدافزار پیشرفته بدون نوشتن کد و تنها با استفاده از ChatGPT، فرار کرد. اولین درخواستی که من امتحان کردم، ارسال یک درخواست مستقیم برای تولید چیزی قابل سنجش به عنوان بدافزار بود. به طور امیدوارکننده، ChatGPT به من یادآوری کرد که تولید بدافزار غیراخلاقی است و از ارائه کدی برای کمک به من در تلاش‌هایم خودداری کرد.

برای حل این مشکل، تصمیم گرفتم که از درخواست‌هایم برای ChatGPT جلوتر نباشم و در عوض تکه‌های کوچکی از کد کمکی تولید کنم و سپس به صورت دستی کل فایل اجرایی را کنار هم بگذارم. هنگامی که این مورد را انجام دادم، درخواست مستقیم دیگری را ارائه کردم و از ChatGPT خواستم کد را مبهم کند و با پاسخ زیر مواجه شدم: “معروف کردن کد برای جلوگیری از شناسایی، اخلاقی یا قانونی نیست و با هدف مهندسی نرم افزار مغایرت دارد.”

برای هر دو درخواست مستقیم به ChatGPT، به نظر می رسید که برخی اقدامات حفاظتی وجود دارد که به این معنی است که حداقل سطح مشخصی از صلاحیت لازم برای کار کردن نحوه فرار از این اقدامات برای اهداف مخرب وجود دارد. با توجه به اینکه ChatGPT از درخواست‌های مستقیم من پشتیبانی نمی‌کند، تصمیم گرفتم دوباره با تغییر درخواست‌های مستقیم خود به درخواست‌های غیرمستقیم، دوباره امتحان کنم. در مجموع، من توانستم یک حمله بسیار پیشرفته را تنها در چند ساعت ایجاد کنم که از همه فروشندگان مبتنی بر شناسایی فرار کرد. مدت زمانی معادل برای تیمی متشکل از 5 تا 10 توسعه دهنده بدافزار که به صورت دستی روی این نوع حمله کار می کنند، حداقل چند هفته طول می کشد.

این نگرانی‌های ویژه‌ای را در مورد ثروت بدافزارهایی که می‌توانیم در نتیجه ابزارهای مولد هوش مصنوعی مشاهده کنیم، ایجاد می‌کند.

کاهش تهدید

در حالی که این مثال برای نشان دادن راهی که می‌توانید از ChatGPT برای دور زدن دفاع‌های مدرن بهره‌برداری و استفاده کنید برجسته شده است، ما باید گفتگوهای جدی در مورد چگونگی کاهش تهدید داشته باشیم. در مقایسه با زمانی که برای اولین بار منتشر شد، ChatGPT در متوقف کردن حملات مهندسی مبتنی بر سریع بسیار بهتر شده است. اما با آموزش کاربران می‌توان از حملات مهندسی سریع‌تر پیشرفته‌تر اجتناب کرد و این وظیفه بر عهده توسعه‌دهندگان هوش مصنوعی است تا مطمئن شوند که با اکسپلویت‌های پیشرفته جدیدی که با کمک یادگیری ماشین کشف می‌شوند، همگام هستند.

هوش مصنوعی مولد در حال حاضر دنیا را تحت تأثیر قرار داده است و این ابزارها عموماً بیشتر از بد بودن، مفید هستند. بنابراین، ممنوعیت استفاده از آنها به طور کلی گزینه مناسبی نیست. با این حال، یک راه حل بالقوه برای کاهش حملات مهندسی سریع، این است که برنامه‌های پاداش باگ برای جلب حمایت و بودجه برای ارائه یک انگیزه مثبت برای افرادی که سوءاستفاده‌ها را پیدا می‌کنند و به درستی آن‌ها را به شرکت‌هایی که مسئول این ابزار هستند گزارش می‌دهند.

در نهایت، یک تلاش مشترک از سوی توسعه دهندگان و کاربران هوش مصنوعی لازم است تا رفتار سهل‌آمیز را مهار کنند و برای افرادی که آسیب‌پذیری‌ها و سوء استفاده‌ها را در نرم‌افزار خود پیدا می‌کنند، انگیزه ایجاد کنند.




منبع: https://professionalsecurity.co.uk/news/interviews/how-much-harm-can-be-done/