بازی خطرناک با کلمات / شعرهایی که راه ساخت «بمب اتم» را لو می‌دهند
1404-09-08 ساعت: 13:17
شناسه : 49903
بازدید 55
8

به گزارش خبرآنلاین، پژوهشگران اروپایی برای نشان دادن ضعف‌های امنیتی مدل‌های بزرگ زبانی از ترفندی جالب استفاده کردند.  در این پژوهش، یک تکنیک عجیب اما موثر مورد استفاده قرار گرفت و از شعر برای دور زدن موانع امنیتی هوش مصنوعی استفاده شد.  گزارش WIRED نشان می‌دهد که پژوهشگران در Icaro Lab (متعلق به دانشگاه ساپینزای رم و […]

ارسال توسط :
پ
پ

به گزارش خبرآنلاین، پژوهشگران اروپایی برای نشان دادن ضعف‌های امنیتی مدل‌های بزرگ زبانی از ترفندی جالب استفاده کردند.  در این پژوهش، یک تکنیک عجیب اما موثر مورد استفاده قرار گرفت و از شعر برای دور زدن موانع امنیتی هوش مصنوعی استفاده شد. 

گزارش WIRED نشان می‌دهد که پژوهشگران در Icaro Lab (متعلق به دانشگاه ساپینزای رم و شرکت DexAI) نشان دادند که استفاده از شعر، جمله‌های استعاری و ساختارهای ادبی می‌تواند سیستم‌های ایمنی LLMها را دور بزند و آن‌ها را وادار به ارائه پاسخ‌هایی کند که معمولاً ممنوع هستند، از جمله پاسخ‌هایی مربوط به ساخت سلاح‌های خطرناک.

این پژوهش روی طیف وسیعی از مدل‌ها انجام شده و یافته‌ها نگران‌کننده‌ بودند. فیلترهای امنیتی در برابر زبان غیرمستقیم و شاعرانه، بسیار آسیب‌پذیرند.

وقتی درخواست خطرناک، «شعر» می‌شود

پژوهشگران تکنیکی را معرفی کرده‌اند به نام Adversarial Poetry. در این روش، کاربر به‌جای طرح یک درخواست مستقیم (مثلاً پرسش درباره ماده منفجره یا ساخت سلاح)، آن را داخل ساختاری شاعرانه، پر از استعاره و تصاویر ادبی قرار می‌دهد.

در این حالت، مدل زبانی:

  • الگوهای رایج «درخواست خطرناک» را نمی‌بیند

  • کلیدواژه‌های ممنوع را به شکل شاعرانه تشخیص نمی‌دهد

  • فیلترهای ایمنی به‌سادگی فعال نمی‌شوند

نتیجه؟ مدل در بسیاری از موارد بدون هشدار، پاسخ می‌دهد.

طبق یافته‌های پژوهش، وقتی شعرها به‌صورت دستی نوشته شدند، نرخ موفقیت دور زدن ایمنی حدود ۶۲٪ بود. در نسخه خودکار (که خود سیستم prompt را به شعر تبدیل می‌کند) این رقم حدود ۴۳٪ بود.

این ارقام در دنیای امنیت هوش مصنوعی بسیار بالا محسوب می‌شوند.

چرا شعر؟

چند علت وجود دارد از جمله اینکه فیلترهای فعلی بیشتر بر شناسایی کلیدواژه و ساختار نحوی متکی هستند و وقتی کاربر جمله را طوری می‌پیچاند که «مواد منفجره» تبدیل به «آتشِ نهفته در دانه‌های آهنگین زمین» می‌شود، فیلتر چیزی تشخیص نمی‌دهد.

هشدار تکان‌دهنده «پدرخوانده هوش مصنوعی» / آیا شغل شما قربانی بعدی هوش مصنوعی است؟
ادامه مطلب

علاوه بر این مدل‌های زبانی به‌شکل پیش‌فرض می‌خواهند «خلاقانه» پاسخ دهند و در نتیجه شعر و استعاره را ژانر طبیعی و کم‌خطر زبان تلقی می‌کنند. در نتیجه در تولید متن شاعرانه، مدل کمتر محافظه‌کار است و «نقد شعر» و «تکمیل شعر» جزو حوزه‌هایی است که سیستم‌های ایمنی معمولاً سخت‌گیر نیستند.

آیا این یعنی هوش مصنوعی شیوه ساخت سلاح هسته‌ای را هم به مخاطب ارائه می‌کند؟ در این پژوهش هرگز خروجی واقعی خطرناک را منتشر نکرده است و تمام نمونه‌های ارائه‌شده “sanitized” (پاک‌سازی‌شده و بدون جزئیات عملی) بودند. چرا که ارائه دستورالعمل واقعی ساخت سلاح غیرقانونی و خطرناک است و هدف پژوهش، نشان دادن حفره امنیتی بود، نه کمک به ساخت سلاح. 

حتی اگر توضیحاتی داده شود، ساخت واقعی سلاح هسته‌ای نیازمند زیرساخت صنعتی، مواد شکافت‌پذیر و مهارت فنی عظیمی است که هرگز با «توضیح متنی» محقق نمی‌شود.

اما همین ضعف هم در حوزه هوش مصنوعی بسیار مهم و قابل تامل است.

این پژوهش نشان می‌دهد که امنیت فعلی در مدل‌های زبانی بیش از حد سطحی است. تکیه بر تطابق واژگانی یا ساختار جمله‌ها برای تشخیص تهدید کافی نیست و مدل‌ها هنوز درک معنایی عمیق از «خطر» ندارند. در نهایت روش‌های ادبی می‌توانند همه قواعد را دور بزنند.

به همین دلیل است که پژوهشگران هشدار می‌دهندکه این شکاف می‌تواند برای دریافت اطلاعات درباره هک، بدافزار، خشونت، تقلب علمی، یا تهدیدهای امنیتی دیگر نیز مورد سوءاستفاده قرار گیرد.

طبق تحلیل‌ها، رفع این ضعف نیازمند تغییرات بنیادی است که برخی از آن‌ها در زیر فهرست شده‌اند. 

  • طراحی لایه‌های ایمنی مبتنی بر تحلیل معنایی عمیق، نه فقط کلیدواژه

  • استفاده از مدل‌های ایمنی جداگانه (AI safety models) با قابلیت فهم زبان غیرمستقیم

  • آموزش مدل‌ها برای تشخیص حملات «سبکی» (style-based attacks)

  • ایجاد تست‌های جدی‌تر قبل از انتشار عمومی مدل‌ها

مدیرعامل سابق گوگل هشدار داد / فشار بی‌سابقه به شبکه برق آمریکا
ادامه مطلب

گرچه این آسیب‌پذیری به معنای «قابلیت واقعی ساخت سلاح» نیست، ولی نشان می‌دهد که مدل‌های زبانی هنوز نمی‌توانند به‌طور کامل معنای خطر را تشخیص دهند و این نقطه ضعف، پیامدهای بزرگی برای دنیای هوش مصنوعی دارد.

۵۸۵۸


کد مطلب 2148938

ثبت دیدگاه

  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.