بازی خطرناک با کلمات / شعرهایی که راه ساخت «بمب اتم» را لو می‌دهند

1404-09-08 ساعت: 13:17

شناسه : 49903

بازدید 55

را لو می‌دهند

به گزارش خبرآنلاین، پژوهشگران اروپایی برای نشان دادن ضعف‌های امنیتی مدل‌های بزرگ زبانی از ترفندی جالب استفاده کردند. در این پژوهش، یک تکنیک عجیب اما موثر مورد استفاده قرار گرفت و از شعر برای دور زدن موانع امنیتی هوش مصنوعی استفاده شد. گزارش WIRED نشان می‌دهد که پژوهشگران در Icaro Lab (متعلق به دانشگاه ساپینزای رم و […]

ارسال توسط :

https://feedestan.ir/?p=49903

گزارش WIRED نشان می‌دهد که پژوهشگران در Icaro Lab (متعلق به دانشگاه ساپینزای رم و شرکت DexAI) نشان دادند که استفاده از شعر، جمله‌های استعاری و ساختارهای ادبی می‌تواند سیستم‌های ایمنی LLMها را دور بزند و آن‌ها را وادار به ارائه پاسخ‌هایی کند که معمولاً ممنوع هستند، از جمله پاسخ‌هایی مربوط به ساخت سلاح‌های خطرناک.

این پژوهش روی طیف وسیعی از مدل‌ها انجام شده و یافته‌ها نگران‌کننده‌ بودند. فیلترهای امنیتی در برابر زبان غیرمستقیم و شاعرانه، بسیار آسیب‌پذیرند.

وقتی درخواست خطرناک، «شعر» می‌شود

پژوهشگران تکنیکی را معرفی کرده‌اند به نام Adversarial Poetry. در این روش، کاربر به‌جای طرح یک درخواست مستقیم (مثلاً پرسش درباره ماده منفجره یا ساخت سلاح)، آن را داخل ساختاری شاعرانه، پر از استعاره و تصاویر ادبی قرار می‌دهد.

در این حالت، مدل زبانی:

الگوهای رایج «درخواست خطرناک» را نمی‌بیند
کلیدواژه‌های ممنوع را به شکل شاعرانه تشخیص نمی‌دهد
فیلترهای ایمنی به‌سادگی فعال نمی‌شوند

نتیجه؟ مدل در بسیاری از موارد بدون هشدار، پاسخ می‌دهد.

طبق یافته‌های پژوهش، وقتی شعرها به‌صورت دستی نوشته شدند، نرخ موفقیت دور زدن ایمنی حدود ۶۲٪ بود. در نسخه خودکار (که خود سیستم prompt را به شعر تبدیل می‌کند) این رقم حدود ۴۳٪ بود.

این ارقام در دنیای امنیت هوش مصنوعی بسیار بالا محسوب می‌شوند.

چرا شعر؟

چند علت وجود دارد از جمله اینکه فیلترهای فعلی بیشتر بر شناسایی کلیدواژه و ساختار نحوی متکی هستند و وقتی کاربر جمله را طوری می‌پیچاند که «مواد منفجره» تبدیل به «آتشِ نهفته در دانه‌های آهنگین زمین» می‌شود، فیلتر چیزی تشخیص نمی‌دهد.

هشدار تکان‌دهنده «پدرخوانده هوش مصنوعی» / آیا شغل شما قربانی بعدی هوش مصنوعی است؟

ادامه مطلب

علاوه بر این مدل‌های زبانی به‌شکل پیش‌فرض می‌خواهند «خلاقانه» پاسخ دهند و در نتیجه شعر و استعاره را ژانر طبیعی و کم‌خطر زبان تلقی می‌کنند. در نتیجه در تولید متن شاعرانه، مدل کمتر محافظه‌کار است و «نقد شعر» و «تکمیل شعر» جزو حوزه‌هایی است که سیستم‌های ایمنی معمولاً سخت‌گیر نیستند.

آیا این یعنی هوش مصنوعی شیوه ساخت سلاح هسته‌ای را هم به مخاطب ارائه می‌کند؟ در این پژوهش هرگز خروجی واقعی خطرناک را منتشر نکرده است و تمام نمونه‌های ارائه‌شده “sanitized” (پاک‌سازی‌شده و بدون جزئیات عملی) بودند. چرا که ارائه دستورالعمل واقعی ساخت سلاح غیرقانونی و خطرناک است و هدف پژوهش، نشان دادن حفره امنیتی بود، نه کمک به ساخت سلاح.

حتی اگر توضیحاتی داده شود، ساخت واقعی سلاح هسته‌ای نیازمند زیرساخت صنعتی، مواد شکافت‌پذیر و مهارت فنی عظیمی است که هرگز با «توضیح متنی» محقق نمی‌شود.

اما همین ضعف هم در حوزه هوش مصنوعی بسیار مهم و قابل تامل است.

این پژوهش نشان می‌دهد که امنیت فعلی در مدل‌های زبانی بیش از حد سطحی است. تکیه بر تطابق واژگانی یا ساختار جمله‌ها برای تشخیص تهدید کافی نیست و مدل‌ها هنوز درک معنایی عمیق از «خطر» ندارند. در نهایت روش‌های ادبی می‌توانند همه قواعد را دور بزنند.

به همین دلیل است که پژوهشگران هشدار می‌دهندکه این شکاف می‌تواند برای دریافت اطلاعات درباره هک، بدافزار، خشونت، تقلب علمی، یا تهدیدهای امنیتی دیگر نیز مورد سوءاستفاده قرار گیرد.

طبق تحلیل‌ها، رفع این ضعف نیازمند تغییرات بنیادی است که برخی از آن‌ها در زیر فهرست شده‌اند.

طراحی لایه‌های ایمنی مبتنی بر تحلیل معنایی عمیق، نه فقط کلیدواژه
استفاده از مدل‌های ایمنی جداگانه (AI safety models) با قابلیت فهم زبان غیرمستقیم
آموزش مدل‌ها برای تشخیص حملات «سبکی» (style-based attacks)
ایجاد تست‌های جدی‌تر قبل از انتشار عمومی مدل‌ها

مدیرعامل سابق گوگل هشدار داد / فشار بی‌سابقه به شبکه برق آمریکا

ادامه مطلب

گرچه این آسیب‌پذیری به معنای «قابلیت واقعی ساخت سلاح» نیست، ولی نشان می‌دهد که مدل‌های زبانی هنوز نمی‌توانند به‌طور کامل معنای خطر را تشخیص دهند و این نقطه ضعف، پیامدهای بزرگی برای دنیای هوش مصنوعی دارد.

۵۸۵۸

کد مطلب 2148938

بازی خطرناک با کلمات / شعرهایی که راه ساخت «بمب اتم» را لو می‌دهند

وقتی درخواست خطرناک، «شعر» می‌شود

چرا شعر؟

نوشته های مشابه

ساخت اولین دیتاسنتر زیردریایی جهان با انرژی بادی / انقلاب چینی‌ در عصر هوش مصنوعی

ساخت اولین دیتاسنتر زیردریایی جهان با انرژی بادی / انقلاب چینی‌ در عصر هوش مصنوعی

«ChatGPT» تاریخ‌ساز شد / یک میلیارد کاربر فعال ماهانه در کمتر از ۳ سال

«ChatGPT» تاریخ‌ساز شد / یک میلیارد کاربر فعال ماهانه در کمتر از ۳ سال

ثبت دیدگاه

جدیدترین مقالات

هشدار وزیر صمت: اجازه توقف تولید داده نمی‌شود/ دستور فوری برای رفع موانع بنادر

تشریح برنامه‌های نظارتی در حوزه معادن / نظارت بر معادن فقط ایمنی نیست

صدور اخطاریه و توقف فعالیت برای معادن غیر ایمن

لیست قیمت اجاره مسکن در رودهن / اجاره آپارتمان ۲ خوابه در این منطقه چقدر هزینه دارد؟ + جدول خردادماه ۱۴۰۵

گشایش گره ترافیکی در غرب پایتخت / یک پروژه مهم شهری وارد فاز اجرایی شد

چالش تازه برای مسافران پروازهای لغوشده / اختلاف بر سر میزان بازپرداخت‌ها ادامه دارد

سیاسی

نگرانی تازه برای شرق آسیا / برنامه اتمی کره شمالی وارد فاز جدید شد

فوری / ترامپ برای حمله مجدد به ایران شرط گذاشت

پاسخ قاطع ایران به دشمنان / تلاش‌ها برای نقض آتش‌بس به بن‌بست رسید

رهبر معظم انقلاب: خمینی کبیر و خامنه‌ای شهید آمادگی ملت را احیا کردند

اولین تصاویر از ایرانی بازداشت‌شده در آمریکا / جمشید قمی کیست؟

فوری/ کنگره آمریکا پایان جنگ با ایران را تصویب کرد

اقتصادی

حساب این افراد ۲ میلیون تومان شارژ شد / جزئیات دریافت اعتبار

کالابرگ خرداد چه زمانی واریز می‌شود؟ / افزایش مبلغ تا یک میلیون تومان قوت گرفت

توضیح سازمان تأمین اجتماعی در پی انتشار خبر برداشت ۴۵ همت از حساب سازمان

پیشنهاد ۷بندی مدیریت اعتبارات کارگزاری‌ها؛ بحران اعتبارات ‌فروکش کرد؟

شرایط دریافت وام اشتغال‌زایی بهزیستی اعلام شد / متقاضیان بخوانند

خبرخوش برای کالابرگ بگیران / حساب این افراد فردا شارژ می‌شود