حملات خصمانه با هدف افزایش احتمال رخداد بد برای عامل هوشمند در یادگیری تقویتی [Persian Thesis]

عمران شهبازی قلی‌آباد

شناسگر رکورد: ۵۲۵۱۶
رشته تحصیلی: علوم داده
عنوان: حملات خصمانه با هدف افزایش احتمال رخداد بد برای عامل هوشمند در یادگیری تقویتی
نويسنده: عمران شهبازی قلی‌آباد
استاد راهنما : دکتر محمد قیداری
مقطع تحصیلی : کارشناسی ارشد
دانشگاه : خاتم
تاریخ دفاع : ۱۴۰۴
چکیده: یادگیری تقویتی یکی از رویکردهای کلیدی در هوش مصنوعی است که به عامل هوشمند امکان می‌دهد از طریق دریافت پاداش از محیط، سیاستی بهینه برای تصمیم‌گیری را بیاموزد. با وجود کاربردهای گسترده یادگیری تقویتی در حوزه‌هایی مانند رانندگی خودکار، رباتیک و سیستم‌های پیشنهادگر، پژوهش‌های اخیر نشان داده‌اند که این سامانه‌ها در برابر حملات مخرب موسوم به حملات خصمانه و به طور اخص، حملات مسموم‌سازی آسیب‌پذیرند. عمده تحقیقات پیشین بر مسموم‌سازی‌هایی متمرکز بوده‌اند که هدفشان افزایش «ندامت» یا «انحراف از سیاست مطلوب» است، اما این اهداف لزوماً منجر به رخدادهای مشخص و بحرانی در سامانه نمی‌شوند. در این پژوهش، نوع جدیدی از حمله با عنوان مسموم‌سازی هدفمند معرفی می‌شود که در آن، مهاجم با تغییر گزینشی در فرایند یادگیری عامل، احتمال وقوع یک رویداد نامطلوب از پیش‌تعریف‌شده را افزایش می‌دهد. این چارچوب حمله، به‌ویژه برای سامانه‌های حساس به ایمنی، نظیر ربات‌های جراحی یا خودروهای خودران، اهمیت ویژه‌ای دارد. در این حمله، مهاجم در مرحله آموزش، با دست‌کاری محدود در اعمال عامل، مسیر یادگیری را به نحوی تغییر می‌دهد که در مرحله آزمون، احتمال بروز رخداد هدفمند به‌طور چشمگیری افزایش یابد. در بخش نظری، نشان داده‌ایم که در محیط‌هایی با گذار و پاداش تقریباً قطعی، حتی یک مهاجم با توان محاسباتی چندجمله‌ای نیز می‌تواند احتمال وقوع رویداد نامطلوب را از نزدیک به صفر به نزدیک به یک افزایش دهد. در بخش تجربی، حملات پیشنهادی بر روی مجموعه‌ای از الگوریتم‌های یادگیری تقویتی و همچنین نسخه‌های مقاوم آنها در نه محیط مختلف از جمله محیط های گسسته و محیط‌های پیوسته مورد ارزیابی قرار گرفته‌اند. نتایج نشان می‌دهد که حمله هدفمند پیشنهادی حتی در شرایط تصادفی و با بودجه محدود نیز بسیار مؤثر است و می‌تواند احتمال وقوع رویداد نامطلوب را به‌طور چشمگیری افزایش دهد. این پژوهش نخستین گام در بررسی نظام‌مند آسیب‌پذیری یادگیری تقویتی در برابر حملات هدفمند مبتنی بر مسموم‌سازی است و خلأ قابل توجهی را در طراحی الگوریتم‌های مقاوم در برابر چنین تهدیداتی نمایان می‌سازد. مسیرهای آینده پژوهش شامل توسعه دفاع‌های ویژه برای مقابله با این نوع حملات و بررسی مسموم‌سازی هدفمند در سطح پاداش یا حالت می‌باشد.
واژگان کلیدی: یادگیری تقویتی
حملات مسموم‌سازی هدفمند
امنیت یادگیری ماشین
یادگیری عمیق تقویتی
حملات ‌جعبه سیاه
Register Number Part3 Version Volume Part Part2 Reference Call Number lended Date Back Description
284976 1
Copyright 2026 by Payam Hannan co ltd. PayamLib.com