| شناسگر رکورد: | ۵۲۵۱۶ |
| رشته تحصیلی: | علوم داده |
| عنوان: | حملات خصمانه با هدف افزایش احتمال رخداد بد برای عامل هوشمند در یادگیری تقویتی |
| نويسنده: | عمران شهبازی قلیآباد |
| استاد راهنما : | دکتر محمد قیداری |
| مقطع تحصیلی : | کارشناسی ارشد |
| دانشگاه : | خاتم |
| تاریخ دفاع : | ۱۴۰۴ |
| چکیده: | یادگیری تقویتی یکی از رویکردهای کلیدی در هوش مصنوعی است که به عامل هوشمند امکان میدهد از طریق دریافت پاداش از محیط، سیاستی بهینه برای تصمیمگیری را بیاموزد. با وجود کاربردهای گسترده یادگیری تقویتی در حوزههایی مانند رانندگی خودکار، رباتیک و سیستمهای پیشنهادگر، پژوهشهای اخیر نشان دادهاند که این سامانهها در برابر حملات مخرب موسوم به حملات خصمانه و به طور اخص، حملات مسمومسازی آسیبپذیرند. عمده تحقیقات پیشین بر مسمومسازیهایی متمرکز بودهاند که هدفشان افزایش «ندامت» یا «انحراف از سیاست مطلوب» است، اما این اهداف لزوماً منجر به رخدادهای مشخص و بحرانی در سامانه نمیشوند. در این پژوهش، نوع جدیدی از حمله با عنوان مسمومسازی هدفمند معرفی میشود که در آن، مهاجم با تغییر گزینشی در فرایند یادگیری عامل، احتمال وقوع یک رویداد نامطلوب از پیشتعریفشده را افزایش میدهد. این چارچوب حمله، بهویژه برای سامانههای حساس به ایمنی، نظیر رباتهای جراحی یا خودروهای خودران، اهمیت ویژهای دارد. در این حمله، مهاجم در مرحله آموزش، با دستکاری محدود در اعمال عامل، مسیر یادگیری را به نحوی تغییر میدهد که در مرحله آزمون، احتمال بروز رخداد هدفمند بهطور چشمگیری افزایش یابد. در بخش نظری، نشان دادهایم که در محیطهایی با گذار و پاداش تقریباً قطعی، حتی یک مهاجم با توان محاسباتی چندجملهای نیز میتواند احتمال وقوع رویداد نامطلوب را از نزدیک به صفر به نزدیک به یک افزایش دهد. در بخش تجربی، حملات پیشنهادی بر روی مجموعهای از الگوریتمهای یادگیری تقویتی و همچنین نسخههای مقاوم آنها در نه محیط مختلف از جمله محیط های گسسته و محیطهای پیوسته مورد ارزیابی قرار گرفتهاند. نتایج نشان میدهد که حمله هدفمند پیشنهادی حتی در شرایط تصادفی و با بودجه محدود نیز بسیار مؤثر است و میتواند احتمال وقوع رویداد نامطلوب را بهطور چشمگیری افزایش دهد. این پژوهش نخستین گام در بررسی نظاممند آسیبپذیری یادگیری تقویتی در برابر حملات هدفمند مبتنی بر مسمومسازی است و خلأ قابل توجهی را در طراحی الگوریتمهای مقاوم در برابر چنین تهدیداتی نمایان میسازد. مسیرهای آینده پژوهش شامل توسعه دفاعهای ویژه برای مقابله با این نوع حملات و بررسی مسمومسازی هدفمند در سطح پاداش یا حالت میباشد. |
| واژگان کلیدی: | یادگیری تقویتی حملات مسمومسازی هدفمند امنیت یادگیری ماشین یادگیری عمیق تقویتی حملات جعبه سیاه |
| Register Number | Part3 | Version | Volume | Part | Part2 | Reference | Call Number | lended | Date Back | Description | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 284976 | 1 |
MSG_PleaseSigninWithYourAccountToViewTheDigitalFiles