| شناسگر رکورد: | ۵۲۵۰۸ |
| رشته تحصیلی: | مهندسی مالی و مدیریت ریسک |
| عنوان: | اجرای پیشرفته و مقاوم معاملات: بهینه سازی با یادگیری تقویتی |
| نويسنده: | صابر کاظمی |
| استاد راهنما : | دکتر محمد علی رستگار سرخه |
| مقطع تحصیلی : | کارشناسی ارشد |
| دانشگاه : | خاتم |
| تاریخ دفاع : | ۱۴۰۴ |
| چکیده: | اجرای بهینۀ سفارش در بازارهای مالی یکی از چالشبرانگیزترین مسائل در ریزساختار بازار است؛ چالشی که ناشی از تعامل میان نقدشوندگی محدود، تأثیر بازار، نوسانات لحظهای، و الزامات مدیریت ریسک است. این پژوهش با هدف توسعه و ارزیابی استراتژیهای اجرای سفارش مبتنی بر یادگیری تقویتی (Reinforcement Learning – RL)، رویکردی دادهمحور و سازگار ارائه میدهد که قادر است در برابر تغییرات ساختاری بازار و شرایط دشوار معاملاتی عملکردی کارا و پایدار داشته باشد. در این پایاننامه، ابتدا یک محیط شبیهسازی جامع بر پایۀ دادههای واقعی عمقدفتر سفارش (LOB) طراحی شد که در آن دینامیکهای اثر بازار، ناپایداری نقدشوندگی، و نوسانات ساختاری بهصورت دقیق مدلسازی شدهاند. سپس چندین ساختار مشاهده، تابع پاداش، و فضای عمل—از نسخههای گسسته تا مدلهای مبتنی بر CNN—بهمنظور تحلیل نحوۀ درک عامل از ریزساختار بازار و یادگیری الگوهای اجرایی مورد بررسی قرار گرفت. دو الگوریتم اصلی RL، یعنی PPO و DDQN، آموزش داده شدند و عملکرد آنها در برابر خطوط پایۀ استاندارد نظیر TWAP، VWAP، POV و مدل Almgren–Chriss ارزیابی شد. نتایج تجربی نشان میدهد که عاملهای RL بهطور معناداری هزینه اجرای معامله (Implementation Shortfall) را نسبت به خطوط پایه کاهش داده و بهبودهای چشمگیری در ریسک دُمی (VaR و CVaR) ارائه میکنند. الگوریتم PPO بالاترین کارایی را در محیطهای با نقدشوندگی پایین، اسپرد گسترده، و نوسان شدید ثبت کرده و توانسته است رفتار خود را بهصورت تطبیقی با شرایط ریزساختار بازار تنظیم کند. در مقابل، DDQN سیاستی محافظهکارانهتر و پایدارتر را اتخاذ کرده و در محیطهای عادی عملکرد مناسبی داشته است. افزون بر این، نسخۀ تقویتی–خصمانه (Adversarial RL) نشان میدهد که آموزش مقاومتمحور میتواند پایداری عامل را در حضور شوکهای نقدشوندگی، افزایش اسپرد، و تقویت نوسانات ارتقا دهد. در گام نهایی، تحلیل حساسیت گستردهای بر پارامترهای بازار و تنظیمات آموزشی انجام شد که نشان داد عوامل RL نسبت به تغییرات ساختاری، مقیاس پاداش، و مشخصات داده بازار رفتار قابلپیشبینی و منسجمی دارند. یافتههای این پژوهش تأیید میکند که ترکیب یادگیری تقویتی با مدلسازی دقیق ریزساختار بازار میتواند بستر مناسبی برای توسعۀ نسل جدید استراتژیهای اجرای الگوریتمی فراهم سازد؛ استراتژیهایی که علاوه بر کاهش هزینههای معاملاتی، نسبت به شرایط حدّی بازار نیز مقاوم و قابل اعتماد هستند. |
| واژگان کلیدی: | اجرای الگوریتمی سفارش یادگیری تقویتی اجرای بهینه کسری اجرا ریزساختار بازار دفتر سفارش محدود PPO DDQN یادگیری تقویتی معکوس آموزش خصمانه اثر بازار نقدشوندگی ریسک دنبالهای پایداری مقاومت الگوریتم |
| Register Number | Part3 | Version | Volume | Part | Part2 | Reference | Call Number | lended | Date Back | Description | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 284969 | 1 |
MSG_PleaseSigninWithYourAccountToViewTheDigitalFiles