اجرای پیشرفته و مقاوم معاملات: بهینه سازی با یادگیری تقویتی [Persian Thesis]

صابر کاظمی

شناسگر رکورد: ۵۲۵۰۸
رشته تحصیلی: مهندسی مالی و مدیریت ریسک
عنوان: اجرای پیشرفته و مقاوم معاملات: بهینه سازی با یادگیری تقویتی
نويسنده: صابر کاظمی
استاد راهنما : دکتر محمد علی رستگار سرخه
مقطع تحصیلی : کارشناسی ارشد
دانشگاه : خاتم
تاریخ دفاع : ۱۴۰۴
چکیده: اجرای بهینۀ سفارش در بازارهای مالی یکی از چالش‌برانگیزترین مسائل در ریزساختار بازار است؛ چالشی که ناشی از تعامل میان نقدشوندگی محدود، تأثیر بازار، نوسانات لحظه‌ای، و الزامات مدیریت ریسک است. این پژوهش با هدف توسعه و ارزیابی استراتژی‌های اجرای سفارش مبتنی بر یادگیری تقویتی (Reinforcement Learning – RL)، رویکردی داده‌محور و سازگار ارائه می‌دهد که قادر است در برابر تغییرات ساختاری بازار و شرایط دشوار معاملاتی عملکردی کارا و پایدار داشته باشد. در این پایان‌نامه، ابتدا یک محیط شبیه‌سازی جامع بر پایۀ داده‌های واقعی عمق‌دفتر سفارش (LOB) طراحی شد که در آن دینامیک‌های اثر بازار، ناپایداری نقدشوندگی، و نوسانات ساختاری به‌صورت دقیق مدل‌سازی شده‌اند. سپس چندین ساختار مشاهده، تابع پاداش، و فضای عمل—از نسخه‌های گسسته تا مدل‌های مبتنی بر CNN—به‌منظور تحلیل نحوۀ درک عامل از ریزساختار بازار و یادگیری الگوهای اجرایی مورد بررسی قرار گرفت. دو الگوریتم اصلی RL، یعنی PPO و DDQN، آموزش داده شدند و عملکرد آن‌ها در برابر خطوط پایۀ استاندارد نظیر TWAP، VWAP، POV و مدل Almgren–Chriss ارزیابی شد. نتایج تجربی نشان می‌دهد که عامل‌های RL به‌طور معناداری هزینه اجرای معامله (Implementation Shortfall) را نسبت به خطوط پایه کاهش داده و بهبودهای چشمگیری در ریسک دُمی (VaR و CVaR) ارائه می‌کنند. الگوریتم PPO بالاترین کارایی را در محیط‌های با نقدشوندگی پایین، اسپرد گسترده، و نوسان شدید ثبت کرده و توانسته است رفتار خود را به‌صورت تطبیقی با شرایط ریزساختار بازار تنظیم کند. در مقابل، DDQN سیاستی محافظه‌کارانه‌تر و پایدارتر را اتخاذ کرده و در محیط‌های عادی عملکرد مناسبی داشته است. افزون بر این، نسخۀ تقویتی–خصمانه (Adversarial RL) نشان می‌دهد که آموزش مقاومت‌محور می‌تواند پایداری عامل را در حضور شوک‌های نقدشوندگی، افزایش اسپرد، و تقویت نوسانات ارتقا دهد. در گام نهایی، تحلیل حساسیت گسترده‌ای بر پارامترهای بازار و تنظیمات آموزشی انجام شد که نشان داد عوامل RL نسبت به تغییرات ساختاری، مقیاس پاداش، و مشخصات داده بازار رفتار قابل‌پیش‌بینی و منسجمی دارند. یافته‌های این پژوهش تأیید می‌کند که ترکیب یادگیری تقویتی با مدل‌سازی دقیق ریزساختار بازار می‌تواند بستر مناسبی برای توسعۀ نسل جدید استراتژی‌های اجرای الگوریتمی فراهم سازد؛ استراتژی‌هایی که علاوه بر کاهش هزینه‌های معاملاتی، نسبت به شرایط حدّی بازار نیز مقاوم و قابل اعتماد هستند.
واژگان کلیدی: اجرای الگوریتمی سفارش
یادگیری تقویتی
اجرای بهینه
کسری اجرا
ریزساختار بازار
دفتر سفارش محدود
PPO
DDQN
یادگیری تقویتی معکوس
آموزش خصمانه
اثر بازار
نقدشوندگی
ریسک دنباله‌ای
پایداری
مقاومت الگوریتم‌
Register Number Part3 Version Volume Part Part2 Reference Call Number lended Date Back Description
284969 1
Copyright 2026 by Payam Hannan co ltd. PayamLib.com