بررسی هندسی فضای یادگرفته شده توسط مدل‌های زبانی برای دیتاست‌های پردازش زبان طبیعی [پايان نامه فارسي]

سیدمحمدرضا مدرس

شناسگر رکورد: ۵۲۱۶۴
رشته تحصیلی: علوم داده
عنوان: بررسی هندسی فضای یادگرفته شده توسط مدل‌های زبانی برای دیتاست‌های پردازش زبان طبیعی
نويسنده: سیدمحمدرضا مدرس
استاد راهنما : دکتر محمدطاهر پیله ور
دکتر یداله یعقوب زاده
مقطع تحصیلی : کارشناسی ارشد
دانشگاه : خاتم
تاریخ دفاع : ۱۴۰۴
چکیده: پیشرفت‌های اخیر در ‌روش‌های تحلیل داده‌ها، رویکردهای پیچیده‌تری را برای تحلیل و توصیف داده‌های آموزشی فراهم کرده است. این روش ها اغلب داده‌ها را بر اساس ویژگی‌هایی مانند «سختی» دسته‌بندی می‌کنند. در این پژوهش، ما روش جدیدی به نام RepMatch معرفی می‌کنیم که داده‌ها را از منظر شباهت مورد بررسی قرار می‌دهد. این روش با مقایسه دانشی که در مدل‌های آموزش‌دیده بر روی زیرمجموعه‌های مختلف داده‌ها نهفته است، میزان شباهت بین این زیرمجموعه‌ها را اندازه‌گیری می‌کند و بر محدودیت‌های روش‌های تحلیلی موجود که صرفاً بر نمونه‌ها به صورت فردی تمرکز دارند و یا به تحلیل درون یک مجموعه داده محدود هستند، غلبه می‌کند. چارچوب پیشنهادی ما امکان ارزیابی گسترده‌تری را فراهم می‌سازد و مقایسه شباهت بین زیرمجموعه‌های دلخواه نمونه‌ها را، چه به صورت مجموعه‌با‌مجموعه و چه نمونه‌با‌مجموعه، امکان‌پذیر می‌سازد. ما اثربخشی روش پیشنهادی را در وظیفه‌های مختلف پردازش زبان طبیعی، مجموعه داده‌ها و مدل‌های متنوع ارزیابی کردیم. نتایج آزمایش‌های گسترده نشان می‌دهد که RepMatch می‌تواند به طور مؤثر مجموعه داده‌ها را با یکدیگر مقایسه کند، زیرمجموعه‌هایی را به عنوان نماینده‌ یک مجموعه داده شناسایی کند (که منجر به عملکرد بهتری نسبت به زیرمجموعه‌های انتخاب‌شده به صورت تصادفی با اندازه مشابه می‌شود) و همچنین قواعد پنهان در ساخت برخی مجموعه داده‌های چالشی را آشکار سازد.
واژگان کلیدی: تحلیل مجموعه داده، مدل‌های زبانی، انتخاب نمونه، خارج از توزیع
شماره ثبت جزء نسخه جلد بخش قسمت مرجع شماره بازیابی در دست امانت تاریخ بازگشت ملاحظات
284811 1
Copyright 2025 by Payam Hannan co ltd. PayamLib.com