شناسگر رکورد: | ۵۲۱۶۴ |
رشته تحصیلی: | علوم داده |
عنوان: | بررسی هندسی فضای یادگرفته شده توسط مدلهای زبانی برای دیتاستهای پردازش زبان طبیعی |
نويسنده: | سیدمحمدرضا مدرس |
استاد راهنما : | دکتر محمدطاهر پیله ور دکتر یداله یعقوب زاده |
مقطع تحصیلی : | کارشناسی ارشد |
دانشگاه : | خاتم |
تاریخ دفاع : | ۱۴۰۴ |
چکیده: | پیشرفتهای اخیر در روشهای تحلیل دادهها، رویکردهای پیچیدهتری را برای تحلیل و توصیف دادههای آموزشی فراهم کرده است. این روش ها اغلب دادهها را بر اساس ویژگیهایی مانند «سختی» دستهبندی میکنند. در این پژوهش، ما روش جدیدی به نام RepMatch معرفی میکنیم که دادهها را از منظر شباهت مورد بررسی قرار میدهد. این روش با مقایسه دانشی که در مدلهای آموزشدیده بر روی زیرمجموعههای مختلف دادهها نهفته است، میزان شباهت بین این زیرمجموعهها را اندازهگیری میکند و بر محدودیتهای روشهای تحلیلی موجود که صرفاً بر نمونهها به صورت فردی تمرکز دارند و یا به تحلیل درون یک مجموعه داده محدود هستند، غلبه میکند. چارچوب پیشنهادی ما امکان ارزیابی گستردهتری را فراهم میسازد و مقایسه شباهت بین زیرمجموعههای دلخواه نمونهها را، چه به صورت مجموعهبامجموعه و چه نمونهبامجموعه، امکانپذیر میسازد. ما اثربخشی روش پیشنهادی را در وظیفههای مختلف پردازش زبان طبیعی، مجموعه دادهها و مدلهای متنوع ارزیابی کردیم. نتایج آزمایشهای گسترده نشان میدهد که RepMatch میتواند به طور مؤثر مجموعه دادهها را با یکدیگر مقایسه کند، زیرمجموعههایی را به عنوان نماینده یک مجموعه داده شناسایی کند (که منجر به عملکرد بهتری نسبت به زیرمجموعههای انتخابشده به صورت تصادفی با اندازه مشابه میشود) و همچنین قواعد پنهان در ساخت برخی مجموعه دادههای چالشی را آشکار سازد. |
واژگان کلیدی: | تحلیل مجموعه داده، مدلهای زبانی، انتخاب نمونه، خارج از توزیع |
شماره ثبت | جزء | نسخه | جلد | بخش | قسمت | مرجع | شماره بازیابی | در دست امانت | تاریخ بازگشت | ملاحظات | |
---|---|---|---|---|---|---|---|---|---|---|---|
284811 | 1 |