زهرا مظفری؛ گیتی تاکی؛ مجتبی صباغ جعفری؛ پاکزاد یوسفیان
چکیده
رفع ابهام معنایی از کلمات در بافت یکی از مهمترین چالشها در حوزۀ پردازش زبان طبیعی و زبانشناسی رایانشی است. در این میان حروف اضافه، بهخصوص در زبان فارسی، در پژوهشهای مربوط به رفع ابهام معنایی همواره ...
بیشتر
رفع ابهام معنایی از کلمات در بافت یکی از مهمترین چالشها در حوزۀ پردازش زبان طبیعی و زبانشناسی رایانشی است. در این میان حروف اضافه، بهخصوص در زبان فارسی، در پژوهشهای مربوط به رفع ابهام معنایی همواره نادیده انگاشته شدهاند. ازاینرو، پژوهش حاضر قصد دارد با ارائۀ الگوریتمی جدید مبتنی بر قالبهای معنایی، سامانهای قاعدهمند جهت رفع ابهام معنایی از حروف اضافه «از»، «در»، «با» و «تا» در زبان فارسی ارائه دهد. روش به کار گرفتهشده در این پژوهش و الگوریتم پیشنهادی منحصربهفرد است. دادگان مورداستفاده در این پژوهش شامل 1000 جمله دادۀ آموزشی، 100 جمله دادۀ توسعه و 500 جمله دادۀ تست است که از منابع اینترنتی و شبکههای اجتماعی همچون یوتیوب جمعآوری گردیده است. جهت انجام کار، تمام حروف اضافه موردنظر پژوهش برچسبدهی معنایی شده و برای آنها در پیکرۀ آموزشی، قالبهای معنایی بر اساس زبان قالب بنیاد مینسکی (1975) تعریف شدند. همچنین برای کلمات قبل و بعد حروف اضافه در پیکره نیز قالبهایی تهیه و در فایل داده مدخلها وارد سامانه گردیدند. الگوریتم پژوهش در سه مسیر با استفاده از اطلاعات موجود در قالبها، اقدام به تعیین معنای حروف اضافه در جملات میکند. نتایج آزمایشهای دادۀ تست، نشان دهندۀ دقت بالای عملکرد سامانه (16/99%) در رفع ابهام معنایی از حروف اضافه در زبان فارسی است.