نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانش آموخته کارشناسی ارشد گروه زبانشناسی رایانشی، مرکز زبانها و زبانشناسی، دانشگاه صنعتی شریف
2 دانش آموخته دکتری زبانشناسی، دانشگاه تهران
3 استادیارگروه رایانه، دانشگاه علامه طباطبائی
چکیده
ساخت اضافه همواره در نظریههای مختلف زبانشناسی نظیر آوایی، ساختواژی و نحوی حائز اهمیت بوده است و زبانشناسان ایرانی تاکنون تحلیلهای متفاوتی از این ساخت به دست دادهاند. عدم تظاهر کسرۀ اضافه در نوشتار، ابهامات بسیاری را در تحلیل و درک متون فارسی موجب شده است و برنامههای مختلف پردازش زبان اعم از برچسبزن اجزای کلام، تشخیص موجودیتهای ناممند، تشخیص کلمات هممرجع، تبدیل متن به گفتار، ترجمة ماشینی، تجزیة نحوی جملات و غیره را با چالشهای بسیاری روبرو ساخته است. به همین روی، شناسایی جایگاه این عنصر از مهمترین چالشهای پردازش متون زبان فارسی بهشمار میرود. پژوهش حاضر میکوشد تا به شیوهای تحلیلی و پیکرهبنیاد و از منظر دستور وابستگی به بررسی ساخت اضافه بپردازد. از آنجا که دستور وابستگی به لحاظ سادگی، استفاده کم از فضای حافظه رایانه و تسریع در امر پردازش در مطالعات پردازش متن در حوزة زبانشناسی رایانشی از اهمیت چشمگیری برخوردار است، بهترین پایگاه نظری را برای این دست مطالعات فراهم میآورد. به همین سبب، پژوهش حاضر در تلاش است تا با استفاده از این دستور روشی قاعدهمند جهت تشخیص کلمات حاوی نشانۀ کسرۀ اضافه در متون فارسی ارائه دهد. بدین منظور، با ارائة کلیة ساختهای نمونهای که حاوی نشانة اضافه هستند و از پیکرة وابستگی زبان فارسی دانشگاه اوپسالا استخراج شدهاند، در چارچوب دستور وابستگی به تجزیه و تحلیل آنها خواهیم پرداخت. از رهگذر این بررسی، تنها هفت قاعدۀ منطقی برای درج کسرۀ اضافه در گروههای غیرفعلی اعم از گروههای اسمی، صفتی، حرف اضافهای، قیدی، گروههایی با بیش از یک وابستة پسین، گروههایی با بیش از یک وابسته از نوع گروه و ساختهای همپایه استخراج میشود که با استناد به آنها میتوان در انواع پیکرههای وابستگی و سامانههای رایانهای مبتنی بر تجزیة وابستگی به شناسایی جایگاه نشانۀ اضافه پرداخت. افزون بر این، در این پژوهش به جایگاههای نشانة اضافهای نیز اشاره خواهد شد که تاکنون در پژوهشهای نظری و رایانهای پیشین به آنها پرداخته نشده است.
کلیدواژهها
عنوان مقاله [English]
The Corpus-Based Study of Ezafe Construction in Persian
نویسندگان [English]
- minoo nassajian 1
- Razieh Shojaei 2
- Mohammad Bahrani 3
1 M.A. Graduate in Computational Linguistics, Languages and Linguistics Center, Sharif University of Technology
2 Ph.D. Graduate Linguistics, University of Tehran
3 Assistant professor, Department of Computer, Allameh Tabataba’i University
چکیده [English]
Ezafe construction is considered as one of the most important issues in various linguistic theories including phonetics, morphology and syntax and many Iranian linguists have analyzed this phenomenon from these different aspects. Ezafe marker is usually not written in Persian text. So, not only does it result in a high degree of ambiguity in reading, analyzing, and understanding Persian documents, but also it causes serious difficulties for a large number of natural language processing tasks (NLP) such as part-of-speech (POS) tagging, Named-Entity Recognition (NER), Co-reference Resolution, Converting Text to Speech, Machine Translation, syntactic parsing and so on. As a result, determining the positions of Ezafe in a given sentence is viewed as a controversial and challenging issue especially in these applications. Using a corpus-based analysis and dependency grammar, the current paper sets to study Ezafe positions. Due to the fact that dependency grammar applies a simple parsing, uses low memory and speeds up computer operations, this grammar is regarded as one of the important and practical grammars in the field of computational linguistics. Accordingly, this study will use a rule-based method within this framework to recognize Ezafe positions. For this purpose, all Ezafe constructions which are provided in Uppsala Persian Dependency Corpus (UPDC) are analyzed based on dependency relations. In the next step, only seven Ezafe rules are formulated consisting of such non-verbal phrases as noun phrases, adjective phrases, prepositional phrases, adverb phrases, phrases with more than one post-modifier, phrases with more than one post-modifier as a phrase and co-ordinations. The proposed rules can be used in Persian dependency corpora and a great number of language processing tasks which are based on dependency relations. In addition, in the present research, Ezafe positions which have not been mentioned in previous theoretical and computational studies will be elaborated.
کلیدواژهها [English]
- Ezafe Marker
- Ezafe Construction
- Ezafe Insertion Rules
- Dependency Grammar
- Persian Text Processing