Document Type : Research Paper
Authors
1 Associate Professor, Department of Linguistics, University of Tehran
2 PhD student, Department of Linguistics, University of Tehran
Abstract
The present study clarifies the difference between orthographic words and their phonological correspondents in Persian writing system via computing orthographic depth of Persian writing system. In this article, first, the relationship between orthographic forms of the words and their phonological correspondents is formalized by using context free and context sensitive grapheme-phoneme rules. Then, the phonological bases of diacritics are studied. Finally, a method for computing orthographic depth of Persian writing system is introduced regardless of linguistic knowledge. The results indicate that it is possible to reduce the depth of Persian writing system by phonological, morphological and syntactic knowledge of the native speakers.
Keywords
- مقدمه
رویکرد غالب در مطالعۀ نظامهای نوشتاری، چگونگی پیوند دادن زبان با نشانههای نوشتاری است. در سالهای اخیر نظام نوشتاری به عنوان حوزهای مجزا در مطالعات زبانشناسی از اهمیت خاصی برخوردار شده است و مطالعات بسیاری در زمینۀ نظامهای نوشتاری گوناگون انجام شده است که از میان آنها میتوان به تحقیقات کارینه مگردومیان (2004 ) تجزیه و تحلیل ساختواژی روش حالتهای محدود در فارسی ، مریم دانای طوس(1384) اثرات شفافیت و تیرگی خط فارسی بر مهارت زبانی خواندن کودکان طبیعی و خوانشپریش رشدی فارسی زبان، تیم بوکوالتر[1] ( 2004) مسائلی دربارۀ خط عربی و تحلیلهای ساختواژی مربوط به آن، آنتال ون دن بوش[2]، الن کانتنت[3] ، والتر دلمانز[4] و بأتریس دخلدر[5] (1994) تجزیه و تحلیل عمق نوشتاری زبانهای مختلف با استفاده از الگوریتم داده- محور، الینرگیبسون[6]، انه پایک[7]، هری اوسر[8] و مارشا همند[9] (1962)- نقش انطباق نگاره-واج در فهم کلمات، ریچرد ونزکی[10] (2004) در جستجوی نظام نوشتاری جامع و رابرت ترمل[11] (1990) تطابق مختلف نگاره-واج در کلمات ناآشنای چندهجایی، اشاره کرد. به دلیل وجود انبوه اطلاعات موجود در محیطهای گوناگون از جمله محیطهای رایانشی مانند اینترنت و رسانهها مانند روزنامه و مجلات ،حجم کلماتی که در واژگان ذهنی وجود ندارند و برای اولین بار با آنها مواجه میشویم ( کلمات خارج از واژگان[12] ) افزایش مییابد. حجم قابلتوجهی از این کلمات ، نامهای تجاری هستند که حرفگردانی[13] شدهاند مانند کلمۀ < ناسیونال> برای برخی دیگر فرهنگستان زبان فارسی معادل فارسی معرفی کرده است مانند کلمۀ < رایانه > که معادل کلمۀ < کامپیوتر> میباشد. این کلمات جدیدالورود در متون فارسی را میتوان از دو دیدگاه مطالعه کرد: 1) روانشناسی زبان و 2) پردازش متن فارسی از دیدگاه تبدیل نوشتار به گفتار. روانشناسی زبان در جستجوی یافتن پاسخ برای این مسئله است که علیرغم نبود این کلمات در واژگان ذهنی، چگونه گویشوران یک زبان قادر به تلفظ کلماتی که برای اولین بار با آنها مواجه میشوند، هستند و علت وجود شباهتها درنحوۀ تلفظ این کلمات میان افرادی که در یک طبقۀ تحصیلاتی قرار میگیرند چیست. هدف این مقاله مطالعۀ مسائل مربوط به خط فارسی از نظر پردازش متن فارسی از دیدگاه تبدیل نوشتار به صورت واجی و سپس به صورت آوایی است. از آنجائیکه کلمات جدیدالورود در واژگان تعریف نشدهاند، در پردازش متن فارسی از دیدگاه تبدیل نوشتار به صورت واجی و سپس به صورت آوایی، باید روشی پیشبینی شود که بوسیلۀ آن بتوان تلفظی برای این کلمات ارائه داد. نگارنده با استفاده از مفهوم نگاره[14] فاصلۀ بین صورت نوشتاری کلمات فارسی و صورت آوایی را تبیین میکند و از طریق ارائه روش ریاضی بخشبندی قطعههای نوشتاری و فرمول ، که برای اولین بار نگارنده این روش را معرفی میکند، به محاسبه عمق خط[15] فارسی میپردازد. عبارت «عمق خط» بر میزان فاصلهای که یک نظام نوشتاری از یک نظام آوانگاشتی آرمانی دارد دلالت میکند. هر قدر این فاصله کمتر باشد و عدد بهدستآمده به یک نزدیکتر باشد، نظام نوشتاری مورد نظر سطحیتر است و برعکس هر قدر این فاصله بیشتر باشد، نظام نوشتاری مورد نظر عمیقتر است. طبق محاسبات بعملآمده، عمق خط فارسی زیاد است و به منظور تبدیل نوشتار به صورت واجی و سپس صورت آوایی، باید از اطلاعات زبانی موجود در خط فارسی بهرهمند شد. حاصل چنین پژوهشی میتواند در طراحی یک واژگان مناسب برای یک نظام تبدیل نوشتار به گفتار فارسی مفید باشد.
در تحقیق حاضر ابتدا به تفاوت میان حرف[16] و نگاره و مبانی واجشناختی نگاشت نگاره به واج در زبان فارسی ، به منظور مطالعۀ اطلاعات واجی موجود در نظام نوشتاری زبان فارسی، پرداخته میشود. سپس در بخش سوم مفهوم عمق خط معرفی میشود. بخش چهارم محاسبۀ عمق خط فارسی و مباحث مربوط به آن میباشد و در نهایت بخش پنجم نتیجهگیری مقاله خواهد بود.
2- حرف و نگاره
با وجود مفهوم «حرف» در نظام نوشتاری، در تحقیق حاضر از مفهوم «نگاره» استفاده میشود. نگاره، کوچکترین واحد نوشتاری است که میان یک جفت کمینۀ نوشتاری تمایز ایجاد میکند، (راجرز[17] 2005: 10 ) . در حالیکه مفهوم «حرف» به مجموعه نگارههایی اطلاق میشود که برای نمایش همخوانها و بعضی از واکهها به کار میرود و به لحاظ سنتی «الفبا» نامیده میشوند. با طرح مفهوم نگاره میتوان گفت اعداد، علائم نقطهگذاری و علائم زیروزیری[18] نیز نگاره محسوب میشوند. به عنوان مثال جفتهای کمینۀ نوشتاری مانند .<تار> و < نار> تنها در تعداد نقطهها از هم متمایز میشوند; اگر یک نقطه از قطعۀ نوشتاری < تار> کم شود تبدیل به قطعۀ نوشتاری < نار> میشود. علائم زیروزبری مانند «تنوین»، «مد» و «تشدید» نیز نگاره محسوب میشوند. به عنوان مثال در جفتهای کمینۀ نوشتاری < بنا> و < بنّا>، < اجر> و < آجر>، < حکماً> و < حکما>، به ترتیب، حضور یا عدم حضور نگارههای تشدید، مد و تنوین چنین جفتهای کمینهای را ایجاد کرده است. بنابراین برای تبدیل نوشتار به گفتار یا حرف به آوا باید از مفهوم نگاره استفاده کرد تا بتوان چنین تمایزاتی را نشان داد؛ در حالیکه اگر تنها به مفهوم «حرف» اکتفا شود، نمیتوان چنین تمایزاتی را نشان داد. به عنوان مثال < ا > یک حرف است اما < أ> حرف نیست بلکه یک نگاره است که به رشتۀ آوایی /aʔ/ نگاشته میشود مانند : <تأیید> /taʔjid/ ؛ همچنین است نگارۀ <خو> در ابتدای کلمه که در بسیاری از موارد به واج /x/ نگاشته میشود مانند: <خواب> /xɒb/ . بنابراین، به کار بردن مفهوم «نگاره» در کنار مفهوم «حرف» به این دلیل است که هدف تبدیل نوشتار به صورت واجی و سپس صورت آوایی است. مفهوم «نویسه»[19] به رمزرایانهای مربوط میشود که برای بازنمایی نگارهها و پردازش آنها در حافظۀ رایانه از آن استفاده میشود. از آنجاییکه تحقیق حاضر رویکردی واجشناختی به خط فارسی دارد ذکر انواع نگاره در نظام نوشتاری لازم به نظر میرسد. در نظامهای نوشتاری نگارهها را میتوان به انواع: نگارههای آزاد[20]، نگارههای وابسته[21]، نگارههای همخوانی[22]و نگارههای واکهای[23] تقسیم کرد. نگارههای آزاد به طور مستقل ظاهر میشوند و در بیشتر موارد قابل انطباق با حروف هستند. به عنوان مثال در نظام نوشتاری زبان فارسی در کلمۀ <امید> نگارههای < ا>، <م>، < ی> و < د> نگارههای آزاد محسوب میشوند زیرا در بافتهای دیگر ( در کلمات دیگر) هر کدام از این نگارهها به طور مستقل ظاهر میشوند. نگارههای وابسته، که در بعضی از نظامهای نوشتاری از جمله نظام نوشتاری زبان فارسی وجود دارند، نگارههایی هستند که تنها در ترکیب با دیگر نگارهها ظاهر میشوند و به طور مستقل در خط ظاهر نمیشوند. به عنوان مثال نگارۀ مد < ~> در نظام نوشتاری زبان فارسی به تنهایی ظاهر نمیشود و حتماً همراه با نگارۀ الف< ا>به صورت <آ> ظاهر میشود. نگارههای وابسته نوعاً اختیاریاند اما در بیشتر موارد حضورشان باعث رفع ابهام از همنگارهها[24] میشود. نگارههای همخوانی برای نمایش همخوانهای موجود در نظام واجی به کار میروند مانند: نگارۀ <پ> که برای نمایش همخوان /p/ به کار میرود. نگارههای واکهای برای نمایش واکههای موجود در نظام واجی به کار میروند مانند: نگارۀ فتحه < -َ >. نگارههای واکهای اغلب اختیاریاند اما حضورشان باعث رفع ابهام از همنگارهها میشود. بیشتر زبانشناسان معتقدند در یک نظام نوشتاری آرمانی، رابطۀ یک به یک میان نگاره و واج وجود دارد. اما به دلیل نگاشتهای چندبهیک یا یکبهچند بین نگارهها و واجها، وجود یک نظام نوشتاری آرمانی بعید به نظر میرسد. در نظام نوشتاری زبان فارسی واکههای کوتاه معمولاً نمود نوشتاری ندارند و تنها تعداد انگشتشماری نگاره وجود دارد که برای نشان دادن واکههای کوتاه در خط به کار میروند؛ از جمله «های بیان حرکت» (< ه >) که برای نشان دادن واکۀ کوتاه /e/ یا /a/ به کار میرود؛ مانند <به> و <نه>؛ و حرف <و> که میتواند نمود نوشتاری واکۀ کوتاه /o/ باشد؛ مانند <تو>. از دیگر مسائلی که در نظام نوشتاری زبان فارسی حائز اهمیت است، وجود علائم زیروزبری[25] است که به عنوان نگارههای وابسته محسوب میشوند. در نظام نوشتاری زبان فارسی 11 علائم زیروزبری وجود دارد که میتوان آنها را در پنج طبقۀ واجشناختی دستهبندی کرد.
2-1-طبقهبندی نگارههای زیروزبری در نظام نوشتاری زبان فارسی
2-1-1- واکهسازی[26]: علائم زیروزبری فتحه یا زبر< -َ >، ضمه یا پیش< -ُ >کسره یا زیر < -ِ >، مد < ~> و الف مقصوره< ا>در این طبقه قرار میگیرند. نتیجۀ واجشناختی ترکیب این علائم با نگارههای آزاد این است که آن نگارۀ آزاد توسط این علائم واکهسازی میشود.
نگارۀ همخوانی که با فتحه، کسره و ضمه تلفیق میشود به ترتیب بوسیلۀ واکههای کوتاه /a/، /e/ و /o/ آواسازی میشود. از کسره میتوان به عنوان پرکاربردترین علامت زیروزبری در واکهسازی نام برد که کلمات را برای ساختن سازههای بزرگتر نحوی – که ساختار اضافه[27] نامیده میشود – به هم وصل میکند. این نوع کسره، کسرۀ اضافه خوانده میشود.
در برخی موارد به منظور ابهامزدایی از هم نگارهها و در نتیجه فهم بهتر متن میتوان از واکهسازی واکۀ کوتاه استفاده کرد. به عنوان مثال در یک متن اقتصادی، قطعۀ نوشتاری <ارزش> میتواند دو معنی کاملاً متفاوت داشته باشد: <ارزِش>/Ɂarzeʃ/ (اسم) و <ارزَش> /Ɂarzaʃ/(اسم + ضمیر ملکی سوم شخص مفرد)؛ این مثال کاربرد نگارۀ وابستۀ فتحه و کسره را در رفع ابهام از همنگارۀ <ارزش> نشان میدهد.
نوع دیگر واکهسازی که در متون فارسی نمونههای فراوانی از آن یافت میشود، واکهسازی نگارۀ «الف» <ا> است که در بیشتر موارد در جایگاه ابتدائی قطعۀ نوشتاری قرار میگیرد و به شکل مد< ~> بالای نگارۀ الف < ا> ظاهر میشود < آ> که در واقع نمود نوشتاری واکۀ بلند پسین افتاده /ɒ/ است؛ بنابراین، نشانۀ <آ > توالی واجی /Ɂɒ/ است
الف مقصوره <ا> در بالای حرف <ی> در جایگاه انتهایی دنبالۀ نوشتاری، نوع دیگر واکهسازی است که تنها در کلمات قرضی عربی یافت میشود؛ در این صورت نگارۀ همخوانی قبل از <ی> بوسیلۀ /ɒ/ واکهسازی میشود. مثالهای <عیسی> در مقابل <عیسی'>، <موسی> در مقابل <موسی'> و <یحیی> در مقابل <یحیی'> نشان میدهند که الف مقصوره <ا> یک نگارۀ وابسته است.
2-1-2- تنوین[28]: ترکیب علائم زیروزبری دو زبر < -ً >، دو پیش < -ٌ > و دو زیر <-ٍ> با یک نگارۀ همخوانی، تنوین نامیده میشود. نتیجۀ واجشناختی چنین ترکیبی، واکهسازی نگارۀ همخوانی بوسیلۀ یک واکۀ کوتاه و همخوان خیشومی /n/ است؛ بنابراین، ترکیبهای <اً> /an/ ، <اٍ> <en/ و < اُ> /on/ ساخته میشوند. رایجترین نوع تنوین در متون فارسی، دو زبر <اً> است که به انتهای اسم یا صفت اضافه میشود و در نتیجه قیدهای واژگانی ساخته میشوند. برای اثبات وابسته بودن نگارۀ دو زبر < -ً > میتوان به تعداد زیادی از جفتهای کمینۀ نوشتاری اشاره کرد مانند: <عرفاً> /Ɂorfan/ در مقابل <عرفا>/Ɂorafɒ/ ، <عقلاً> /ɁaGlan/ در مقابل <عقلا>/ɁoGalɒ/ ، <فرداً> /fardan/ در مقابل <فردا/fardɒ/ . بنابراین، در چنین مواردی اگر دو زبر- جایی که حضور آن الزامی است- حذف شود، ابهام واژگانی را در تبدیل نگاره به واج ایجاد میکند و یا به عبارت دیگر، به میزان عمق خط فارسی افزوده میشود. حال آنکه در مورد بعضی قیود دیگر چنین مسألهای صدق نمیکند؛ به عبارتی دیگر در صورت عدم حضور دو زبر، ابهام واژگانی رخ نمیدهد و تنها باعث تفاوت در تلفظ یک کلمه میشود مانند: <حقاً> /haGGan/ و <حقا>/haGGɒ/ ، <ابداً> /Ɂabadan/ و <ابدا> /Ɂabadɒ/ ،<اصلاً> /Ɂaslan/ و <اصلا> /Ɂaslɒ/. همانگونه که ذکر شد نوع دیگر تنوین دو پیش < -ٌ > است که تنها در تعداد معدودی از کلمات قرضی عربی دیده میشود مانند<مضافٌالیه> و<مشارٌالیه>. دو زیر <-ٍ> و دیگر علائم زیروزبری عربی تنها در متون مذهبی یافت میشوند.
2-1-3-تشدید:[29] ترکیب علامت زیروزبری تشدید <-ّ>- که در عربی «شدّا» نامیده میشود- با یک نگارۀ همخوانی آزاد، تشدید خوانده میشود. نتیجۀ واجشناختی چنین ترکیبی، یک بار تکرار آن نگارۀ همخوانی آزاد است و در نتیجه آن همخوان به لحاظ آواشناسی کشیده تلفظ میشود. برای اثبات وابسته بودن نگارۀ تشدید >ـّـ< در نظام نوشتاری زبان فارسی میتوان به جفتهای کمینۀ نوشتاری زیر اشاره کرد:
<کمّی> /kammi/در مقابل <کمی> /kami/ ، <سرّی> /serri/ در مقابل <سری> /seri/، <حلّال> /hallɒl/ در مقابل <حلال> /halɒl/.
2-1-4-خوشهنویسی[30]: ترکیب علامت زیروزبری سکون < -ْ > با یک نگارۀ همخوانی آزاد، خوشهسازی نامیده میشود. نتیجۀ واجشناختی چنین ترکیبی خوشهسازی آن نگارۀ همخوانی است. در خط فارسی قطعههای نوشتاری وجود دارند که در آنها حضور یا عدم حضور سکون < -ْ > فت کمینۀ نوشتاری ایجاد میکند مانند: <سبْک> /sabk/ در مقابل <سبک> /sabok/ ، <سمْت> /samt/ در مقابل <سمت> /semat/ . بنابراین، نگارۀ سکون < -ْ > یک نگارۀ وابسته است.
ذکر نمود نوشتاری کلمات دارای سکون نشان میدهد که سکون < -ْ > بر روی یک نگارۀ همخوانی- که خوشهسازی در مورد آن صورت گرفته است- نقش تعیین مرز جایگاه پایانه را در هجا به عهده دارد؛ بنابراین، سکون < -ْ > ابزار نوشتاری دیگری برای حل مسألۀ ابهام همنگارهها در متن است.
2-1-5-همزهسازی[31]: ترکیب علامت زیروزبری همزه <ء> با <ه> غیرملفوظ، همزهسازی نامیده میشود. <ه> غیرملفوظ نگارهگونهای[32] است از <ه> در جایگاه پایانی قطعۀ نوشتاری که برای نشان دادن واکۀ /e/ به کار میرود و همزۀ بالای <ه> نشان دهنده توالی [je] است؛ بنابراین، نشانۀ <ﻪء> توالی آوایی [eje] است. علامت زیروزبری همزه <ء> یک نگارۀ وابسته محسوب میشود که برای نشان دادن واژهبست[33] اضافه به کار میرود – که در نحو فارسی برای متصل کردن کلمات در ساختار اضافه به کار میرود . بنابراین، عدم حضور همزه <ء> میتواند ابهام نحوی ایجاد کند و در تبدیل نوشتار به گفتار مشکل ایجاد کند. در مثالهای: الف) «خاله او را دید» و ب) «خالۀ او را دید»
در جملۀ الف <خاله> فاعل و در جمله ب <خاله> نقش مفعول را دارد. بنابراین، عدم حضور همزه <ء> میتواند ابهام نحوی ایجاد کند.
شکل دیگر رایج نمود کسرۀ اضافه در متون فارسی، چسباندن شکل مجزای نگارۀ آزاد <ی> به آخر کلمه برای ساختن ساخت اضافه است مانند <خالهی>. بنابراین، برای نشان دادن ترکیب <ه> غیرملفوظ و کسرۀ اضافه، سه شکل ممکن نوشتاری در متون فارسی یافت میشود: < ﻪء > ، <ـهی> و <ـه ی>.
شکل دوم <ـهی> ، توالی است از <ـه> و <ی> که برای نگه داشتن شکل <ه> آخر <ـه> نویسۀ نیمفاصله ZWNJ (U+200c) [34]بعد از <ه> اضافه میشود تا از اتصال <ه> به <ی> جلوگیری شود ( اسفهبد[35] 2004: 8). شکل سوم <ـه ی> همان توالی است و تفاوت آن با شکل دوم این است که یک فاصله بین <ه> و <ی> درج شده است. به طور کلی میتوان گفت این سه شکل نوشتاری برای یک دنبالۀ نوشتاری که متشکل از ستاک و وند است به کار میرود و در واقع بر حسب شکل نگارۀ آخر ستاک و اولین نگارۀ وند ایجاد میشوند. ( مگردومیان 2004). برای مثال برای توالی <کتاب> - که ستاک است- و <ها> - که وند است - سه شکل نوشتاری وجود دارد: <کتابها>، < کتابها> و <کتاب ها>.
2-1-6-حروف مرکب[36]: در فارسی، حروف مرکب متشکل از دو نگاره است که به صورت یک واحد نوشته میشوند. ترکیبهای متعددی از ترکیب نگارههای آزاد با نگارههای وابسته در فارسی وجود دارند اما در صورتی حرف مرکب خوانده میشوند که فرهنگ لغت فارسی آنها را همانند یک حرف منفرد در الفبا بیاورد. بر اساس چنین معیاری در خط فارسی دو حرف مرکب واقعی وجود دارد که در عربی هم وجود دارند (الامام[37] 2003). ؛ الف <ا> با مد <~>در بالای آن< آ> و لام و الف <لا> ،< آ > اولین نگاره در ترتیب الفبایی فرهنگ لغت فارسی است که نشان دهندۀ انفجاری چاکنایی /Ɂ/ و مد< ~> بالای آن نشاندهندۀ واکه بلند /ɒ/ است. اما در فرهنگ لغت فارسی هیچ نگارۀ واحدی[38]برای حرف مرکب <لا >وجود ندارد و به صورت توالی <ل> و <ا> تعریف میشود، مانند <لال>، <سلام>. در فارسی حروف مرکب دیگری هم وجود دارد: <أ> ، <ؤ> و <ئـ> و < ۀ >. سه شکل اول (<أ> ، <ؤ> و <ئـ>) نگارهگونههای همزه هستند و بنابراین، نگارۀ مجزا در نظر گرفته نمیشوند؛ اما <ۀ> که نشان دهندۀ توالی آوایی [eje] است و همزۀ بالای <ه> نشاندهندۀ کسرۀ اضافه است، حرف مرکب محسوب میشود؛ در حالیکه در فرهنگ لغت فارسی هیچ نگارۀ واحدی برای آن وجود ندارد و به صورت توالی <ه> و همزۀ بالای آن تعریف میشود.
2-2-ارتباط نگاره و واج
به منظور مطالعۀ دقیق نظام نوشتاری زبان فارسی، ارتباط میان نگاره و واج نیز باید بررسی شود. در نظام نوشتاری زبان فارسی چند نوع ارتباط میان نگاره و واج وجود دارد:
2-2-1- ارتباط نگاره و واج: یکبهیک
ب>> → /b/؛ ج>> → /dʒ/؛ <خ> → /x/؛
د>>→ /d/ ؛<ر>→ /r/ ؛ش>> → /ʃ/ ؛ف>> → /f/ ؛ک> > → /k/ ؛<ل > → /l/ ؛<م > → /m/ ؛ن>> → /n/ ؛پ> > → /p/ ؛چ>> → /tʃ/ ؛<ژ > → /ʒ/ ؛<گ> → /g/
2-2-2- ارتباط نگاره و واج: چندبهیک
<ط ، ت> → /t/ ؛<ص ، ث ، س> → /s/ ؛<ذ ، ز ، ض ، ظ> → /z/ ؛ <غ ، ق> → /G/ ؛ <ه ، ح> → /h/ ؛< همزه ،ع> → /Ɂ/
2-2-3- ارتباط نگاره و واج: یکبهچند
<ا>→ {/ɒ/,/Ɂ/,/Φ/} ؛و > <→ {/v/, /u/,/o/} ؛
<<ی → {/j/,/i/,/ɒ/}
رابطۀ میان <ا>و /Ɂ/ بحث برانگیز است. هر واکۀ ابتدایی در خط فارسی روی کرسی<ا>قرار میگیرد. شکلهای نوشتاری واکههای بلند ابتدایی یعنی: (/i/ ، /u/ ، /ɒ/) به ترتیب به صورت< ای> ، <او >و< آ >هستند. اما از آنجایی که هیچ حرف مازادی در نظام نوشتاری فارسی برای نشان دادن واکههای کوتاه به کار برده نمیشود، <ا> ابتدایی به صورت [Ɂa] ، [Ɂe] و یا [Ɂo] تلفظ میشود. بعضی از نویسندگان برای ابهامزدایی ارزش واجی <ا> ابتدایی یا هر حرف دیگری که بدنبالش واکۀ کوتاه بیاید، از نگارههای وابسته فتحه <-َ > ، کسره <-ِ> و ضمّه <-ُ> در بالا یا پایین الف <ا> استفاده میکنند که نتیجۀ آن نویسههای <اَ> ، <اِ> و <اُ> است. شایان ذکر است که در بسیاری از کلمات قرضی عربی وجود <ا> ابتدایی به صورت <اِ> یا <اَ> جفت کمینه ساخته است. به عنوان مثال: قطعههای حاوی <اَ> در جایگاه ابتداییشان، اسم جمع مکسر هستند و قطعههایی که در ابتدایشان >اِ< است به عمل فعل مربوط میشوند مانند <اَخبار> /Ɂaxbɒr/و< اِخبار> /Ɂexbɒr/ (عمل به اطلاعرسانی) ،<اَسناد> /Ɂasnɒd /و <اِسناد> /Ɂesnɒd /، <اَشکال> /aʃkɒl/و <اِشکال> /Ɂeʃkɒl /. از آنجایی که در متون فارسی چنین مواردی بدون نمود فتحه یا کسره ظاهر میشوند، تنها در بافت نحوی میتوان از آنها ابهامزدایی کرد.
ساختار دیگر در نظام نوشتاری زبان فارسی توالی حرفی< خو > است. در زبانشناسی تاریخی زبان فارسی در اینکه آیا <خو> یک نشانۀ نوشتاری برای واج موجود در زبان فارسی میانه است /xw/ - یا توالی دو واج /x/ و /w/ اتفاق نظر وجود ندارد، ( پیسوویچ[39] ،1985: 121-2). در فارسی معاصر کلماتی وجود دارند که با <خوا> شروع میشوند و در آنها حرف <و> تلفظ نمیشود. بنابراین، <خوا> - در جایگاه ابتدایی- در این کلمات به صورت [xɒ] تلفظ میشود. به طور کلی میتوان گفت تلفظ <خوا>در جایگاه ابتدایی به دو صورت است: 1- [xɒ] : که رایجترین کلماتی که در آنها <خوا> به صورت [xɒ] تلفظ میشود ، شکلهای تصریف شدۀ فعل <خواستن> و اسم <خواب> است. 2- [xavɒ] : رایجترین کلمه در این دسته، کلمه <خواص> است.
3- عمق خط
عمق خط ناظر بر ارتباط میان زبان و نوشتار بنابراینح شود!!!!!!!!!!!!!!!!!!!؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟؟
است (راجرز،2005 : 177). با گذشت زمان تغییراتی در زبان رخ میدهد اما این امکان وجود دارد که نظام نوشتاری تغییر نکند ؛ این مسأله باعث افزایش عمق خط میشود. در نظام نوشتاری سطحی، نگارهها نمایندۀ واجها هستند مانند خط فنلاندی، در حالیکه در نظام نوشتاری عمیق ، نگارهها نمایندۀ واژواجها هستند[40]؛ در چنین نظامی نشانههای کمتری برای نمایش واجها به کار برده میشود. از دیگر عواملی که باعث افزایش عمق خط میشود، وجود تکواژگونههایی از یک تکواژ است که نگارش یکسان اما تلفظ متفاوتی دارند؛ به عنوان مثال در زبان انگلیسی تکواژگونههای /ʧaɪld/ و /ʧɪld/ بهترتیب در دو کلمۀ child وchildren ، تکواژگونههای / saʊɵ/ و / sʌδ/ در دو کلمۀ south و southern باعث افزایش عمق خط انگلیسی میشوند زیرا هر جفت تکواژ صورت نوشتاری یکسان ولی تلفظهای متفاوت دارند.
تاکنون روشهایی برای محاسبۀ عمق خط در زبانهای گوناگون پیشنهاد شده است که از آن جمله میتوان به روشی که اسپروت[41] (2000) برای محاسبۀ عمق خط انگلیسی ارائه داده است، اشاره کرد. وی تعداد 1169 کلمه را از یک فرهنگ لغت انتخاب کرده که املاء انگلیسی آمریکایی و نمود واجی مربوط به تلفظ انگلیسی آمریکایی معیار آن کلمات نیز آورده شده است. علاوه بر ذکر نمود واجی موجود در فرهنگ لغت که در واقع نمود روساختی محسوب میشود، اسپروت بر اساس مدل اسپیای[42] چامسکی[43] و هله[44] (1968) نمود زیرساختی مربوط به آن کلمات را نیز بازسازی کرده است. وی تعدادی قاعده هم تحت عنوان قاعدۀ عمیق و قاعدۀ سطحی به کار برده است که از نظر تعداد با هم متفاوتند. بنابراین، در مورد هر کلمه در فهرست مذکور با توجه به قواعد عمیق و قواعد سطحی دو نمود واجی سطحی و عمیق ارائه شده است و با توجه به تفاوت چشمگیر نمودهای عمیق و سطحی، وی چنین نتیجهگیری میکند که نظام نوشتاری زبان انگلیسی عمیق در نظر گرفته میشود. اسپروت نظام نوشتاری زبان روسی را نیز عمیق در نظر میگیرد. وی چنین استدلال میکند که در خط روسی به منظور ارائه تلفظ صحیح، خواننده باید از اطلاعات واژگانی و بافتی که کلمات در آن به کار برده شدهاند، استفاده کند.
4- عمق خط فارسی
خط فارسی از نقطه نظر اطلاعات واجی موجود در آن تا حدی مطالعه شده است، اما روشی برای محاسبۀ عمق خط فارسی ارائه نشده است. در این بخش نگارنده روشی را برای تعیین عمق خط فارسی ارائه میدهد. برای تعیین عمق خط فارسی، از تعبیر شهودی «دوری از یکبهیک بودن» استفاده میشود و بهازای هر قطعه نوشتاری مشخصی که داده شده، تعداد حالتهای ممکن خوانده شدن آن قطعه و سهم آن در «عمیق کردن» پیکره محاسبه میشود. برای صورتبندی مسئله، فرض کنید پیکرۀ مرجع C داده شده باشد. مجموعۀ همۀ قطعههای نوشتاری موجود در C با S نشان داده میشود. به این ترتیب، مثلاً «مهر» عضوی از S است. در حالی که صورتهای مختلفی از آن (مانند مِهر ، مُهر و مَهر) در C یافت میشوند.
• فراوانی قطعهای مانند s از عضوهای S با ν(s) نشان داده میشود، و به صورت حاصلجمع همه فراوانیهای همه صورتهای تلفظی s در C تعریف میشود.
• به ازای هر قطعه مانند s در S ، تعداد حالتهای قابل قبول خواندن s با α(s) نشان داده میشود و به صورت تعداد تلفظهای مختلف قطعه نوشتاری s در پیکره تعریف میشود (به عنوان مثال، 3 = (مهر) α) .
• به ازای هر قطعه مانند s در S ، تعداد حالتهای «ممکن» تلفظ s با π(s) نشان داده میشود و به صورت تعداد تلفظهای ممکن قطعه s تعریف میشود (به عنوان مثال، 12= (مهر) π) که شامل : /mehr/, / mohr/, / mahr/, / mehar/, / mehor/, /meher/, / mohar/, / moher/, / mohor/ , / mahar/, / maher/ , / mahor/ میباشد.
به این ترتیب، نسبت میزان «ابهام» در تلفظ قطعه s ] = دوری از یکبهیک بودن رابطۀ قطعه و تلفظ آن[ را نشان میدهد (به عنوان مثال، این نسبت برای <مهر >برابر 4 است، در حالی که برای< راز >برابر 1 است). به همین ترتیب، عبارت سهم قطعه s را در کل ابهام نشان میدهد و در نتیجه، اندازه ابهام کل پیکره برابر است با
در فرمول فوق، مخرج کسر مجموع همۀ حالتهای خوانده شده قطعههای نوشتاری موجود در پیکره میباشد. به عنوان مثال، ممکن است در پیکره قطعۀ نوشتاری <مهر >1000 بار با تلفظ /mohr/ ظاهر شده باشد، 2000 بار با تلفظ /mehr/. بنابراین برای همۀ قطعههای نوشتاری موجود در پیکره، حالتهای تلفظی ظاهر شده مربوط به هر کدام درنظر گرفته میشود. در پیکره برای محاسبه تعداد حالتهای «ممکن» تلفظ قطعه نوشتاری دادهشده، میتوان از این نکته استفاده کرد که از آنجائیکه به لحاظ واجشناختی در هر هجا / بخش، یک واکه وجود دارد، بنابراین اگر بدانیم که چطور میتوان یک قطعه را «بخش» کرد، تعداد حالتهای ممکن تلفظ کل قطعه برابر است با حاصلضرب تعداد حالتهای ممکن تلفظ هرکدام از «بخش»ها. اما، چون روش مشخصی برای تعیین این بخشها وجود ندارد، مسئله تحویل میشود به تعیین مواضع احتمالی بخش کردن. اشکال کار این است که صِرف شکل پشتهم قرار گرفتن همخوانها معیار مشخصی برای بخشکردن قطعه بهدست نمیدهد ـــ حتی قطعههایی مانند >خرد< هم هستند که در زبان، هم بهعنوان کلمهای یکبخشی ظاهر میشوند و هم بهعنوان کلمهای دوبخشی. درواقع، تنها قاعدهٔ «قطعی» این است که همخوانی که بلافاصله پیش از واکهای بلند قرار دارد، حتماً شروع بخشی جدید است (مثلاً، <الهام>، لزوماً بهصورت <ال + هام> میشکند، هرچند که خود <ا> و<ل> ابتدای قطعه ممکن است به <ا + ل> بشکند یا مجموعاً در یک بخش قرار گیرد <ال>). پس برای پیدا کردن مواضع «قطعی» بخش کردن، باید واکههای بلند را پیدا کنیم. اشکال کار، این است که نگارههای <ی> و <و> میتوانند نشانة همخوان /j/ برای نگارة<ی> و همخوان /v/ برای نگارة <و>، واکة کوتاه /o/ برای نگارة <و> یا واکة بلند /i/ برای نگارة <ی> و واکة بلند /u/ برای نگارة<و> باشند و باید این موضوع را هم در شمارش لحاظ کرد.
در نظام نوشتاری زبان فارسی تنها واکههای بلند و همخوانها نمایش داده میشوند. از آنجا که نوع واکة بلند ( <ا>، <ی>، <و> ) تأثیری در محاسبه تعداد هجاها ندارد، در محاسبه هرکدام از همخوانها را با c و هرکدام از واکههای بلند با a نمایش داده میشوند. بهاین ترتیب، قطعة نوشتاری <الهام> /Ɂelhɒm/ به cccac تبدیل میشود (به درج «بست چاکنایی» در ابتدای قطعه توجه کنید). از آنجا که همخوان قبل از واکة بلند در محاسبۀ تعداد حالتهای ممکن تلفظ قطعه تأثیری ندارد و با واکة بعدی در یک هجا قرار میگیرد ، c قبل از a و خود a را با هم به صورت یک A نمایش داده میشوند. همچنین از آنجاییکه همخوان پایان قطعۀ نوشتاری نیز تغییری در محاسبۀ تعداد حالتهای «ممکن» تلفظ آن قطعۀ نوشتاری ندارد ، همخوان پایانی با C نمایش داده میشود تا از همخوانهای دیگر متمایز شود. بهاین ترتیب، بهازای قطعة< الهام> (که به cccac تبدیل میشود) به ccAC میرسیم و قطعة نوشتاری <عقل> هم به ccC تبدیل میشود.
برای محاسبۀ تعداد حالتهای ممکن تلفظ قطعهای که واکۀ بلند ندارد، باید به این مسئله توجه کرد که همخوان پایانی در تعیین تعداد حالتها نقشی ایفا نمیکند، بنابراین، قطعهای مانند «عقل» در حقیقت دارای دو همخوان تعیینکنندهٔ تعداد حالتهای ممکن تلفظ این قطعۀ نوشتاری است. اگر Sn را تعداد تلفظهای ممکن چنین قطعهای در نظر بگیریم که در آن n تعداد cهای این قطعه است، بهازای قطعهای متشکل از یک c، مانند <در>، با در نظر گرفتن احتمال حضور سه واکۀ کوتاه بعد از همخوان اول در تلفظ نتیجه میشود که
3=1S. بنابراین، سه حالت تلفظی ممکن برای این قطعۀ نوشتاری وجود دارد. بهازای قطعهای متشکل از دو c، مانند <خرس>، با در نظر گرفتن احتمال حضور سه واکۀ کوتاه بعد از همخوان اول و احتمال حضور سه واکۀ کوتاه و ساکن بعد از همخوان دوم ، 12 حالت تلفظی ممکن وجود خواهد داشت؛ پس
12=4×3=2S و برای قطعهای متشکل از سه c ، مانند <کشتم>، اگر در تقطیع هجایی c اول را یک هجا در نظر بگیریم ( که بهطور بالقوه میتواند با سه واکهی کوتاه همراه شود) و بقیهٔ قطعه را به طور مجزا به عنوان قطعهای دیگر ( که به 2S حالت خوانده میشود) در نظر بگیریم ، 36 حالت بهدست میآید و اگر دو c اول را یک هجا و بقیۀ قطعه را هم یک قطعه در نظر بگیریم، 9 حالت دیگر به حالتهای قبل اضافه میشود. بهاین ترتیب، در کل 45 حالت تلفظی ممکن برای چنین قطعههایی میتوان تصور کرد که یعنی45=9+36=3S در حالت کلی، بهدلیل الگوی هجایی زبان فارسی، نمیتوان هجایی داشت که از بیش از سه c متوالی تشکیل شده باشد؛ پس بسته به اینکه چه تعدادی از cهای ابتدایی در هجای اول قرار میگیرند میتوان نوشت:
3Sn-3+Sn-23+ Sn-13=Sn
حال قطعهای را تصور کنید که در آن به غیر ازتعدادی c، A هم وجود دارد. در اینصورت یا A خودش یک هجا محسوب میشود و بقیۀ قطعه n تا c است و یا A روی یک یا دو c بعد از خود اثر میگذارد و آنها را ساکن میکند؛ بنابراین، درمورد قطعهای مانند «بناپارت» مراحل تقطیع هجایی به این صورت خواهد بود:
ccacacc بناپارت
cAAcC با حذف cهای قبل از a و بیتأثیر بودن c پایانی در شمردن حالتها
بنابراین، با در نظر گرفتن اینکه سه واکۀ کوتاه میتواند با c اول همراه شود ( 3=1S) و جدا کردن A به عنوان یک هجا (که فقط به یک حالت خوانده میشود) و AcC به عنوان مرز شروع هجا یا هجاهایی دیگر، نهایتاً به
12=(1+3)×3 حالت ممکن تلفظی میرسیم.
پیکرهٔ مورد استفاده در این تحقیق متنی بود تحت عنوان >مرغ آتشخوار< از کتاب فارسی پنجم دبستان که فراوانی، تعداد تلفظهای ممکن و تعداد تلفظهای قابل قبول قطعههای نوشتاری موجود در این پیکره محاسبه شد. به عنوان مثال برای جمله « یک روز یکی از بزرگان از سفری برگشته بود» موارد فوق بدین صورت محاسبه شد:
تعداد حالتهای قابل قبول تلفظی |
تعداد حالتهای ممکن تلفظی |
فراوانی |
قطعۀ نوشتاری |
1 |
3 |
1 |
یک |
1 |
13 |
4 |
روز |
1 |
3 |
5 |
یکی |
1 |
3 |
19 |
از |
1 |
45 |
1 |
بزرگان |
2 |
57 |
1 |
سفری |
1 |
711 |
1 |
برگشته |
2 |
13 |
11 |
بود |
و در فرمول ارائه شده (یعنی که قبلاً دیدیم) برای اندازهگیری سهم هر کدام از قطعهها در ابهام متن قرار داده شدند و در نهایت، اندازة ابهام کل پیکره با توجه به فرمول بهدست آمد. نتیجه دور از انتظار، عدد 7/87 است که نشان میدهد ارتباط نظام نوشتاری زبان فارسی با زبان گفتاری، بهمیزان قابل توجهی از «تناظر یک به یک» دور است و بهاین ترتیب، نظام نوشتاری زبان فارسی را باید عمیق در نظر گرفت.
محدودیتهای حاکم بر این محاسبه شامل لحاظ نکردن تشدید و کسرۀ اضافه میباشد، سؤال مطرح در این مبحث این است که آیا در نظر گرفتن این موارد تأثیری در نتیجهگیری نهایی مبنی بر درنظر گرفتن نظام نوشتاری زبان فارسی به عنوان نظامی عمیق دارد؟ در پاسخ به این سؤال باید گفت عدد 7/87 آنقدر از عدد یک دور است که لحاظ کردن مواردی از قبیل کسرۀ اضافه و تشدید باعث بالاتر رفتن این عدد و در نهایت افزایش بیشتر عمق نظام نوشتاری زبان فارسی میشود. زیرا تایپیستها از تایپ نگارههای وابسته معمولا خودداری میکنند. با در نظر گرفتن چنین عمق زیادی برای خط فارسی، این سؤال مطرح میشود که چگونه گویشوران زبان فارسی قادر به خواندن خط فارسی هستند؟ به نظر میرسد در فرآیند خواندن، گویشوران زبان فارسی از اطلاعات زبانی خود استفاده میکنند و بدینوسیله عمق خط فارسی را کم میکنند. این اطلاعات زبانی شامل اطلاعات تکواژی، قواعد حرفنویسی مربوط به اضافه شدن وندها به ستاک که در مرز تکواژها عمل میکنند، آشنایی با صورت نوشتاری و تلفظ کلماتی که منشأ عربی دارند استفاده از قیاس با تلفظها و صورتهای نوشتاری در واژگان ذهنیشان است.
بنابراین میتوان نتیجه گرفت که عدد 7/87 که بدون لحاظ کردن چنین اطلاعات زبانی بدست آمده- یک حد بیشینه برای عمق خط فارسی است و گویشوران زبان فارسی با استفاده از اطلاعات زبانی عمق خط فارسی را کم میکنند.
5- نتیجه
در این بخش سعی بر آن است که به سؤال مطرحشده در تحقیق پاسخ داده شود. همانگونه که ذکر شد در یک نظام نوشتاری آرمانی، رابطۀ یکبهیک میان نشانههای نوشتاری و واجها وجود دارد. برای بررسی میزان نزدیکی نظام نوشتاری زبان فارسی به نظام نوشتاری آرمانی ابتدا نظام نوشتاری زبان فارسی به تفصیل بررسی شد. با توجه به عدم حضور واکههای کوتاه در نظام نوشتاری زبان فارسی، وجود علائم زیروزبری که نگارههای وابسته محسوب میشوند، رابطۀ نگاره و واج ( چندبهیک و یکبهچند) و وجود ساختار<خو> که به صورت [xɒ] و یا [xavɒ] تلفظ میشود و محاسبۀ به عمل آمده برای تعیین عمق خط فارسی( عدد 7/87 که بسیار دور از عدد یک است)، میتوان گفت نظام نوشتاری زبان فارسی، نظامی عمیق است و بدین ترتیب از نظام نوشتاری آرمانی دور است. عدد بدستآمده از محاسبۀ عمق خط فارسی بدون در نظر گرفتن اطلاعات زبانی است که گویشوران زبان فارسی در فرآیند خواندن استفاده میکنند و همانگونه که ذکر شد، عدد حاصل یک حد بیشینه است و گویشوران زبان فارسی با استفاده از اطلاعات زبانی مانند اطلاعات تکواژی، آشنایی با صورت نوشتاری وندهای تصریفی و اشتقاقی، دانستن قواعد حرفنویسی مربوط به اضافه شدن وندها به ستاک که در مرز تکواژها عمل میکنند، آشنایی با صورت نوشتاری و تلفظ کلماتی که منشأ عربی دارند و استفاده از قیاس با کلمات موجود در واژگان ذهنی خود، سعی در کم کردن عمق خط فارسی دارند تا بدینترتیب بتوانند کلمات نوشتاری را که اولین بار با آنها مواجه میشوند، بدرستی بخوانند. همچنین سیستمهای نوشتار به گفتار از این رهگذر قادر خواهند بود کلمات نوشتاری را که در واژگان خود ندارند، بدرستی به رشته واجها تبدیل کنند. نویسندگان در تحقیقات آتی خود با استفاده از اطلاعات واجی، ساختواژی و نحوی در نظام نوشتاری فارسی به مطالعه کاهش عمق خط فارسی خواهند پرداخت تا از این رهگذر بتوان بازشناسی صورت واجی نوواژهها را تبیین کرد.
[1].Tim Buckwalter
[2].Antal Van den Bosch
[3].Alain Content
[4].Walter Daelemans
[5].Beatrice de Gelder
[6].Eleanor J. Gibson
[7].Anne Pick
[8].Harry Osser
[9].Marcia Hammond
[10].Richard Venezky
[11].Robert L. Trammel
[12].out of vocabulary words
[13].transliteration
[14].grapheme
[15].orthographic depth
[16].letter
[17].Rogers
[18].diacritics
[19].character
[20].free graphemes
[21].bound graphemes
[22].consonantal graphemes
[23].vowel graphemes
[24].homographs
[25].diacritics
[26].vocalization
[27].Ezafe construction
[28].nunation
[29].gemination
[30].non-vocalization
[31].hamzetization
[32].allograph
[33].enclitic
[34].Zero-width non-joiner
نشانه کنترل کنندهایست که در محل اتصال تکواژ به ستاک بهکار برده میشود تا تکواژ و ستاک به هم وصل شوند و یک کلمه نوشتاری بسازند
[35].Esfahbod
[36] ligature
[37] El-Imam
[38] single unicode character
[39].Pisowicz
[40].morphophoneme
[41].Sproat
[42].SPE
[43].Chomsky
[44].Halle
In 25th internationalization and unicode conference,
Washington, DC.