پارامترهای آکوستیکی ریتم گفتار: سرنخ‌های آکوستیکی برای تشخیص گوینده

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار گروه زبان‌شناسی، دانشکده زبان‌های خارجی، دانشگاه اصفهان، اصفهان، ایران.

2 دانشیار گروه زبان شناسی، دانشکده زبان های خارجی، دانشگاه اصفهان، اصفهان، ایران.

چکیده

مشخصه­ های ریتم گفتار بر اساس دیرش مناطق همخوانی، واک ه­ای و نیز هجا می­ توانند گویشوران یک زبان خاص را از هم تمیز دهند. با وجود این، ریتم یک سیگنال آوایی تنها بر مبنای روابط دیرشی میان مناطق آوایی آن استوار نیست بلکه به تفاوت­ های مربوط به الگوی شدت در آن­ها نیز بستگی دارد. پارامتر آکوستیکی شدت تا حد زیادی تحت تأثیر الگوهای حرکتی اندام ­های گفتار مانند حرکت لب­ها و باز و بسته ­کردن دهان است. بنابراین انتظار می‌رود تفاوت­ های فردی در حرکت­ های اندام­ های گویایی و نیز تفاوت­های آناتومیکِ مربوط به ساختار دستگاه آوایی افراد منجر به تغییر توزیع انرژی در سطح سیگنال و در نتیجه تغییر مقادیر شدت در سیگنال­ های آوایی افراد شود. در پژوهش حاضر قصد داریم با استفاده از ابزارهای آواشناسی آزمایشگاهی و با رویکرد تشخیص هویت گوینده پارامترهای اکوستیکی ریتم گفتار را بر مبنای مشخصه­ های شدت-­بنیاد در زبان فارسی بررسی کنیم. هدف این پژوهش بررسی توانایی­ پارامترهای شدت-بنیاد در سطح هجا جهت تشخیص هویت گویندگان فارسی‌زبان است. دو دسته از پارامترهای  شدت-بنیاد یکی بر مبنای میانگین شدت هجا (stdevM, varcoM, rPVIm, rPVIm) و دیگری بر مبنای شدت قلۀ هجا (stdevP, varcoP, rPVIp, nPVIp) برای بررسی و تحلیل داده ­ها انتخاب شد. صدای دوازده گویشور مرد فارسی‌زبان در محیط آزمایشگاهی و در دو نوبت مجزا به فاصلۀ یک تا دو هفته ضبط شد. نمونه‌های آوایی با استفاده از برنامۀ Praat ویرایش 34، 2، 5 مورد تجزیه‌وتحلیل آکوستیکی قرار گرفت و تحلیل آماری داده‌ها و مقادیر به‌دست‌آمده از بررسی آکوستیکی نمونه‌های آوایی با استفاده از نرم‌افزار SPSS ویرایش 0/21 و نرم‌افزار R ویرایش 3. 3. 3 صورت گرفت. نتایج نشان داد پارامترهای آکوستیکی ریتم گفتار بر مبنای نوسانات شدت نقش بسزایی در تشخیص هویت گویندگان فارسی­زبان دارند. افزون بر آن، مشخصه‌های زبان-ویژه­ تأثیری در توانایی این پارامترها در تشخیص هویت گوینده ندارند. همچنین نتایج حاکی از آن بود که پارامترهای مبتنی بر شدت قلۀ هجا ویژگی‌های فرد ویژۀ بیشتری را انعکاس می­دهند.

کلیدواژه‌ها


عنوان مقاله [English]

Speech Rhythm Measures: Acoustic Cues for Speaker Identification

نویسندگان [English]

  • Homa Asadi 1
  • Batool alinezhad 2
1 Assistant Professor of Linguistics, University of Isfahan, Isfahan, Iran.
2 Associate Professor of Linguistics, University of Isfahan, Isfahan, Iran.
چکیده [English]

Rhythmic characteristics of speech based on consonantal and vocalic intervals as well as syllabic intervals vary between speakers of the same language. Nonetheless, the rhythmicity of a speech signal is not solely dependent on the durational variability of phonetic intervals but it is also associated with the variability of the intensity patterns as well. Acoustic parameter of intensity is largely determined by the articulatory behaviors of the speech organs such as lip movement or mouth aperture. Therefore, it is plausible that speaker idiosyncrasy in movement of speech articulators and anatomical differences in individual’s vocal tracts may influence the energy distribution across a speech signal which subsequently leads to the variability in the values of the intensity measures. Using experimental phonetics tools and from an explicitly speaker-specific perspective, the present research attempts to explore potential speaker-specific acoustic parameters of speech rhythm which are extracted from the intensity contours across Persian speakers. This research aims to discover whether intensity-based measures of speech rhythm are able to discriminate between speakers in Persian. Two types of acoustic rhythmic measures based on the mean syllable intensity (stdevM, varcoM, rPVIm, nPVIm) and peak syllable intensity (stdevP, varcoP, rPVIp, nPVIp))  were selected for this study. Speech data from 12 Persian male speakers were recorded non-contemporaneously in laboratory environment on two different occasions separated by one to two weeks. Speech tokens were acoustically measured with PRAAT version 5.2.34 and statistical analyses were carried out with SPSS version 21 and R version 3.3.3. Results of the study indicated that speech rhythm measures based on intensity fluctuations play an important role in between-speaker rhythmic variability. In addition, discriminatory power of intensity-based measures is not affected by the language-dependent characteristics of Persian. The results also showed that the peak syllable intensity measures carry more speaker-specific information compared to the mean syllable intensity measures

کلیدواژه‌ها [English]

  • Experimental phonetics
  • intensity-based measures
  • speaker identification
  • speech rhythm
  • between-speaker variability
Abercrombie, D. 1967. Elements of general phonetics. Edinburgh: Edinburgh University Press.
Arvaniti, A. 2012. The usefulness of metrics in the quantification of speech rhythm.  Journal of Phonetics, 40(3), 351–373.
Asadi, H., Nourbakhsh, M., He, L., Pellegrino, E. and Dellwo, V. 2018. Between-speaker rhythmic variability is not dependent on language rhythm, as evidence from Persian reveals. International Journal of Speech, Language and the Law, 25(2), 151-174.     
Asadi, H., He, L., Pellegrino, E. and Dellwo, V. 2017. Between-speaker rhythmic variability in Persian. The 26th annual conference of the International Association for Forensic Phonetics and Acoustics (IAFPA). Split, Croatia.
Boersma, P. and Weenink, D. 2013. Praat: Doing Phonetics by Computer. http://www.praat.org, Accessed 13 July 2013.
Chandrasekaran, C., Trubanova, A., Stillittano, S., Caplier, A. and Ghazanfar, A.A. 2009. The natural statistics of audiovisual speech. PLoS Computational Biology, 5(7), e1000436.
Dellwo, V. 2010. Influences of speech rate on the acoustic correlates of speech rhythm: An experimental phonetic study based on acousticand perceptual evidence. PhD dissertation, Bonn University.
Dellwo, V., Leeman, A. and Kolly, M. 2015. Rhythmic variability between speakers: Articulatory, prosodic, and linguistic factors. Journal of the Acoustical Society of America, 137:1513-1528.
Erickson, D., Kim, J., Kawahara, S., Wilson, I., Menezes, C., Suemitsu,         A. and Moore, J. 2015. Bridging articulation and perception: TheC/D model and contrastive emphasis. In   Proceedings of the 18th International Congress of Phonetic Sciences (ICPhS), 1–5. Glasgow, UK.                     
Fuchs, R. 2016. Speech rhythm in varieties of English. Singapore: Springer.
Garnier, M., Wolfe, J., Henrich, N. and Smith, J. 2008. Interrelationship between vocal effort and vocal tract acoustics: a pilot study. In Proceedings of INTERSPEECH, 2302-2305. Brisbane, Australia.
Grabe, E. and Low, E. L. 2002. “Durational variability in speech and rhythm class hypothesis”. In N. Warner & C. Gussenhoven          (Eds.), Papers in Laboratory Phonology 7, 515-543, Berlin and New York: Mouton de Gruyter.
He, L. and Dellwo, V. 2016. The role of syllable intensity in between-speaker rhythmic variability. International Journal of Speech, Language and the Law. Vol 23, 243-273.
He, L., and Dellwo, V. 2014. Speaker idiosyncratic variability of intensity across syllables. In Proceedings of INTERSPEECH, 233-237. Singapore.
IBM Corp. 2012. IBM SPSS Statistics for Windows (version 21.0). Armonk, NY: International Business Machines Corporation.
Leemann, A., Kolly, M.-J., and Dellwo, V. 2014. Speaker-individuality insuprasegmental temporal features: implications for forensic voice comparison.           Forensic Science International, 238, 59-67.     
Loukina, A., Kochanski, G., Rosner, B., Keane, E. and Shih, C. 2011. Rhythm measures and dimensions of durational variation in speech. Journal of the Acoustical Society of America, 129(5),3258–3270.
Nespor, M., Shukla, M. Mehler, J. 2011. Stress-timed vs. syllable- timed languages. In M. van Oostendorp, C. J. Ewen, E. Hume & K. Rice (eds.), The Blackwell Companion to Phonology, (pp. 1147–1159).
Perrier, P. 2012. Gesture planning integrating knowledge of the motor plant’s dynamics: a literature review from motor control and speech motor control. In S. Fuchs, M. Weirich, D. Pape and P.           Perrier (eds) Speech Planning and Dynamics 191–238.            Frankfurt         am Main: Peter Lang.  
Pike, K. L. 1946. Intonation of American English. Ann Arbor: University of Michigan.
R Core Team 2014. R: A Language and Environment for Statistical Computing(version3.3.3). R Foundation for Statistical Computing. http: // www.Rproject.org, Accessed 20 November              2016. 
Ramus, F., Nespor, M. and Mehler, J. 1999. Correlates of linguistic rhythm in the speech signal. Cognition, 73, 265-292.
Tilsen, S. and Arvaniti, A. 2013. Speech rhythm analysis withdecomposition of the amplitude envelope: Characterizing rhythmic patterns within and across languages. Journal of the        Acoustical Society of America, 134(1), 628–639.
White, L., Mattys, S.L. 2007. Calibrating rhythm: First language and second language studies”, Journal of Phonetics, 35(4), 501–522.
Wiget, L., White, L., Schuppler, B., Grenon, I., Rauch, O., and Mattys, S. L. 2010. How stable are acoustic metrics of contrastive speech   rhythm? Journal of the Acoustical Society of America, 127(3),           1559–156.