نوع مقاله : مقاله پژوهشی

نویسندگان

گروه زبانشناسی، دانشکده زبان‌های خارجی، دانشگاه اصفهان، اصفهان، ایران

10.22059/jolr.2025.389287.666909

چکیده

در عصر دیجیتال، شناسایی دقیق گوینده در تحقیقات قضایی و امنیتی از اهمیت ویژه‌ای برخوردار است. با این حال، گسترش ارتباطات مبتنی بر اینترنت و استفاده گسترده از پیام‌رسان‌هایی مانند واتساپ، چالش‌های جدیدی را در این حوزه ایجاد کرده است. کیفیت متغیر میکروفون، نویز پس‌زمینه، اختلالات شبکه و فشرده‌سازی صوتی از جمله عواملی هستند که می‌توانند ویژگی‌های آکوستیکی گوینده را تحت تأثیر قرار دهند و دقت سیستم‌های شناسایی را کاهش دهند. علیرغم این محدودیت‌ها، بررسی عملکرد ویژگی‌های آکوستیکی در چنین شرایطی برای پیشبرد حوزة آواشناسی قضایی و بهبود کاربردهای عملی آن در محیط‌های واقعی ضروری است. این پژوهش به بررسی نقش آواهای سایشی بی‌واک در نشان‌دادن تغییرات بین‌گوینده در داده‌های صوتی ضبط‌شده از طریق پیام‌رسان واتساپ می‌پردازد. نوآوری این پژوهش در بررسی توانایی آواهای سایشی بی‌واک زبان فارسی برای شناسایی گویندگان در شرایط ضبط غیرایده‌آل است. برای این منظور، داده‌های صوتی از 100 گویشور مرد فارسی‌زبان جمع‌آوری شد و ضرایب کپسترال فرکانسی مل (MFCC) از زنجیرة آواهای سایشی بی‌واک استخراج شده و به‌عنوان ورودی به مدل ماشین بردار پشتیبان (SVM) وارد شدند. نتایج نشان داد که دقت مدل در تشخیص گوینده، زمانی که تمامی آواهای سایشی بی‌واک به‌طور همزمان در نظر گرفته شدند، 69 درصد بوده است. با این حال، بررسی جداگانه هر یک از آواهای سایشی، افزایش دقت مدل را نشان داد. در این میان، آوای سایشی /s/ با دقت 77 درصد، بیشترین تأثیر را داشت. پس از آن، آواهای /ʃ/، / /fو /x/ به ترتیب با دقت‌های 75 درصد، 74 درصد و 73 درصد قرار گرفتند. این نتایج نشان می‌دهد که حتی در شرایط ضبط غیرایده‌آل، مانند داده‌های ضبط‌شده از طریق واتساپ، آواهای سایشی بی‌واک می‌توانند اطلاعات ارزشمندی برای تمایز میان گویندگان ارائه دهند. با این حال، این پژوهش تنها به یک نمونه از شرایط ضبط غیرایده‌آل پرداخته و بررسی سایر عوامل مخدوش‌کنندة بالقوه، نیازمند تحقیقات بیشتری است. یافته‌های این مطالعه، پتانسیل بالای آواهای سایشی بی‌واک را در کاربردهای شناسایی گوینده، به‌ویژه در سناریوهای غیررسمی، غیرکنترل‌شده و واقعی که فاقد تجهیزات ضبط باکیفیت هستند، نشان می‌دهد.

کلیدواژه‌ها

موضوعات

عنوان مقاله [English]

Speaker Identification in Virtual Environments: Investigating the Role of Voiceless Fricatives in WhatsApp Audio Data

نویسندگان [English]

  • Rahil Davoudi
  • Homa Asadi

Department of Linguistics, Faculty of foreign languages, University of Isfahan,Isfahan, Iran

چکیده [English]

In the digital age, accurate speaker identification plays a crucial role in forensic and security investigations. However, the widespread use of internet-based communication platforms, such as WhatsApp, has introduced new challenges in this field. Factors such as variable microphone quality, background noise, network distortions, and audio compression can significantly affect a speaker’s acoustic features and reduce the accuracy of speaker identification systems. Despite these limitations, evaluating the performance of acoustic features under such conditions is essential for advancing forensic phonetics and improving its practical applications in real-world settings. This study examines the role of voiceless fricatives in capturing between-speaker variability in audio recordings obtained through WhatsApp. The novelty of this research lies in investigating the ability of Persian voiceless fricatives to distinguish speakers under non-ideal recording conditions. To achieve this goal, speech data from 100 male Persian speakers were collected, and Mel-frequency cepstral coefficients (MFCCs) were extracted from the voiceless fricative segments. These features were then used as input to a support vector machine (SVM) model for speaker classification. The results showed that when all voiceless fricatives were considered together, the model achieved an overall speaker identification accuracy of 69%. However, analyzing each fricative separately led to an increase in model accuracy. Among the individual fricatives, the /s/ fricative had the highest accuracy at 77%, followed by /ʃ/, /f/, and /x/ with accuracies of 75%, 74%, and 73%, respectively. These findings suggest that even in non-ideal recording conditions, such as WhatsApp recordings, voiceless fricatives can provide valuable information for speaker differentiation. However, this study only focuses on one type of non-ideal recording condition, and further research is needed to explore other potential sources of degradation. The results highlight the potential of voiceless fricatives in speaker identification applications, particularly in informal, uncontrolled, and real-world scenarios where high-quality recording equipment is unavailable.

کلیدواژه‌ها [English]

  • Acoustic phonetics
  • Speaker identification
  • Fricative consonants
  • Mel-frequency cepstral coefficients
  • Support vector machine algorithm