نوع مقاله : مقاله پژوهشی
نویسندگان
گروه زبانشناسی، دانشکده زبانهای خارجی، دانشگاه اصفهان، اصفهان، ایران
چکیده
در عصر دیجیتال، شناسایی دقیق گوینده در تحقیقات قضایی و امنیتی از اهمیت ویژهای برخوردار است. با این حال، گسترش ارتباطات مبتنی بر اینترنت و استفاده گسترده از پیامرسانهایی مانند واتساپ، چالشهای جدیدی را در این حوزه ایجاد کرده است. کیفیت متغیر میکروفون، نویز پسزمینه، اختلالات شبکه و فشردهسازی صوتی از جمله عواملی هستند که میتوانند ویژگیهای آکوستیکی گوینده را تحت تأثیر قرار دهند و دقت سیستمهای شناسایی را کاهش دهند. علیرغم این محدودیتها، بررسی عملکرد ویژگیهای آکوستیکی در چنین شرایطی برای پیشبرد حوزة آواشناسی قضایی و بهبود کاربردهای عملی آن در محیطهای واقعی ضروری است. این پژوهش به بررسی نقش آواهای سایشی بیواک در نشاندادن تغییرات بینگوینده در دادههای صوتی ضبطشده از طریق پیامرسان واتساپ میپردازد. نوآوری این پژوهش در بررسی توانایی آواهای سایشی بیواک زبان فارسی برای شناسایی گویندگان در شرایط ضبط غیرایدهآل است. برای این منظور، دادههای صوتی از 100 گویشور مرد فارسیزبان جمعآوری شد و ضرایب کپسترال فرکانسی مل (MFCC) از زنجیرة آواهای سایشی بیواک استخراج شده و بهعنوان ورودی به مدل ماشین بردار پشتیبان (SVM) وارد شدند. نتایج نشان داد که دقت مدل در تشخیص گوینده، زمانی که تمامی آواهای سایشی بیواک بهطور همزمان در نظر گرفته شدند، 69 درصد بوده است. با این حال، بررسی جداگانه هر یک از آواهای سایشی، افزایش دقت مدل را نشان داد. در این میان، آوای سایشی /s/ با دقت 77 درصد، بیشترین تأثیر را داشت. پس از آن، آواهای /ʃ/، / /fو /x/ به ترتیب با دقتهای 75 درصد، 74 درصد و 73 درصد قرار گرفتند. این نتایج نشان میدهد که حتی در شرایط ضبط غیرایدهآل، مانند دادههای ضبطشده از طریق واتساپ، آواهای سایشی بیواک میتوانند اطلاعات ارزشمندی برای تمایز میان گویندگان ارائه دهند. با این حال، این پژوهش تنها به یک نمونه از شرایط ضبط غیرایدهآل پرداخته و بررسی سایر عوامل مخدوشکنندة بالقوه، نیازمند تحقیقات بیشتری است. یافتههای این مطالعه، پتانسیل بالای آواهای سایشی بیواک را در کاربردهای شناسایی گوینده، بهویژه در سناریوهای غیررسمی، غیرکنترلشده و واقعی که فاقد تجهیزات ضبط باکیفیت هستند، نشان میدهد.
کلیدواژهها
موضوعات
عنوان مقاله [English]
Speaker Identification in Virtual Environments: Investigating the Role of Voiceless Fricatives in WhatsApp Audio Data
نویسندگان [English]
- Rahil Davoudi
- Homa Asadi
Department of Linguistics, Faculty of foreign languages, University of Isfahan,Isfahan, Iran
چکیده [English]
In the digital age, accurate speaker identification plays a crucial role in forensic and security investigations. However, the widespread use of internet-based communication platforms, such as WhatsApp, has introduced new challenges in this field. Factors such as variable microphone quality, background noise, network distortions, and audio compression can significantly affect a speaker’s acoustic features and reduce the accuracy of speaker identification systems. Despite these limitations, evaluating the performance of acoustic features under such conditions is essential for advancing forensic phonetics and improving its practical applications in real-world settings. This study examines the role of voiceless fricatives in capturing between-speaker variability in audio recordings obtained through WhatsApp. The novelty of this research lies in investigating the ability of Persian voiceless fricatives to distinguish speakers under non-ideal recording conditions. To achieve this goal, speech data from 100 male Persian speakers were collected, and Mel-frequency cepstral coefficients (MFCCs) were extracted from the voiceless fricative segments. These features were then used as input to a support vector machine (SVM) model for speaker classification. The results showed that when all voiceless fricatives were considered together, the model achieved an overall speaker identification accuracy of 69%. However, analyzing each fricative separately led to an increase in model accuracy. Among the individual fricatives, the /s/ fricative had the highest accuracy at 77%, followed by /ʃ/, /f/, and /x/ with accuracies of 75%, 74%, and 73%, respectively. These findings suggest that even in non-ideal recording conditions, such as WhatsApp recordings, voiceless fricatives can provide valuable information for speaker differentiation. However, this study only focuses on one type of non-ideal recording condition, and further research is needed to explore other potential sources of degradation. The results highlight the potential of voiceless fricatives in speaker identification applications, particularly in informal, uncontrolled, and real-world scenarios where high-quality recording equipment is unavailable.
کلیدواژهها [English]
- Acoustic phonetics
- Speaker identification
- Fricative consonants
- Mel-frequency cepstral coefficients
- Support vector machine algorithm