老哥学习网 - www.lg9.cn 2024年05月16日 11:40 星期四
当前位置 首页 >公文范文 > 公文大全 >

信道对汉语普通话元音共振峰的影响

发布时间:2023-06-19 08:20:11 浏览数:

刘贻杰,李江春,陈维娜*,黄颀涵

(1.中国人民公安大学 侦查学院,北京 100038;
2.法庭科学湖北省重点实验室(湖北警官学院),武汉 430034)

当前,我国电信网络诈骗案件呈高发态势,嫌疑人往往“只闻其声,不见其人”,需要通过声纹自动识别、语音同一认定提供关键信息以及证据。其中,语音同一认定技术经过长足发展,已成功服务于司法实践[1-2]。然而随着通信工具和手段的不断增多,录音信道也更加多样化。信道搭建在发送端与接收端之间,是承担信息传递的物理媒质[3]。广义上来说,只要有关的录音装置发生改变,如发送语音设备、接收语音设备等的不同,就可以归为不同的信道[4]。由于每种信道间的编码和传输原理存在差异,加之多种即时通信软件的广泛应用,导致经信道传输后语音特征可能会发生变化,进而给检验鉴定带来挑战。

杨俊杰等[5]、邓宗权等[6]、张红兵[7]、王丹等[8]分别对不同的录音设备之间的录音效果差异进行了研究;
张晓等[9]对不同即时通信软件语音的元音共振峰差异进行了研究;
Kaiser 等[10]、Barinov 等[11]就第二代移动通信(Global System for Mobile communications,GSM)信道对共振峰的影响进行了研究;
美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)也针对跨信道语音自动识别开展了研究[12-13]。上述研究均表明跨信道录音的语音特征会发生不同程度的变化,但涉及的信道种类较少,相关实验结果无法满足目前的检验鉴定需要。本文针对目前高发的电信网络诈骗案件中涉案录音的实际情况,以4G VoLTE 语音通话、“微信”语音消息和“微信”语音通话等13 种信道为代表,力争覆盖案件中出现的信道种类;
并创新地使用人工嘴为音源录制实验语音,比较不同信道录音与标准录音之间元音共振峰的特征,总结异同点,以期为跨信道语音同一认定提供参考。

1.1 录音对象及语料

实验邀请5 名男性、3 名女性,共8 名志愿者进行录音,分别编号为1~8,相关信息见表1。8 名志愿者年龄相近,均能流利地讲标准普通话,在录音时健康状况良好,发音正常,无明显嗓音沙哑、囊鼻等状况。实验选择的语料参考《现代汉语词典》编写而成,共计122 个汉字,基本包含了汉语普通话所有声韵类型。

表1 八名志愿者的简要信息Tab.1 Brief information of 8 volunteers

1.2 实验设备及软件

1.2.1 放音设备及软件

实验使用的放音设备及软件如下:瑞森AM3000 人工嘴、瑞森PA4000 功率放大器、瑞森RS1244 数据采集卡。根据国际电联在其颁布的标准中给出的定义,人工嘴是一种安装在腔体里的、具有和人类平均人嘴相似的指向性和辐射模式的扬声器装置,简单来说,就是一种能够精确模拟人嘴所产生的声场的放音装置[14]。在本实验中,使用人工嘴播放语音为不同信道录音的音源,能够保证音源的稳定输出,从而控制变量。

1.2.2 录音、语音学分析设备及软件

实验使用的录音、语音学分析设备及软件如下:讯飞声纹采集仪(麦克风阵列)、国音声纹采集仪(麦克风阵列)、华为Mate30 Pro(5G)智能手机、荣耀honor 20i 智能手机、诺基亚105 直板手机、苹果iPad Pro 2018(11 寸)、戴尔G3 3590 计算机,Adobe Audition 13.0、格式工厂 5.5、Praat v6.1.36、IBM SPSS 26。

1.3 语音样本录制

1.3.1 标准录音获取

8 名志愿者前往专业录音棚按照既定语料进行录音,录制时使用48 kHz 采样率且直接保存为WAV 格式,获取标准录音共计8 段。

1.3.2 选择信道种类

根据检验实践需要,实验选择的信道种类有:麦克风阵列2 个,分别编号为a、b;
2G GSM 移动通话、4G VoLTE 移动通话、5G VoNR 移动通话分别编号为c、d、e;
“微信”语音消息、“QQ”语音消息、“陌陌”语音消息、“世纪佳缘”语音消息、“Skype”语音消息、“WhatsApp”语音消息分别编号为f、h、j、k、l、m;
“微信”语音通话、“QQ”语音通话分别编号为g、i。详细信息见表2。

表2 实验信道的详细信息Tab.2 Detailed information of experimental channels

1.3.3 获取信道录音

实验在安静、无混响的室内进行。录音时保持人工嘴的音源口与录音设备的麦克风口等高,距离约为10 cm。使用人工嘴播放标准录音,开启麦克风阵列、移动电话、即时通信软件等工具,通过各信道接收端进行录音、获取语音文件;
共得到信道录音104 段。由于各信道传输原理和语音格式等均存在差异,故在获取信道录音时,采用如下方式:

1)麦克风阵列录音。信道a、b 分别通过声纹采集仪及配备的专业软件进行录制,在PC 端可直接获取WAV 格式的语音文件。

2)移动通话录音。信道c、d、e 在保持通话状态时点击被叫方(接收端)手机上的“录音”键进行录制;
录制完成后,需将录音转换为WAV 格式。

3)即时通信软件语音消息文件获取。信道f、h、k 可通过提取PC 端自动保存的语音文件来获取;
信道l、m 可通过语音消息附带的音频下载功能在PC 端获取;
信道k 则需要先发送语音消息,然后在接收端再次播放语音消息,使用Adobe Audition 软件进行内录。由于即时通信软件语音消息功能有时长限制,故在获取同一信道的语音文件后,需将录音转换为WAV 格式并按顺序进行拼接。

4)即时通信软件语音通话录音。信道g、i 在拨通语音通话后,即时打开接收端Adobe Audition 软件进行录音,直接将语音通话录制为WAV 格式。

1.4 频谱特征定性分析

将8 段标准录音和104 段信道录音使用Praat 语音分析软件依次打开,设置频谱显示范围为0~8 000 Hz,窗口长度男声0.003 5 s,女声0.002 5 s,动态范围45 dB。在标准录音和信道录音中对应选取6 个音段(包括3 个单音节和3 个多音节)进行比较检验,将624 个信道录音特征音段对标48 个标准录音特征音段,对元音共振峰的总体形态及相对强度等频谱特征进行定性分析[2,15]。

1.4.1 共振峰总体形态分析

共振峰总体形态包括元音共振峰走向、中心线位置及上下沿形态等。在实验录音中,观察分析每个待检特征音段元音的F1~F5 这5 条共振峰,并对每条共振峰总体形态是否发生变化进行二值评分:其中“1”代表该信道待检音段被观察的共振峰在走向、位置、形态等各个方面均无明显变化(见图1);
“0”代表待检音段的共振峰至少在一个方面出现了明显变化或该共振峰缺失(见图2)。完成评分后,对结果进行汇总并进行卡方检验,分析待检音段各阶共振峰的总体形态是否会受到信道的影响而发生变化,评价该频谱特征受信道影响的显著性。

图1 待检音段共振峰总体形态比较分析实例1Fig.1 Comparative analysis example 1 of overall forms of formants of voice segments to be checked

图2 待检音段共振峰总体形态比较分析实例2Fig.2 Comparative analysis example 2 of overall forms of formants of voice segments to be checked

1.4.2 共振峰相对强度分析

共振峰相对强度是指元音各阶共振峰之间的强度变化,在宽带频谱图上的灰度值对比情况。观察比较待检音段的共振峰相对强度并进行二值评分:其中“1”代表音段的共振峰峰间相对强度无变化(见图3);
“0”代表音段的共振峰峰间相对强度有变化,包括出现共振峰缺失(见图4)。完成评分后,对各信道共振峰的相对强度变化汇总结果进行卡方检验,分析判断共振峰相对强度特征受特定信道影响的显著性。

图3 待检音段共振峰相对强度比较分析实例1Fig.3 Comparative analysis example 1 of relative intensity of formants of voice segments to be checked

图4 待检音段共振峰相对强度比较分析实例2Fig.4 Comparative analysis example 2 of relative intensity of formants of voice segments to be checked

1.5 声学参数量化分析

选取1 号、4 号、7 号共3 名志愿者的标准录音和信道录音进行无动程单元音共振峰中心频率[2,15]测量及统计分析。

首先,使用Praat 语音分析软件分别测量标准录音的[a]、[i]、[u]这3 个单元音的F1~F5 的中心频率值,共测得45 条共振峰的数值;
然后,依次测量出各信道录音中对应音段的[a]、[i]、[u]这3 个单元音F1~F5 的中心频率值,如有缺失,则标记为“N/A”,共测得585 条共振峰的数值。

使用SPSS 统计软件,以标准录音的共振峰频率为检验值,对所有信道录音中同一个单元音的同阶共振峰频率进行单样本t 检验。根据分析结果,判断共振峰频率值是否会受到信道的影响。

2.1 频谱特征定性分析结果

2.1.1 共振峰总体形态分析结果

通过信道录音与标准录音的比较检验,将各信道录音中待检音段的元音共振峰F1~F5 总体形态变化情况进行评分汇总,其中:形态未发生变化的评分为“1”,发生变化的评分为“0”,结果见表3。

由表3 可知,总体来看与标准录音相比,信道录音对应待检音段的元音共振峰总体形态均发生了不同程度的变化,其中:低阶共振峰F1、F2 受到的影响较小,变化率不足5.0%;
高阶共振峰的变化情况较低阶共振峰要更加明显,F3、F4 的变化率均超过20.0%,而F5 的变化率已超过40.0%。

表3 元音共振峰总体形态变化评分Tab.3 Overall form change scores of formants of vowel

通过卡方检验来评价不同信道对F1~F5 各阶共振峰总体形态特征影响的显著性,结果见表4。由表4 可知,当显著性大于0.050 时,表明该信道与标准录音相比特征变化不存在统计学意义上的差异;
当显著性小于0.050 而大于0.010时,表明二者存在统计学意义上的差异;
若显著性小于0.010,则表明差异非常显著。

由表4 可知,不同信道对F1~F5 各阶共振峰总体形态特征的影响不尽相同:对于F1,仅信道c 录音与标准录音之间存在差异;
对于F2,信道j 录音与标准录音之间存在差异,信道f 录音与标准录音之间存在显著差异;
对于F3,信道d 录音与标准录音之间存在差异,信道c、f、h、i、j、k、l、m 录音均与标准录音之间存在显著差异;
对于F4,信道d、e 录音与标准录音之间存在差异,信道c、h、i、j、k、l、m 录音均与标准录音之间存在显著差异;
对于F5,信道l 录音与标准录音之间存在差异,信道c、d、f、g、h、i、j、k、m 录音与标准录音之间均存在显著差异。表5 对上述结果进行汇总。

表4 各信道录音的元音共振峰总体形态卡方检验结果Tab.4 Chi-square test results of overall forms of formants of vowel in recordings of different channels

表5 元音共振峰总体形态特征受信道影响的显著性统计Tab.5 Significance statistics of overall forms of formants of vowel affected by channels

由表5 可知,信道a、b 对元音共振峰总体形态特征并无影响;
信道e、g 对低阶共振峰总体形态不会造成影响,信道e对F4 有影响,信道g 则对F5 影响显著;
信道c、d、f、h、i、j、k、l、m 均会对元音共振峰的总体形态特征产生不同程度的影响,特别是对高阶共振峰的影响较为显著。

2.1.2 共振峰相对强度分析结果

通过信道录音与标准录音的比较检验,将各信道录音中待检音段的共振峰相对强度变化情况进行评分汇总,其中,未发生变化的评分为“1”,发生变化的评分为“0”,结果见表6。

由表6 可知,与标准录音相比,大多数信道录音对应待检音段的元音共振峰强度变化较大,除信道a、b 录音对应待检音段的相对强度变化率不超过15.0%以外,其他信道录音的特征变化率均超过80.0%,信道c、j、k 的变化率甚至为100.0%。

表6 元音共振峰相对强度变化评分Tab.6 Scores of relative intensity changes of formants of vowel

对除c、j、k 之外的10 个信道共振峰相对强度变化评分数据进行卡方检验,结果见表7。由卡方检验结果结合特征变化率分析可知:信道a 录音与标准录音在元音共振峰峰间相对强度特征上不存在差异(显著性>0.050);
信道b 录音与标准录音在元音共振峰峰间相对强度特征上存在差异且具有统计学意义(0.010<显著性<0.050);
其余信道录音(包括信道c、j、k)与标准录音在元音共振峰峰间相对强度上均存在非常显著的差异(显著性<0.010)。

表7 各信道录音被选音段元音共振峰峰间相对强度卡方检验结果Tab.7 Chi-square test results of the relative intensity of selected voice segments in each channel recording

2.2 声学参数量化分析结果

选择1 号、4 号和7 号志愿者的标准录音与对应的13 条信道录音进行声学参数量化分析,提取无动程单元音[a]、[i]、[u]的F1~F5 共振峰中心频率值,其中:在3 段标准录音中实际采集到45 条共振峰数值;
39 段信道录音中应采集585条共振峰数值,但实际采集到530 条共振峰数值,未测得数值的共振峰大部分为缺失状态,且主要集中在F3 及以上的高阶共振峰。

将3 位志愿者各信道录音的[a]、[i]、[u]共振峰频率值与标准录音对应的共振峰频率值进行单样本t 检验,结果见表8~10。

从表8~10 中可以看出:t 值既有正值又有负值,说明信道录音的元音共振峰峰值与标准录音中对应的元音共振峰峰值之间存在一定波动;
但各t 值对应的显著性Sig.值均大于0.050,表明信道录音中元音[a]、[i]、[u]的F1~F5 各阶共振峰峰值与标准录音中对应的各元音共振峰峰值之间并不存在统计学上的显著性差异。

表8 志愿者1号元音共振峰的单样本t检验结果Tab.8 One-sample t-test results of formants of vowel of volunteer No.1

表9 志愿者4号元音共振峰单样本t检验结果Tab.9 One-sample t-test results of formants of vowel of volunteer No.4

表10 志愿者7号元音共振峰单样本t检验结果Tab.10 One-sample t-test results of formants of vowel of volunteer No.7

2.3 讨论

通过上述实验发现,信道录音与标准录音相比,在共振峰总体形态和相对强度等频谱特征上存在一定程度的差异,但在可测得的元音共振峰中心频率上并不存在统计学意义上的显著差异。结合频谱分析发现,与标准录音相比,大部分信道录音会出现男声的F4 以及女声的F3、F4,即频率集中在3 000~4 000 Hz 的谱图相对强度有所增加,而其他频率范围的能量相对减弱,部分F5 甚至缺失,从而改变共振峰相对强度特征;
在共振峰中心线位置保持不变的情况下,高阶共振峰F3、F4 的上下边界会略有扩张,范围约在50 Hz 左右,使高阶共振峰的总体形态特征发生变化。

尝试对上述现象产生的原因进行分析,等响度曲线(Equiloudness Curve)表明:人耳正常的听阈范围是从20 Hz~20 kHz,其中对3 000~4 000 Hz 的声音最为敏感[2];
因此信道在对语音进行编码和压缩时,会着重对3 000~4 000 Hz附近的能量进行较为完整的记录,从而选择丢失其他信息,其中就可能包括这个频率段以外的能量。这就可能导致男声的F4及女声的F3、F4共振峰边界发生扩张、相对强度变强,进而使高阶共振峰的总体形态和相对强度发生变化;
但信道的传输并未改变各阶共振峰的中心线位置,故元音共振峰的中心频率并未受到影响;
又因F5的能量本身较弱,若信道选择丢失3 000~4 000 Hz频率段以外的能量,则会造成F5共振峰缺失。

2.4 案例应用

结合实际案例,讨论本实验结果的应用。

20××年5 月14 日,××司法鉴定中心受××市公安局委托,要求鉴定检材中男性通话人是否为样本中的李某某。由于涉案语音来自2G 通话录音,而嫌疑人语音来自麦克风阵列录音,对差异点的解释存在一定的困难,因此难以给出鉴定意见。但是,结合本文的实验结果后再进行研究可以发现,在“区”“把”“休”等10 个音节上,尽管元音共振峰的总体形态和相对强度存在一定的差异,但共振峰频率均基本一致(见图5~7)。

图5 涉案语音和嫌疑人语音的音节“区”的图谱和共振峰数据Fig.5 Spectrum and formant data of syllable [tɕʰʷyː1] of voice involved in a case and voice of a suspect

图6 涉案语音和嫌疑人语音的音节“把”的图谱和共振峰数据Fig.6 Spectrum and formant data of syllable [paː2] of voice involved in a case and voice of a suspect

图7 涉案语音和嫌疑人语音的音节“休”的图谱和共振峰数据Fig.7 Spectrum and formant data of syllable [ɕjoʊ1] of voice involved in a case and voice of a suspect

这说明差异点主要是由各自信道的特性所造成的,属于非本质差异;
而共振峰频率等特征的吻合属于同一人在发音习惯和生理特性上的吻合,即本质上的吻合。最终,鉴定人员给出了认定同一的鉴定意见。

实验发现,信道对元音共振峰的影响主要集中在共振峰总体形态和相对强度等频谱特征上,具体表现为高阶共振峰的总体形态特征发生变化、各次共振峰间的相对强度改变等;
这说明在进行语音同一认定时,如果检材语音和样本语音的信道不同,那么在使用共振峰总体形态和相对强度等频谱特征时应当慎重,在出现差异时不能单独作为否定同一的依据。

实验还发现,与标准录音相比,除个别信道录音的F5 缺失无法测量外,共振峰频率特征虽有所变化;
但并不具有统计学意义上的差异,即共振峰频率特征几乎不受信道的影响,因此推荐在检验鉴定中优先使用该特征。

综上所述,在跨信道语音同一认定实践中,应重点分析检材语音和样本语音的共振峰频率,谨慎分析共振峰总体形态和相对强度等频谱特征上的差异。接下来将进一步对各信道之间的语音特征变化情况进行交叉比较,以期更好服务检验实践。

猜你喜欢 元音共振录音 元音字母和元音字母组合的拼读规则考试与评价·七年级版(2021年1期)2021-08-14Funny Phonics阅读(快乐英语中年级)(2021年10期)2021-03-08ZJP56型组合绳锯组锯机超谐共振分析装备制造技术(2020年4期)2020-12-25funny phonics阅读(快乐英语中年级)(2020年10期)2020-12-09元音字母和元音字母组合的拼读规则考试与评价·七年级版(2020年1期)2020-10-23Listen and Choose阅读(快乐英语中年级)(2020年5期)2020-07-27Listen and Color阅读(快乐英语中年级)(2019年9期)2019-09-10选硬人打硬仗——紫阳县党建与脱贫同频共振当代陕西(2018年12期)2018-08-04凝心聚力 互促共进 实现机关党建与文明单位创建合拍共振人大建设(2017年6期)2017-09-26改革是决心和动力的共振中国卫生(2014年9期)2014-11-12

推荐访问:汉语 元音 信道

相关文章:

Top