VoLTE语音质量评估的POLQA算法研究(2)

时间:2016-08-25 14:01 来源:发表吧 作者:陈明 点击:

  对齐的目的是计算宏帧时延,时间对齐分为以下几个步骤:滤波、预校准、粗校准、细校准、分部合并。
  (1)滤波
  POLQA算法根据音频范围的不同,有两套操作模式。在时间对齐阶段,为最大限度地减少噪音对时间对齐的影响,参考信号和劣化信号首先都要通过一个带通滤波器,形状取决于是窄带模式还是超宽带模式。超宽带模式的带通滤波器范围是320—3400 Hz;窄带模式的带通滤波器范围是290—3300 Hz。时间校准阶段加入带通滤波器的主要原因是由于300—3500 Hz范围内语音信号的延迟估计可靠性比较高。
  (2)预校准
  预校准目的是计算每对宏帧的初始时间延迟,并预估延迟搜索范围。首先确定劣化信号的解析点,解析点表示语音信号从停顿到活动的转换位置,通过计算解析点的初始延迟得到宏帧的延迟信息。本步骤产生4个向量:宏帧延迟、延迟的可靠性指示以及延迟搜索范围的上下限。
  (3)粗校准
  粗校准是基于每个宏帧预校准结果计算的,首先将宏帧细分为更小的8个特征帧,对第一个特征帧计算出第一个初始特征向量后,根据迭代算法不断计算出新的特征向量,其精度随迭代次数的增加不断提高,由此得到与特征帧时延有关的相关系数矩阵,最后得到宏帧延迟信息。
  (4)精确校准
  精确校准在前一步宏帧粗对齐的基础上,计算出每个宏帧的精确延迟。精确校准的过程类似于粗校准,最大差别是没有使用迭代算法,而是采用回溯算法找出最精确的延迟。
  (5)分段合并
  所谓分段合并是基于宏帧延迟结果,将每段的延迟、可靠性、起止点、语音活动情况等信息存储起来,然后和下一段信息进行比较后决定是否合并。如果下一段信息包含语音活动信息且两段的延迟都不超过3 ms,或者是一段信息包含语音停顿信息且两段信息的延迟时间都不小于15 ms,就将这相邻的两段信息合并在一起,然后再和下一段信息进行比较。有关语音信号的起止点、延迟信息的合并结果被送入感知模型。
  3.2 劣化信号采样率估计及重新采样
  根据时间对齐的宏帧延迟结果预估劣化信号的采样率。如果劣化信号的采样率与标准信号采样率的偏差大于0.5%,就需要对采样速率较高的信号采样,然后重新执行上一步的时间对齐的计算步骤。
  3.3 核心模型
  核心模型包括感知和认知两部分,分别对语音做客观感知描述和认知评分。人对声音的主观感知主要用响度表示,客观描述指标主要涉及到音调、音色、音量等方面。其中音调由基音决定,音色由泛音决定,音量与波形振幅有关[9]。
  (1)感知模型
  感知模型主要是模拟人耳的感觉器官,根据听觉的掩蔽效应将声音响度映射为巴克域响度指标[10],然后用客观指标表述语音感知。POLQA感知模型[2]输出的客观性指标主要有频率响应指示、噪音指示、混响指示以及三个描述语音内部差异的指标:时间-音调-响度,另外还有6个与音量/噪声/音色等有关的补偿性指标。POLQA感知模型的主要计算步骤如下:
  1)首先设定窗口长度和语音的起止点,将音频通过FFT变换到频域,然后音高功率振幅被归一化到频率为1 kHz正弦波,声压等级为40 dB SPL的基准刻度;
  2)语音信号从频域映射到巴克域音高功率密度的计算;
  3)计算频率响应、噪音和室内混响的指标;
  4)对参考信号和劣化信号进行电平、噪音等方面的补偿;
  5)响度密集度计算,主要将音高的功率密度转换为听觉的响度密度;
  6)内部感知差异的计算,并根据相关结果计算响度扰动密度,用于认知模型评分。
  (2)认知模型
  认知模型基于感知模型输出的扰动密度、客观性指标(频率响应指示、噪音指示、混响指示)以及6个补偿性指标计算出原始POLQA值,用一个三阶多项式再映射为MOS-LQO值。在窄带模式下,MOS-LQO分值最大为4.5,在超宽带模式下,MOS-LQO分值最大为4.75。
  4 POLQA在VoLTE语音质量测试中的表现
  在无线通信中影响通话质量的有编码、误码、信噪比、传输质量等诸多因素,本文采用定点测试法,所处VoLTE网络环境基本稳定(商用网络在合理范围内会有波动),测试环境符合要求。
  4.1 测试环境说明
  测试点位于室内9楼,与VoLTE商用基站A距离100 m,基站B距离340 m左右,在视距范围内,信号覆盖良好,网络结构及配置如图3所示。测试软件为华星FlyWireless6.0,测试设备包括2部HTC M8终端手机、1台电脑、1部MOS盒。测试手机可根据测试需要锁频LTE频段。
  手机根据测试需求打开或关闭VoLTE语音功能,通话时有4种网络占用状态:
  (1)主被叫手机均占用VoLTE网络互拨,简写为L2L;
  (2)主被叫手机均占用GSM网络,简写为G2G;
  (3)主叫手机占用VoLTE网络,被叫手机回落到GSM网络,简写为L2G;
  (4)主叫手机回落到GSM网络,被叫手机占用VoLTE网络,简写为G2L。
  测试前选择48k和8k两种采样速率的标准语料备用。
  4.2 PESQ和POLQA测试对比
  测试手机占用基站A第2小区LTE-F频段(RSRP约为-84 dBm),测试PESQ和POLQA两种算法的评分差异。结果对比表明POLQA算法的MOS分值较低,如表3所示。每种测试取20次MOS值平均,下同。
  两种算法的评分结果差异不大,主要由于两者都支持50—7000 Hz的音频处理范围,但是POLQA算法在原理上考虑了线性失真、响度丢失等影响因素,且根据文献[3]的研究,POLQA算法的MOS值均方根误差更小,准确度更高。

www.fabiaoba.com),是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
  本站提供如何投稿辅导、发表期刊,寻求论文刊登合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级论文刊登/国家级论文刊登/ CSSCI核心/医学投稿辅导/职称投稿辅导。

投稿邮箱:fabiaoba365@126.com
 在线咨询: 投稿辅导275774677投稿辅导1003180928
 在线咨询: 投稿辅导610071587投稿辅导1003160816
 联系电话:18796993035

联系方式
李老师QQ:发表吧客服610071587 陈老师QQ:发表吧客服275774677 刘老师QQ:发表吧客服1003160816 张老师QQ:发表吧客服1003180928 联系电话:18796993035 投稿邮箱:fabiaoba365@126.com
期刊鉴别
  • 刊物名称:
  • 检索网站:
热门期刊
发表吧友情提醒

近来发现有些作者论文投稿存在大量剽窃、抄袭行为,“发表吧”对此类存在大量剽窃、抄袭的论文已经停止编辑、推荐。同时我们也提醒您,当您向“发表吧”投稿时请您一定要保证论文的原创性、唯一性,这既是对您自己负责,更是对他人的尊敬。

此类投稿的论文如果发表之后,对您今后的人生和事业将造成很大的麻烦,后果不堪设想,请您一定要慎重,三思而后行。

如因版权问题引起争议或任何其他原因,“发表吧”不承担任何法律责任,侵权法律责任概由剽窃、抄袭者本人承担。

 
QQ在线咨询
论文刊登热线:
137-7525-9981
微信号咨询:
fabiaoba-com

友情链接

申请链接