多特征融合的越英端到端語(yǔ)音翻譯方法
中文信息學(xué)報(bào)
頁(yè)數(shù): 11 2024-10-15
摘要: 語(yǔ)音翻譯的編碼器需要同時(shí)編碼語(yǔ)音中的聲學(xué)信息和語(yǔ)義信息,單一的Fbank或Wav2vec2語(yǔ)音特征表征能力存在不足。通過(guò)分析人工的Fbank特征與自監(jiān)督的Wav2vec2特征間的差異性,提出基于交叉注意力機(jī)制的聲學(xué)特征融合方法,并探究了不同的自監(jiān)督特征和融合方式,加強(qiáng)模型對(duì)語(yǔ)音中聲學(xué)和語(yǔ)義信息的學(xué)習(xí)。結(jié)合越南語(yǔ)語(yǔ)音特點(diǎn),以Fbank特征為主、Pitch特征為輔混合編碼Fbank... (共11頁(yè))