融合動(dòng)態(tài)掩碼注意力與多教師多特征知識(shí)蒸餾的文本分類
中文信息學(xué)報(bào)
頁數(shù): 17 2024-03-15
摘要: 知識(shí)蒸餾技術(shù)可以將大規(guī)模模型中的知識(shí)壓縮到輕量化的模型中,在文本分類任務(wù)中實(shí)現(xiàn)更高效的推斷?,F(xiàn)有的知識(shí)蒸餾方法較少同時(shí)考慮多種教師與多個(gè)特征層之間的信息融合。此外,蒸餾過程采用全局填充,未能動(dòng)態(tài)關(guān)注數(shù)據(jù)中的有效信息。為此,該文提出一種融合動(dòng)態(tài)掩碼注意力機(jī)制與多教師多特征知識(shí)蒸餾的文本分類模型,不僅引入多種教師模型(RoBERTa、Electra)的知識(shí)源,還兼顧不同教師模型在多... (共17頁)