一種聚焦于提示的大語(yǔ)言模型隱私評(píng)估和混淆方法
信息網(wǎng)絡(luò)安全
頁(yè)數(shù): 13 2024-09-10
摘要: 雖然大語(yǔ)言模型在語(yǔ)義理解方面表現(xiàn)優(yōu)異,但頻繁的用戶交互帶來(lái)了諸多隱私風(fēng)險(xiǎn)。文章通過(guò)部分回憶攻擊和模擬推理游戲?qū)ΜF(xiàn)有的大語(yǔ)言模型進(jìn)行隱私評(píng)估,證明了常見的大語(yǔ)言模型仍存在兩類棘手的隱私風(fēng)險(xiǎn),即數(shù)據(jù)脫敏處理可能影響模型響應(yīng)質(zhì)量以及通過(guò)推理仍能獲取潛在的隱私信息。為了應(yīng)對(duì)這些挑戰(zhàn),文章提出了一種聚焦于提示的大語(yǔ)言模型隱私評(píng)估和混淆方法。該方法以結(jié)構(gòu)化進(jìn)程展開,包括初始描述分解、偽造描... (共13頁(yè))