當(dāng)前位置:首頁 > 科技文檔 > 自動化 > 正文

基于自適應(yīng)不確定性度量的離線強(qiáng)化學(xué)習(xí)算法

南京郵電大學(xué)學(xué)報(自然科學(xué)版) 頁數(shù): 7 2024-07-02
摘要: 離線強(qiáng)化學(xué)習(xí)可以從歷史經(jīng)驗(yàn)數(shù)據(jù)中直接學(xué)習(xí)出可執(zhí)行的策略,由此來避免與在線環(huán)境的高代價交互,可應(yīng)用于機(jī)器人控制、無人駕駛、智能營銷等多種真實(shí)場景。有模型的離線強(qiáng)化學(xué)習(xí)首先通過監(jiān)督學(xué)習(xí)構(gòu)造環(huán)境模型,并通過與該環(huán)境模型交互來優(yōu)化學(xué)習(xí)策略,具有樣本效率高的特點(diǎn),是最常用的離線強(qiáng)化學(xué)習(xí)算法。然而,由于離線數(shù)據(jù)集存在分布偏移問題,現(xiàn)有的方法往往通過靜態(tài)的方法來評估此種不確定性,無法動態(tài)自適... (共7頁)

開通會員,享受整站包年服務(wù)立即開通 >
科技文檔