當前位置:首頁 > 科技文檔 > 數(shù)學 > 正文

融合強化學習的三支治略選擇及其有效性分析

計算機科學與探索 頁數(shù): 9 2023-04-11
摘要: 三支決策的“分、治、效”(TAO)模型包括構(gòu)建三分、施加策略、結(jié)果評估三個部分。目前,關(guān)于結(jié)果評估的研究旨在衡量策略施加后結(jié)果的前后變化,還無法預(yù)測施加哪個策略能達到最大效果。為了解決這一問題,對TAO模型的“治”和“效”進行了研究,提出一種基于強化學習的三支改變模型的策略選擇與有效性預(yù)測的方法。首先將改變?nèi)Q策TAO模型中的改變?nèi)譅顟B(tài)和策略分別作為強化學習中的狀態(tài)和動作,... (共9頁)

開通會員,享受整站包年服務(wù)立即開通 >