一種面向通用計(jì)算設(shè)備的自動(dòng)流水線并行訓(xùn)練框架
計(jì)算機(jī)科學(xué)
頁數(shù): 8 2024-03-20
摘要: 訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)通常會(huì)出現(xiàn)單個(gè)計(jì)算節(jié)點(diǎn)的內(nèi)存和計(jì)算能力不足的情況,需要通過多個(gè)節(jié)點(diǎn)分布式訓(xùn)練來實(shí)現(xiàn)。現(xiàn)有的分布式深度學(xué)習(xí)框架主要針對(duì)特定的硬件環(huán)境設(shè)計(jì),不能夠有效適應(yīng)各類通用計(jì)算設(shè)備。為支持大規(guī)模深度神經(jīng)網(wǎng)絡(luò)的高效訓(xùn)練,實(shí)現(xiàn)了一種通用的自動(dòng)流水線并行分布式訓(xùn)練框架。本框架通過結(jié)合基于流水線并行的模型并行策略與神經(jīng)網(wǎng)絡(luò)模型自動(dòng)拆分算法,實(shí)現(xiàn)了在包括國(guó)內(nèi)新一代超級(jí)計(jì)算機(jī)在內(nèi)的通用... (共8頁)