面向服務(wù)器無感計算的模型推理服務(wù)切換方法研究
計算機工程與科學(xué)
頁數(shù): 8 2024-07-15
摘要: 模型推理服務(wù)正隨著大模型技術(shù)的發(fā)展被廣泛應(yīng)用,為模型推理服務(wù)構(gòu)建穩(wěn)定可靠的體系結(jié)構(gòu)支撐逐漸成為云服務(wù)商關(guān)注的焦點。服務(wù)器無感計算是一種資源粒度細(xì)、抽象程度高的云服務(wù)計算范式,具有按需計費、彈性擴展等優(yōu)勢,能夠有效提高模型推理服務(wù)的計算效率。但是,模型推理服務(wù)工作流呈現(xiàn)出多階段的特點,獨立的服務(wù)器無感計算框架難以確保模型推理服務(wù)工作流各階段的最優(yōu)執(zhí)行。因此,如何利用不同服務(wù)器無感... (共8頁)