摘要:大语言模型作为当前人工智能领域的核心技术突破,已在多个关键领域展现出卓越的性能表现,然而在一些资源受限场景下,大语言模型的高效推理部署面临严峻挑战。当前主流的模型推理优化技术,如量化、稀疏化和分层混合推理等,虽然在一定程度上提高了模型推理效率,但是仍然存在部署粒度较为粗糙、推理精度较差等问题。根据不同算子对GPU亲和度不同的发现,提出基于算子感知的大模型推理张量卸载方法OATO。该方法能够提取算子的语义知识,并基于此设计了智能算子调度算法,可以生成全局最优模型部署方案。同时,将OATO方法集成进最新的大模型推理框架Llama.cpp之中,实现了算子感知的张量卸载增强推理引擎OALlama.cpp。实验结果表明,相比与业内最先进的推理引擎Llama.cpp和FlexGen,OALlama.cpp在3种大模型上均取得最好的推理性能,尤其是在LlaMA3-8B模型在GPU加载75%权重的场景下,OALlama.cpp的首词生成速度相比FlexGen和Llama.cpp提升近一倍。