PowerNPU:Fast On-device LLM Inference with NPUs
FlexGen
Transformer模型入门
ASPLOS'23弹性调度论文ElasticFlow精读
在线调度问题的组合优化求解方法
云边协同场景中抢占式调度策略
Chronus论文精读
基于LP的近似算法
GPU集群中的DLT任务调度工作研讨
弹性伸缩深度学习分布式训练