Challenge
遇到的问题
模型上线前需要串行执行多项验证与部署操作,人工流程耗时长,任务之间也难以复用。
LLM inference
面向 Web 的推理服务自动部署平台,覆盖量化、评估、基准测试与模型推送。
项目界面截图占位,后续替换为真实图片
Overview
在作业帮实习期间参与建设的大模型推理部署自动化平台。用户通过 Web 界面即可完成模型上线前验证,并自动部署推理 Worker 与 RESTful API。
Challenge
模型上线前需要串行执行多项验证与部署操作,人工流程耗时长,任务之间也难以复用。
Approach
基于 Ray 构建分布式调度系统,设计 Job-Pipeline-Node 三层模型与 DAG 串并行调度,并采用 Service-Cmd 两阶段架构区分长期推理服务和离线任务。
Architecture
Highlights