LLM inference

大模型推理部署自动化平台

面向 Web 的推理服务自动部署平台，覆盖量化、评估、基准测试与模型推送。

项目界面截图占位，后续替换为真实图片

Overview

项目概览

在作业帮实习期间参与建设的大模型推理部署自动化平台。用户通过 Web 界面即可完成模型上线前验证，并自动部署推理 Worker 与 RESTful API。

<30min自动化流程耗时

1h→原手动操作耗时

DAG任务编排模型

Challenge

模型上线前需要串行执行多项验证与部署操作，人工流程耗时长，任务之间也难以复用。

Approach

基于 Ray 构建分布式调度系统，设计 Job-Pipeline-Node 三层模型与 DAG 串并行调度，并采用 Service-Cmd 两阶段架构区分长期推理服务和离线任务。

Architecture

Web Client

→

Job / Pipeline

→

Ray Scheduler

→

vLLM Worker

→

RESTful API

Highlights