SY.
← 返回项目

LLM inference

大模型推理部署自动化平台

面向 Web 的推理服务自动部署平台,覆盖量化、评估、基准测试与模型推送。

角色
推理优化算法实习生
年份
2025.07 - 2026.02
状态
实习项目
技术
Python / Ray

项目界面截图占位,后续替换为真实图片

Overview

项目概览

在作业帮实习期间参与建设的大模型推理部署自动化平台。用户通过 Web 界面即可完成模型上线前验证,并自动部署推理 Worker 与 RESTful API。

<30min自动化流程耗时
1h→原手动操作耗时
DAG任务编排模型

Challenge

遇到的问题

模型上线前需要串行执行多项验证与部署操作,人工流程耗时长,任务之间也难以复用。

Approach

解决方式

基于 Ray 构建分布式调度系统,设计 Job-Pipeline-Node 三层模型与 DAG 串并行调度,并采用 Service-Cmd 两阶段架构区分长期推理服务和离线任务。

Architecture

项目架构

Web Client
Job / Pipeline
Ray Scheduler
vLLM Worker
RESTful API

Highlights

主要能力

  • 量化与精度评估
  • 基准测试与模型推送
  • 推理服务生命周期管理
  • 服务复用与资源调度