Skip to content

vLLM:高速推理引擎

SuperTi 平台集成的 AI 推理功能,基于业界领先的 vLLM 高速推理引擎,为您提供一站式的大语言模型(LLM)部署与管理服务。您无需关心复杂的部署环境,只需通过简单的几步配置,即可将选定的模型部署为高性能的在线 API 服务,并对其进行全面的生命周期管理。

创建推理服务

1. 前提条件

在开始之前,请确保您的实例满足以下条件:

  • 至少有一张可用的 GPU 卡。
  • 实例的镜像支持 AI 训练营工具(通常在镜像名称旁有特殊标记)。

2. 进入 vLLM 配置页面

在“AI 训练营”中找到 vLLM 工具,点击“一键创建”进入配置页面。

进入 vLLM 详情页

3. 选择实例并配置参数

选择一个符合条件的实例,然后配置推理服务的参数。

选择实例并创建任务

您可以根据需求,通过以下两种方式进行配置:

  • 页面配置:在界面上直观地选择模型、设置端口等关键参数。 通过页面配置 vLLM 参数 若要使用自定义模型,请在上方填写模型的绝对路径,系统会自动完成路径映射。 指定自定义模型路径

  • 命令行配置:对于高级用户,可以直接编写或粘贴启动命令来精确控制服务配置。

    bash
    # 示例:使用 0, 1, 2 号 GPU 部署 DeepSeek 模型
    CUDA_VISIBLE_DEVICES=0,1,2 python -m vllm.entrypoints.openai.api_server \
      --model /model/DeepSeek-R1-Distill-Qwen-7B \
      --served-model-name DeepSeek-R1-Distill-Qwen-7B \
      --port 9000

4. 启动服务

完成配置后,点击“创建启动”按钮,系统将开始部署 vLLM 推理服务。

启动 vLLM 推理任务

管理推理服务

1. 查看任务状态

服务启动后,您可以在 vLLM 的任务列表或实例的详情页面查看和管理您的推理任务。

vLLM 推理任务列表

2. 访问 Web UI

对于支持图形化界面的模型,您可以点击“启动 OPEN WEB UI”来访问 Web 界面,方便地与模型进行交互和测试。

访问 Open Web UI

3. 注册 Web UI 账户

首次访问时,您需要创建一个本地账户用于登录 Open Web UI。 填写 Open Web UI 注册信息

4. 配置模型

登录后,进入管理员面板(Admin Panel),准备配置模型。 进入 Open Web UI 管理员面板

5. 关联 vLLM 服务地址

在模型配置页面,将 vLLM 服务的地址填入。

注意:请务必使用 http协议,而不是 https。地址格式应为:http://<实例IP>:<vLLM端口>

配置 vLLM 外部连接地址

6. 刷新并查看模型

保存设置后,刷新页面。稍等片刻,vLLM 服务中的模型就会出现在模型选择列表中。 查看已加载的模型

7. 开始对话

现在,您可以选择刚刚加载的模型,开始进行对话和测试。 与模型开始对话

适用场景

  • 在线服务:为您的应用程序提供高并发、低延迟的 AI 推理 API。
  • API 集成:将强大的语言模型能力无缝集成到现有系统或工作流中。
  • 批量处理:高效完成大规模文本生成、摘要、翻译等离线任务。
  • 原型验证:快速部署和测试不同模型的实际表现,加速产品迭代。
  • 性能评测:对不同模型或硬件配置的推理性能进行基准测试。

更多信息

欲了解更多关于 vLLM 的功能和高级用法,请访问 vLLM 官方文档