vLLM(3)vllm在线启动集成openweb-ui

张开发
2026/4/16 17:02:06 15 分钟阅读

分享文章

vLLM(3)vllm在线启动集成openweb-ui
文章目录**步骤 1: 启动 vLLM 服务****方式 1: 直接命令行启动****方式 2: Docker 启动****步骤 2: 配置 Open WebUI 连接 vLLM****方法 1: 修改 Open WebUI 环境变量****方法 2: 通过 docker-compose.yml 部署****步骤 3: 在 Open WebUI 中添加模型****验证是否成功****常见问题解决****性能优化建议**要将vLLM集成到Open WebUI中可以通过以下步骤实现。vLLM 提供高性能的 LLM 推理服务而 Open WebUI 则是一个可扩展的 Web 前端。集成核心是通过 vLLM 的 OpenAI 兼容 API 与 Open WebUI 连接。在前面两个章节我们介绍了如何在线启动vllm服务下面将vllm集成到openweb-ui中步骤 1: 启动 vLLM 服务首先启动 vLLM 服务暴露 OpenAI 兼容的 API 接口默认端口9898。方式 1: 直接命令行启动conda activate vLLM_cuda128_env_python312cd/home/vLLM/models/Qwen vllm serve Qwen3-0.6B --served-model-name Qwen3-0.6B--api_keyhhh6688--host192.168.11.103--port9898--trust_remote_code--tensor_parallel_size4--gpu_memory_utilization0.8方式 2: Docker 启动dockerrun-d\--gpusall\-p8000:8000\--namevllm-server\vllm/vllm-openai:latest\--modelmeta-llama/Meta-Llama-3-8B-Instruct步骤 2: 配置 Open WebUI 连接 vLLM修改 Open WebUI 的配置指向 vLLM 的 API 地址。方法 1: 修改 Open WebUI 环境变量在启动 Open WebUI 时添加以下环境变量dockerrun-d\-p3000:8080\-eOPENAI_API_BASE_URLhttp://vllm-server:9898/v1\-eOPENAI_API_KEYhhh6688\# vLLM 无需验证-eWEBUI_SECRET_KEYmy-secret\--nameopenwebui\--linkvllm-server\# 如果 vLLM 和 Open WebUI 在同一台机器ghcr.io/open-webui/open-webui:main方法 2: 通过docker-compose.yml部署version:3.8services:vllm:image:vllm/vllm-openai:latestcommand:--model meta-llama/Meta-Llama-3-8B-Instructports:-8000:8000deploy:resources:reservations:devices:-driver:nvidiacount:2# 使用 2 个 GPUopenwebui:image:ghcr.io/open-webui/open-webui:mainports:-3000:8080environment:-OPENAI_API_BASE_URLhttp://vllm:9898/v1-OPENAI_API_KEYhhh6688-WEBUI_SECRET_KEYmy-secretdepends_on:-vllm运行docker-composeup-d步骤 3: 在 Open WebUI 中添加模型访问 Open WebUI 的 Web 界面http://localhost:3000登录后进入Settings → Model Provider。选择OpenAI作为提供商。填写Model Name: 任意名称如Llama-3-8B-vLLMAPI Base URL:http://vllm:8000/v1或你的 vLLM 地址API Key:EMPTY保存后在聊天界面选择该模型即可使用。验证是否成功检查 vLLM 日志dockerlogs vllm-server出现类似日志表示请求成功INFO: 127.0.0.1:12345 - POST /v1/chat/completions HTTP/1.1 200 OK在 Open WebUI 中发送测试消息观察响应速度和输出内容。常见问题解决连接失败确保OPENAI_API_BASE_URL正确一般为http://vllm-ip:8000/v1。如果使用 Docker确保容器在同一网络或通过--link连接。GPU 资源不足减少--tensor-parallel-size如从2改为1。使用量化模型如--quantization awq。模型加载失败检查模型路径是否正确HuggingFace 模型需提前下载或确认有访问权限。使用离线模型时挂载本地目录dockerrun-v/path/to/models:/models vllm/vllm-openai:latest--model/models/llama-3-8bOpen WebUI 无法识别模型在Model Provider中检查是否选择OpenAI类型。确保OPENAI_API_KEY设置为EMPTYvLLM 无需密钥。性能优化建议批处理启动 vLLM 时添加--max-num-batched-tokens 4096提高吞吐量。量化添加--quantization awq减少显存占用需模型支持。多 GPU增加--tensor-parallel-size加速推理。通过以上步骤即可将 vLLM 的高性能推理能力无缝集成到 Open WebUI 的交互界面中。

更多文章