vLLM（3）vllm在线启动集成openweb-ui

张开发

• 2026/4/16 17:02:06 • 15 分钟阅读

分享文章

文章目录**步骤 1: 启动 vLLM 服务****方式 1: 直接命令行启动****方式 2: Docker 启动****步骤 2: 配置 Open WebUI 连接 vLLM****方法 1: 修改 Open WebUI 环境变量****方法 2: 通过 docker-compose.yml 部署****步骤 3: 在 Open WebUI 中添加模型****验证是否成功****常见问题解决****性能优化建议**要将vLLM集成到Open WebUI中可以通过以下步骤实现。vLLM 提供高性能的 LLM 推理服务而 Open WebUI 则是一个可扩展的 Web 前端。集成核心是通过 vLLM 的 OpenAI 兼容 API 与 Open WebUI 连接。在前面两个章节我们介绍了如何在线启动vllm服务下面将vllm集成到openweb-ui中步骤 1: 启动 vLLM 服务首先启动 vLLM 服务暴露 OpenAI 兼容的 API 接口默认端口9898。方式 1: 直接命令行启动conda activate vLLM_cuda128_env_python312cd/home/vLLM/models/Qwen vllm serve Qwen3-0.6B --served-model-name Qwen3-0.6B--api_keyhhh6688--host192.168.11.103--port9898--trust_remote_code--tensor_parallel_size4--gpu_memory_utilization0.8方式 2: Docker 启动dockerrun-d\--gpusall\-p8000:8000\--namevllm-server\vllm/vllm-openai:latest\--modelmeta-llama/Meta-Llama-3-8B-Instruct步骤 2: 配置 Open WebUI 连接 vLLM修改 Open WebUI 的配置指向 vLLM 的 API 地址。方法 1: 修改 Open WebUI 环境变量在启动 Open WebUI 时添加以下环境变量dockerrun-d\-p3000:8080\-eOPENAI_API_BASE_URLhttp://vllm-server:9898/v1\-eOPENAI_API_KEYhhh6688\# vLLM 无需验证-eWEBUI_SECRET_KEYmy-secret\--nameopenwebui\--linkvllm-server\# 如果 vLLM 和 Open WebUI 在同一台机器ghcr.io/open-webui/open-webui:main方法 2: 通过docker-compose.yml部署version:3.8services:vllm:image:vllm/vllm-openai:latestcommand:--model meta-llama/Meta-Llama-3-8B-Instructports:-8000:8000deploy:resources:reservations:devices:-driver:nvidiacount:2# 使用 2 个 GPUopenwebui:image:ghcr.io/open-webui/open-webui:mainports:-3000:8080environment:-OPENAI_API_BASE_URLhttp://vllm:9898/v1-OPENAI_API_KEYhhh6688-WEBUI_SECRET_KEYmy-secretdepends_on:-vllm运行docker-composeup-d步骤 3: 在 Open WebUI 中添加模型访问 Open WebUI 的 Web 界面http://localhost:3000登录后进入Settings → Model Provider。选择OpenAI作为提供商。填写Model Name: 任意名称如Llama-3-8B-vLLMAPI Base URL:http://vllm:8000/v1或你的 vLLM 地址API Key:EMPTY保存后在聊天界面选择该模型即可使用。验证是否成功检查 vLLM 日志dockerlogs vllm-server出现类似日志表示请求成功INFO: 127.0.0.1:12345 - POST /v1/chat/completions HTTP/1.1 200 OK在 Open WebUI 中发送测试消息观察响应速度和输出内容。常见问题解决连接失败确保OPENAI_API_BASE_URL正确一般为http://vllm-ip:8000/v1。如果使用 Docker确保容器在同一网络或通过--link连接。GPU 资源不足减少--tensor-parallel-size如从2改为1。使用量化模型如--quantization awq。模型加载失败检查模型路径是否正确HuggingFace 模型需提前下载或确认有访问权限。使用离线模型时挂载本地目录dockerrun-v/path/to/models:/models vllm/vllm-openai:latest--model/models/llama-3-8bOpen WebUI 无法识别模型在Model Provider中检查是否选择OpenAI类型。确保OPENAI_API_KEY设置为EMPTYvLLM 无需密钥。性能优化建议批处理启动 vLLM 时添加--max-num-batched-tokens 4096提高吞吐量。量化添加--quantization awq减少显存占用需模型支持。多 GPU增加--tensor-parallel-size加速推理。通过以上步骤即可将 vLLM 的高性能推理能力无缝集成到 Open WebUI 的交互界面中。

更多文章

前端开发 2026/4/16 17:01:18

ICMPv6：IPv6网络中的“信使”与“管家”

1. ICMPv6：IPv6网络的智能管家第一次接触IPv6网络时，我被它复杂的地址配置搞得晕头转向。直到发现ICMPv6这个"隐形管家"，整个网络突然变得井然有序。想象一下，当你搬进新小区时，既没有物业管家帮你协调邻居…

张开发

前端开发 2026/4/16 16:57:45

信创服务器踩坑记：Hygon C86 + Tesla T4在OpenStack里直通，一台成功一台失败，问题出在哪？

信创环境GPU直通实战：海光C86平台双机异构问题深度解析当我们在信创环境中部署GPU虚拟化时，经常会遇到"看似相同的配置，结果却截然不同"的情况。最近在Hygon C86平台上部署Tesla T4直通时就遇到了这样的典型案例——两台硬件配置几…

张开发

前端开发 2026/4/16 16:57:45

如何向中国独立开发者项目列表提交项目：完整贡献指南

如何向中国独立开发者项目列表提交项目：完整贡献指南【免费下载链接】chinese-independent-developer 👩🏿‍💻👨🏾‍💻👩🏼‍💻👨🏽…

张开发

前端开发 2026/4/16 16:56:44

深入中科蓝讯蓝牙音频SDK：详解bsp_change_volume函数与数字/模拟音量调节策略

深入解析中科蓝讯蓝牙音频SDK的音量控制架构在蓝牙音频设备开发中，音量调节看似简单，实则暗藏玄机。中科蓝讯530X/532X系列芯片的音量控制系统采用了数字与模拟双路径调节的设计哲学，为开发者提供了灵活的音质调控手段。本文将深入剖析bsp_c…

张开发

前端开发 2026/4/16 16:56:44

从DesignWare到GTECH网表：聊聊Synopsys DC和FPGA工具里的那些‘IP库’

从DesignWare到GTECH网表：深度解析IP库集成实战指南在数字芯片设计流程中，IP库的高效利用往往决定着项目成败。想象这样一个场景：当你需要在28nm工艺上实现一个高性能DSP模块，DesignWare中的流水线乘法器能节省你三个月开发时间&…

张开发

前端开发 2026/4/16 16:56:38

RepDistiller扩展开发：如何快速自定义新的知识蒸馏方法

RepDistiller扩展开发：如何快速自定义新的知识蒸馏方法【免费下载链接】RepDistiller [ICLR 2020] Contrastive Representation Distillation (CRD), and benchmark of recent knowledge distillation methods 项目地址: https://gitcode.com/gh_mirrors/re/RepD…

张开发

前端开发 2026/4/16 16:55:50

DPABI新手避坑指南：从DICOM到NIFTI，我的fMRI预处理血泪史（附MATLAB 2018a配置）

DPABI实战避坑手册：从DICOM到标准空间的完整预处理指南第一次打开DPABI时，面对密密麻麻的参数选项和突如其来的报错提示，那种手足无措的感觉我至今记忆犹新。作为功能磁共振成像（fMRI）研究领域广泛使用的分析工具包&a…

张开发

前端开发 2026/4/16 16:53:18

终极指南：如何优化Theatre动画在移动设备上的性能表现

终极指南：如何优化Theatre动画在移动设备上的性能表现【免费下载链接】theatre Motion design editor for the web 项目地址: https://gitcode.com/gh_mirrors/th/theatre Theatre作为一款强大的Web动画设计工具（Motion design editor for the w…

张开发

前端开发 2026/4/16 16:49:16

收藏！2026 IT就业寒冬破局：程序员+小白必学大模型，逆袭不焦虑

最近，海外博主Matt发布长文《Panic! at the Job Market》，深度拆解了当前全球IT就业市场的真实困境。文中以美国就业数据为核心样本，但其揭示的行业痛点却极具普适性——受全球经济波动、技术迭代双重影响，无论海外还是国内&#…

张开发

前端开发 2026/4/16 16:47:39

网盘直链下载助手深度解析：八大平台API架构设计与性能优化实战

网盘直链下载助手深度解析：八大平台API架构设计与性能优化实战【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘…

张开发

前端开发 2026/4/16 16:37:03

BERTopic跨语言主题对齐终极指南：多语言文本的智能语义映射

BERTopic跨语言主题对齐终极指南：多语言文本的智能语义映射 BERTopic是当前最强大的跨语言主题建模工具，能够智能识别并对齐多语言语义，让您轻松处理包含多种语言的文档集合。无论您的数据是英文、中文、法文还是50多种其他语言，…

张开发

前端开发 2026/4/16 16:27:59

LongCat-Image-Editn实战教程：结合Meituan LongCat系列模型的上下游协同

LongCat-Image-Editn实战教程：结合Meituan LongCat系列模型的上下游协同 1. 开篇：认识这个强大的图片编辑神器你有没有遇到过这样的情况：拍了一张不错的照片，但总觉得哪里不太对劲？可能是背景太杂乱，或者…

张开发

vLLM（3）vllm在线启动集成openweb-ui

最新文章

Python+KEPServerEX6实战：5分钟搞定PLC数据采集（附避坑指南）

无涯教程-JavaScript - 深入理解 has() 方法：从 WeakSet 到集合成员检测

从空洞卷积到多尺度融合：DeepLabv3+架构的演进与实战解析

C#类型转换实战：从隐式到显式，掌握Convert、Parse与TryParse的抉择

改进DH建模实战指南：从串联机械臂到复杂结构

基于STM32LXXX的模数转换芯片ADC（CS1238-SOP14）驱动C程序设计

推荐文章

Spring with AI (): 定制对话——Prompt模板引入技

【AI原生研发灰度发布黄金法则】：20年架构师亲授7步闭环策略，规避92%的线上事故风险

PS3游戏更新下载器完整指南：如何轻松获取官方游戏补丁

别再手动除草了！用Python+OpenCV部署一个田间杂草实时检测系统

YOLO 系列：YOLOv8 引入 DyHead 动态检测头，统一目标检测与旋转框检测

21天机器学习核心算法学习计划（量化方向）

相关文章

别再让PDF图片丢失了！Dify二次开发实战：优化知识库的图文混合检索能力

热点 | Harness 架构深度解析：AI智能体编排框架的核心原理

【Python时序预测实战】融合LSTM与Transformer：从模型构建到单变量预测全流程解析

MySQL分区表实战：从原理到高效数据管理

CSRankings区域筛选功能深度解析：如何找到全球最佳CS研究机构

OpCore-Simplify：让开源系统硬件适配从8小时到30分钟的技术革命

分享文章

更多文章

ICMPv6：IPv6网络中的“信使”与“管家”

信创服务器踩坑记：Hygon C86 + Tesla T4在OpenStack里直通，一台成功一台失败，问题出在哪？

如何向中国独立开发者项目列表提交项目：完整贡献指南

深入中科蓝讯蓝牙音频SDK：详解bsp_change_volume函数与数字/模拟音量调节策略

从DesignWare到GTECH网表：聊聊Synopsys DC和FPGA工具里的那些‘IP库’

RepDistiller扩展开发：如何快速自定义新的知识蒸馏方法

DPABI新手避坑指南：从DICOM到NIFTI，我的fMRI预处理血泪史（附MATLAB 2018a配置）

终极指南：如何优化Theatre动画在移动设备上的性能表现

收藏！2026 IT就业寒冬破局：程序员+小白必学大模型，逆袭不焦虑

网盘直链下载助手深度解析：八大平台API架构设计与性能优化实战

BERTopic跨语言主题对齐终极指南：多语言文本的智能语义映射

LongCat-Image-Editn实战教程：结合Meituan LongCat系列模型的上下游协同