GPU运维:大模型简单部署

张开发
2026/4/21 15:14:03 15 分钟阅读

分享文章

GPU运维:大模型简单部署
GPU模型部署结合AUTODL算力云租赁一、先肯定你的流程95%都对✅学术加速配置到.bashrc永久生效正确✅环境路径全放在/root/autodl-tmp/数据盘避开系统盘空间不足超级正确✅模型下载优先用 ModelScope国内快路径正确✅推理引擎vLLM/SGLang 都是目前 SOTA参数合理✅端口转发SSH 隧道转发 Open-WebUI安全且方便二、补充优化细节让流程100%可用1. 学术加速确认执行顺序你写的完全对但第一次配置后必须执行这两步才生效# 1. 把加速命令写入 .bashrcechosource /etc/network_turbo~/.bashrc# 2. 重新加载 shell你写的 exec bash 也对source~/.bashrc2. 虚拟环境简化初始化用-p指定路径创建的虚拟环境不需要conda init直接激活即可更干净# 创建 vllm 环境数据盘conda create-p/root/autodl-tmp/conda/vllmpython3.11-y# 直接激活不用 initconda activate /root/autodl-tmp/conda/vllm# 安装 vllm推荐加个国内源更快pipinstallvllm-ihttps://pypi.tuna.tsinghua.edu.cn/simpleOpen-WebUI 环境同理conda create-p/root/autodl-tmp/conda/open-webuipython3.11-yconda activate /root/autodl-tmp/conda/open-webui pipinstallopen-webui-ihttps://pypi.tuna.tsinghua.edu.cn/simple3. 模型下载优先用 ModelScope比 git clone 快10倍你写的 ModelScope 命令完全正确强烈推荐用这个避开 git-lfs 的网络问题# 先进入数据盘目录cd/root/autodl-tmp/mkdir-pModelscdModels# 下载小的测试版3GB24G显存随便跑modelscope download--modeldeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B--local_dir./DeepSeek-R1-1.5B# 或者下载8B完整版16GB24G显存也能跑modelscope download--modeldeepseek-ai/DeepSeek-R1-0528-Qwen3-8B--local_dir./DeepSeek-R1-8B4. 启动模型补充后台运行断开SSH也不挂你原来的启动命令是前台运行断开SSH就会停必须加nohup或tmux后台运行方案AvLLM 启动推荐性能最好# 先激活 vllm 环境conda activate /root/autodl-tmp/conda/vllm# 后台启动用 nohup日志存到 vllm.lognohupvllm serve /root/autodl-tmp/Models/DeepSeek-R1-8B\--served-model-name DeepSeek-R1\--tensor-parallel-size1\--gpu-memory-utilization0.85\--max-model-len32768\# 改成32kDeepSeek-R1支持更长上下文--host127.0.0.1\--port8000\--api-key magedu.com\/root/autodl-tmp/vllm.log21# 查看日志确认启动成功tail-f/root/autodl-tmp/vllm.log方案BSGLang 启动推理速度更快conda activate /root/autodl-tmp/conda/vllm# SGLang也可以用这个环境pipinstallsglang-ihttps://pypi.tuna.tsinghua.edu.cn/simple# 先装SGLangnohuppython-msglang.launch_server\--model/root/autodl-tmp/Models/DeepSeek-R1-8B\--trust-remote-code\--tp1\--host127.0.0.1\--port8000\--served-model-name deepseek-r1\--api-key magedu.com\/root/autodl-tmp/sglang.log215. 启动 Open-WebUI补充启动命令你漏了 Open-WebUI 的启动命令这里补上# 新开一个终端窗口或 tmux 新窗口激活 open-webui 环境conda activate /root/autodl-tmp/conda/open-webui# 后台启动 Open-WebUI默认8080端口nohupopen-webui serve\--host127.0.0.1\--port8080\/root/autodl-tmp/openwebui.log21# 查看日志tail-f/root/autodl-tmp/openwebui.log6. 本地访问 Open-WebUI确认填写内容你写的 SSH 端口转发命令完全正确在你自己的电脑不是AutoDL终端执行# 注意把端口号改成你AutoDL实例的实际端口你例子里是48328ssh-CNg-L8080:127.0.0.1:8080 rootconnect.cqa1.seetacloud.com-p48328然后在你自己的电脑浏览器打开http://127.0.0.1:8080第一次需要注册账号注册后在设置里填API 端点http://127.0.0.1:8000/v1API 密钥magedu.com三、24G显存验证完全没问题你选的24G显存显卡跑这两个模型都完美DeepSeek-R1-1.5BFP16模型权重≈3GB总显存占用≈4GBKV Cache24G显存完全无压力DeepSeek-R1-8BFP16模型权重≈16GB总显存占用≈20GBKV Cache按0.85利用率24G显存刚好够四、最终完美流程总结按这个执行配置学术加速一次配置永久生效创建两个虚拟环境vllm open-webui都放数据盘用 ModelScope 下载模型到/root/autodl-tmp/Models/后台启动 vLLM/SGLang端口8000设API密钥后台启动 Open-WebUI端口8080本地SSH端口转发浏览器访问127.0.0.1:8080你的流程基础非常好只要加上后台运行和Open-WebUI启动命令就是企业级可用的部署方案了需要我帮你写个一键启动脚本吗加粗样式

更多文章