千问3-8B 私有化部署方案（sglang方式启动）

张开发

• 2026/4/14 14:20:46 • 15 分钟阅读

分享文章

一、环境准备组件推荐版本说明Python3.11.x你当前环境已用 3.11完全适配CUDA12.4服务器最高支持版本直接用PyTorch (torch)2.4.1SGLang 0.4.x 官方稳定兼容版SGLang0.4.6.post1与 torch 2.4.1 完美配对支持 Qwen3-8BcuDNN9.1.0.70适配 CUDA 12.4 torch 2.4.11. 进入服务器先更新基础依赖aptupdateaptinstall-ygitgit-lfsgitlfsinstall2. 安装 Python 依赖sglang 推理框架pipinstall-Upip pipinstallsglang[all]0.4.6.post1--default-timeout300或者 pipinstall-Usglang --default-timeout1000或者 pipinstallsglang-U--index-url https://pypi.org/simple --default-timeout300pipinstalltorch torchvision torchaudio--upgrade二、下载千问3-8B 模型创建模型目录mkdir-p/hy-tmp/models/Qwencd/hy-tmp/models/Qwen下载模型#魔搭社区 (ModelScope) —— 国内用户首选#这是阿里云提供的国内镜像站下载体验最好速度最快。#模型主页https://modelscope.cn/models/Qwen/Qwen3-8B#命令行下载 (推荐)#先安装依赖库pipinstallmodelscope modelscope download--modelQwen/Qwen3-8B--local_dir/hy-tmp/models/Qwen/Qwen3-8B下载完成后模型路径/hy-tmp/models/Qwen/Qwen3-8B-Instruct三、启动模型服务sglang 高性能推理sglang serve\--model-path /hy-tmp/models/Qwen/Qwen3-8B\--served-model-name qwen3-8b\--context-length8192\--trust-remote-code\--host0.0.0.0\--port8080\--mem-fraction-static0.85nohupsglang serve\--model-path /hy-tmp/models/Qwen/Qwen3-8B\--served-model-name qwen3-8b\--context-length8192\--trust-remote-code\--host0.0.0.0\--port8080\--mem-fraction-static0.85sglang.log21# 1. 设置环境变量exportSGLANG_API_KEYsk-123456789abcdefghijklmnopqrstuvwxyz#重新启动四、验证服务是否启动成功浏览器/ curl 访问curlhttp://localhost:8080/v1/models返回如下说明成功{data:[{id:qwen3-8b,object:model,created:...}]}五可能出现的问题5.1 缺少系统库 libnuma报错ootI2804f44a0803101755:/hy-tmp/models/Qwen# sglang serve --model-path /hy-tmp/models/Qwen/Qwen3-8B --served-model-name qwen3-8b --context-length 8192 --trust-remote-code --host 0.0.0.0 --port 8080 --mem-fraction-static 0.85Traceback(most recent call last):File/usr/local/bin/sglang,line8,inmodulesys.exit(main())^^^^^^File/usr/local/lib/python3.11/dist-packages/sglang/cli/main.py,line40,inmain serve(args,extra_argv)File/usr/local/lib/python3.11/dist-packages/sglang/cli/serve.py,line122,inserve server_argsprepare_server_args(dispatch_argv)^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^File/usr/local/lib/python3.11/dist-packages/sglang/srt/server_args.py,line6539,inprepare_server_argsreturnServerArgs.from_cli_args(raw_args)^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^File/usr/local/lib/python3.11/dist-packages/sglang/srt/server_args.py,line5975,infrom_cli_argsreturncls(**{attr:getattr(args,attr)forattrinattrs})^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^Filestring,line352,in__init__ File/usr/local/lib/python3.11/dist-packages/sglang/srt/server_args.py,line778,in__post_init__ self._handle_piecewise_cuda_graph()File/usr/local/lib/python3.11/dist-packages/sglang/srt/server_args.py,line1086,in_handle_piecewise_cuda_graphifself.get_model_config().is_piecewise_cuda_graph_disabled_model:^^^^^^^^^^^^^^^^^^^^^^^File/usr/local/lib/python3.11/dist-packages/sglang/srt/server_args.py,line6021,inget_model_configfromsglang.srt.configs.model_configimportModelConfig File/usr/local/lib/python3.11/dist-packages/sglang/srt/configs/model_config.py,line27,inmodulefromsglang.srt.layers.quantizationimportQUANTIZATION_METHODS File/usr/local/lib/python3.11/dist-packages/sglang/srt/layers/quantization/__init__.py,line19,inmodulefromsglang.srt.layers.quantization.auto_roundimportAutoRoundConfig File/usr/local/lib/python3.11/dist-packages/sglang/srt/layers/quantization/auto_round.py,line12,inmodulefromsglang.srt.layers.quantization.utilsimportget_scalar_types File/usr/local/lib/python3.11/dist-packages/sglang/srt/layers/quantization/utils.py,line13,inmodulefromsglang.srt.layers.quantization.fp8_kernelimportscaled_fp8_quant File/usr/local/lib/python3.11/dist-packages/sglang/srt/layers/quantization/fp8_kernel.py,line55,inmodulefromsgl_kernelimportsgl_per_token_quant_fp8 File/usr/local/lib/python3.11/dist-packages/sgl_kernel/__init__.py,line6,inmodulecommon_ops_load_architecture_specific_ops()^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^File/usr/local/lib/python3.11/dist-packages/sgl_kernel/load_utils.py,line197,in_load_architecture_specific_opsraiseImportError(error_msg)ImportError:[sgl_kernel]CRITICAL:Couldnotloadanycommon_ops library! Attempted locations:1.Architecture-specific pattern:/usr/local/lib/python3.11/dist-packages/sgl_kernel/sm100/common_ops.*-found files:[/usr/local/lib/python3.11/dist-packages/sgl_kernel/sm100/common_ops.abi3.so]2.Fallback pattern:/usr/local/lib/python3.11/dist-packages/sgl_kernel/common_ops.*-found files:[]3.Standard Pythonimport:common_ops-failed GPU Info:-Compute capability:75-Expected variant:SM75(precise mathforcompatibility)-CUDA version:12.8Please ensure sgl_kernelisproperly installedwith:pip install--upgrade sglang-kernel Error detailsfrompreviousimportattempts:-ImportError:libnuma.so.1:cannotopensharedobjectfile:No suchfileordirectory-ModuleNotFoundError:No module namedcommon_opsrootI2804f44a0803101755:/hy-tmp/models/Qwen#修复aptupdateaptinstall-ylibnuma-dev

更多文章

前端开发 2026/4/14 14:16:13

tao-8k农业技术推广：农技手册长文本嵌入+农户问题语义解答

tao-8k农业技术推广：农技手册长文本嵌入农户问题语义解答 1. 项目背景与价值在农业技术推广工作中，我们经常面临这样的困境：厚厚的农技手册内容详实，但农户很难快速找到自己问题的答案；技术人员掌握专业知识&#x…

通达信缠论分析插件终极指南：5分钟告别复杂技术分析【免费下载链接】Indicator 通达信缠论可视化分析插件项目地址: https://gitcode.com/gh_mirrors/ind/Indicator 还在为复杂的缠论分析而头疼吗？想要在通达信软件中轻松识别分型、笔、线段等关…

张开发

前端开发 2026/4/14 14:02:36

百度云DeepSeek一体机：百舸、千帆与一见的应用场景与技术优势解析

1. 百度云DeepSeek一体机家族概览第一次接触百度云DeepSeek一体机时，我就被这个"三兄弟"的差异化定位惊艳到了。百舸、千帆、一见这三款产品虽然同属DeepSeek系列，但就像三个性格迥异的技术专家，各自在AI落地的不同环节发挥着独特…

张开发

千问3-8B 私有化部署方案（sglang方式启动）

最新文章

2026最新！亲测整理8款会议纪要实用神器，免费好用到哭，职场办公效率必备！

量化投资实战：揭秘阿尔法因子构建的五大关键步骤与优化策略

new与malloc区别

缠论量化分析插件：通达信终极实战指南与免费完整教程

拒绝“传话游戏”！DenseNet 如何让神经网络开启“群聊”模式

智能游戏助手：OnmyojiAutoScript如何彻底改变你的阴阳师游戏体验

推荐文章

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

从NUSTCTF Ezjava1看Java Web参数绑定与条件竞争漏洞挖掘

SITS2026现场直击：LLM-native NLP架构设计原则（含可复用的5层抽象模型图谱）

AHT20温湿度传感器库深度解析与工业级应用实践

Rust的引用计数智能指针Rc与Arc在线程共享中的内部可变性

libhv实战：从零构建一个功能完备的HTTP客户端

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

tao-8k农业技术推广：农技手册长文本嵌入+农户问题语义解答

如何在Chrome浏览器中一键实现多窗口分屏布局？Tab-Resize分屏扩展使用指南

Kubernetes Pod 调度算法详解

Markdown图片大小调整保姆级指南：从基础语法到高级技巧（解决图片过大或过小问题）

HBase启动故障排查：Master is initializing的深度解析与解决方案

AI Agent方向读博有意义吗：科研vs工业

别再只优化模型！AIAgent架构成本优化的终极盲区：状态管理、重试策略与超时熔断的协同降本公式

ACPL-W480-500E，具有8mm爬电距离与施密特触发器的高隔离光耦

如何在Mac上实现完美桌面歌词同步：LyricsX免费开源解决方案

CompressO：一站式解决视频存储难题的智能压缩方案

通达信缠论分析插件终极指南：5分钟告别复杂技术分析

百度云DeepSeek一体机：百舸、千帆与一见的应用场景与技术优势解析