agent/users/jojo/data/conversations/conv_20251114_135243_851.json
2025-11-14 16:44:12 +08:00

88 lines
32 KiB
JSON
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{
"id": "conv_20251114_135243_851",
"title": "如何使用vllm在linux系统部署qwen3-7给出详细步骤",
"created_at": "2025-11-14T13:52:43.851769",
"updated_at": "2025-11-14T14:07:55.506448",
"messages": [
{
"role": "user",
"content": "如何使用vllm在linux系统部署qwen3-7给出详细步骤",
"timestamp": "2025-11-14T13:53:17.701893"
},
{
"role": "assistant",
"content": "我来帮你搜索一下在Linux系统上使用vLLM部署Qwen3-7B模型的详细步骤。",
"timestamp": "2025-11-14T13:53:25.586650"
},
{
"role": "assistant",
"content": "",
"timestamp": "2025-11-14T13:53:25.605687",
"tool_calls": [
{
"id": "web_search:0",
"index": 0,
"type": "function",
"function": {
"name": "web_search",
"arguments": "{\"query\": \"vLLM Linux部署Qwen3-7B模型详细步骤教程\", \"max_results\": 5}"
}
}
]
},
{
"role": "tool",
"content": "{\"success\": true, \"summary\": \"🔍 搜索查询: vLLM Linux部署Qwen3-7B模型详细步骤教程\\n📅 搜索时间: 2025-11-14T13:53:29.064490\\n🎯 过滤条件: Topic: general\\n\\n📝 AI摘要:\\nTo deploy Qwen3-7B using vLLM on Linux, install vLLM, download the Qwen3 model, and run it with the vLLM server. Adjust max_seq_len to fit your GPU memory.\\n\\n---\\n\\n📊 搜索结果:\\n\\n1. 45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务- GPUStack\\n 🔗 https://www.cnblogs.com/gpustack/p/18854012\\n 📄 访问 模型 菜单,选择部署模型 - ModelScope在 ModelScope 中搜索 Qwen 官方的 Qwen3 模型仓库,我们的 GPU 是 NVIDIA A1024G显存。这里我们部署号称能匹敌 Qwen2.5-72B-Instruct 性能的 Qwen3-4B 模型:\\n\\n考虑需要部署生产级的 Qwen3 模型服务,因此使用 vLLM 后端来运行 Qwen3 模型:\\n\\n等待模型下载...\\n\\n2. vLLM - Qwen - Read the Docs\\n 🔗 https://qwen.readthedocs.io/zh-cn/latest/deployment/vllm.html\\n 📄 Skip to content\\n\\nBack to top \\n\\nView this page\\n\\n# vLLM¶\\n\\n我们建议您在部署 Qwen 时尝试使用 vLLM。它易于使用且具有最先进的服务吞吐量、高效的注意力键值内存管理通过PagedAttention实现、连续批处理输入请求、优化的CUDA内核等功能。要了解更多关于vLLM的信息请参阅 论文 和 文档。\\n\\n## 环境配置¶\\n\\n默认情况下...\\n\\n3. 手把手教你基于vllm大模型推理框架部署Qwen3-MoE - 知乎专栏\\n 🔗 https://zhuanlan.zhihu.com/p/1902835927396652806\\n 📄 Type: Causal Language Models\\n Training Stage: Pretraining & Post-training\\n Number of Parameters: 235B in total and 22B activated\\n Number of Paramaters (Non-Embedding): 234B\\n Number of Layers: 94\\n Numb...\\n\\n4. Qwen3Omni 使用全攻略在线Demo / Transformers / vLLM / 本地 ...\\n 🔗 https://www.laogou717.com/2025/09/22/AI%20era/Wan/Qwen3-Omni-%E4%BD%BF%E7%94%A8%E5%85%A8%E6%94%BB%E7%95%A5/index.html\\n 📄 | | |\\n --- |\\n| ``` 1 2 3 4 5 ``` | ``` # 建议新建虚拟环境;如已安装 transformers先卸载或直接用新环境 # 建议新建虚拟环境;如已安装 transformers先卸载或直接用新环境pip install \\\"git+ accelerate\\\"git+ install -U qwen-omni-utils # 处理音频/图像/视频# 处理音频/...\\n\\n5. 通过vllm部署qwen3大模型以及基于vLLM 的OpenAI 兼容API 接口 ...\\n 🔗 https://agent.csdn.net/6841203a606a8318e85b98b8.html\\n 📄 > enable-reasoning :启用模型的推理功能,例如逻辑推理、数学推理等,让模型在生成文本时能够进行一定的逻辑思考。\\n> reasoning-parser :指定使用的推理解析器,如 deepseek\\\\_r1用于解析推理过程中的逻辑结构使模型的输出更符合逻辑和预期的格式。\\n>\\n> 其他参数\\n>\\n> verbose :启用详细日志输出,用于调试和了解服务运行过程中的详细信...\", \"filters\": {\"topic\": \"general\"}, \"query\": \"vLLM Linux部署Qwen3-7B模型详细步骤教程\", \"results\": [{\"index\": 1, \"title\": \"45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务- GPUStack\", \"url\": \"https://www.cnblogs.com/gpustack/p/18854012\", \"content\": \"访问 模型 菜单,选择部署模型 - ModelScope在 ModelScope 中搜索 Qwen 官方的 Qwen3 模型仓库,我们的 GPU 是 NVIDIA A1024G显存。这里我们部署号称能匹敌 Qwen2.5-72B-Instruct 性能的 Qwen3-4B 模型:\\n\\n考虑需要部署生产级的 Qwen3 模型服务,因此使用 vLLM 后端来运行 Qwen3 模型:\\n\\n等待模型下载\\n\\n耗时14m\\n\\n等待模型启动完成\\n\\n确认模型正常 Running 后,在试验场测试模型的生成效果:\\n\\n问题测试\\n\\n挑战完成记录时间\\n\\n总耗时43m25s其中包括\\n\\n按照以上步骤我们已经完成在 45 分钟内搭建 GPUStack 模型服务平台并运行生产级的 Qwen3 模型服务。\\n\\n目前 GPUStack 的 vLLM 后端和 llama-box 后端均已支持运行 Qwen3在 Linux、Windows 和 macOS 上均可运行,欢迎体验。 [...] 计时开始:\\n\\n前置准备\\n\\n以下操作环境为一台阿里云 ECS 云主机,操作系统为 Ubuntu 22.04GPU 为 NVIDIA A10操作依赖良好的网络条件。\\n\\n其他操作系统的安装参考每个章节的文档链接。\\n\\n验证当前环境的 NVIDIA GPU 硬件:\\n\\n验证系统已安装 GCC\\n\\n安装 NVIDIA 驱动\\n\\n参考\\n\\n为当前内核安装内核头文件和开发包\\n\\n安装 cuda-keyring 包:\\n\\n安装 NVIDIA 驱动:\\n\\n重启系统\\n\\n重新登录并检查 nvidia-smi 命令可用:\\n\\n耗时3m\\n\\n安装 Docker Engine\\n\\n参考\\n\\n执行以下命令卸载所有冲突的包\\n\\n设置 Docker 的 apt 仓库:\\n\\n安装 Docker\\n\\n检查 docker 命令可用:\\n\\n耗时1m\\n\\n安装 NVIDIA Container Toolkit\\n\\n参考\\n\\n配置 NVIDIA Container Toolkit 的生产仓库:\\n\\n安装 NVIDIA Container Toolkit\\n\\n使用 nvidia-ctk 命令配置容器运行时: [...] GPUStack 是一个100%开源的模型服务平台,支持 Linux、Windows 和 macOS支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群,支持 LLM、多模态、Embedding、Reranker、图像生成、Speech-to-Text 和 Text-to-Speech 模型,支持 vLLM、MindIE、llama-box基于 llama.cpp 与 stable-diffusion.cpp等多种推理引擎与推理引擎多版本并行支持资源自动调度分配、模型故障自动恢复、多机分布式推理、混合异构推理、推理请求负载均衡、资源与模型监控指标观测、国产化支持、用户管理与 API 认证授权等各种企业级特性,提供 OpenAI 兼容 API 无缝接入 Dify、RAGFlow、FastGPT、MaxKB 等各种上层应用框架,是企业建设模型服务平台的理想选择。\\n\\n本篇文章将介绍在一节课 45 分钟内(包括安装和模型下载)搭建 GPUStack 模型服务平台并通过 GPUStack 运行生产级的 Qwen3 模型服务。\", \"score\": 0.84215075, \"published_date\": \"\"}, {\"index\": 2, \"title\": \"vLLM - Qwen - Read the Docs\", \"url\": \"https://qwen.readthedocs.io/zh-cn/latest/deployment/vllm.html\", \"content\": \"Skip to content\\n\\nBack to top \\n\\nView this page\\n\\n# vLLM¶\\n\\n我们建议您在部署 Qwen 时尝试使用 vLLM。它易于使用且具有最先进的服务吞吐量、高效的注意力键值内存管理通过PagedAttention实现、连续批处理输入请求、优化的CUDA内核等功能。要了解更多关于vLLM的信息请参阅 论文 和 文档。\\n\\n## 环境配置¶\\n\\n默认情况下你可以通过 pip 在新环境中安装 `vllm` \\n\\n```\\n \\\"vllm>=0.8.5\\\"\\n```\\n\\n请留意预构建的`vllm`对`torch`和其CUDA版本有强依赖。请查看vLLM官方文档中的注意事项以获取有关安装的帮助。\\n\\n## API 服务¶\\n\\n借助vLLM构建一个与OpenAI API兼容的API服务十分简便该服务可以作为实现OpenAI API协议的服务器进行部署。默认情况下它将在 ` 启动服务器。您可以通过 `--host` 和 `--port` 参数来自定义地址。请按照以下所示运行命令:\\n\\n```\\n \\n``` [...] 在 vLLM 0.8.5 版本中,`enable_thinking=False` 与此功能不兼容。如果需要向 API 传递 `enable_thinking=False`,则应禁用解析思考内容。此问题已在 vLLM 0.9.0 中通过 `qwen3` 思考解析器得到解决。\\n\\n### 解析工具调用¶\\n\\nvLLM 支持将模型生成的工具调用内容解析为结构化消息:\\n\\n```\\n \\n```\\n\\n详细信息请参阅函数调用的指南。\\n\\n### 结构化/JSON输出¶\\n\\nvLLM 支持结构化/JSON 输出。请参照vLLM文档了解 `guided_json` 参数。此外,也建议在系统消息或用户提示中指示模型生成特定格式,避免仅依赖于推理参数配置。\\n\\n### 部署量化模型¶\\n\\nQwen3 提供了两种类型的预量化模型FP8 和 AWQ。\\n\\n部署这些模型的命令与原始模型相同只是名称有所更改\\n\\n```\\n # For FP8 quantized model # For AWQ quantized model \\n```\\n\\n备注 [...] 默认情况下,如果模型未指向有效的本地目录,它将从 Hugging Face Hub 下载模型文件。要从 ModelScope 下载模型,请在运行上述命令之前设置以下内容:\\n\\n```\\n export VLLM_USE_MODELSCOPE = true\\n```\\n\\n对于使用张量并行的分布式推理操作非常简单\\n\\n```\\n 4\\n```\\n\\n上述命令将在 4 块 GPU 上使用张量并行。您应根据需求调整 GPU 的数量。\\n\\n### 基本用法¶\\n\\n然后您可以利用 create chat interface 来与Qwen进行对话\", \"score\": 0.79675186, \"published_date\": \"\"}, {\"index\": 3, \"title\": \"手把手教你基于vllm大模型推理框架部署Qwen3-MoE - 知乎专栏\", \"url\": \"https://zhuanlan.zhihu.com/p/1902835927396652806\", \"content\": \"Type: Causal Language Models\\n Training Stage: Pretraining & Post-training\\n Number of Parameters: 235B in total and 22B activated\\n Number of Paramaters (Non-Embedding): 234B\\n Number of Layers: 94\\n Number of Attention Heads (GQA): 64 for Q and 4 for KV\\n Number of Experts: 128\\n Number of Activated Experts: 8\\n Context Length: 32,768 natively and 131,072 tokens with YaRN.\\n\\n## 环境setup\\n\\n有很多种方式1.源码编译安装 2.官方wheel文件的安装 3.使用官方release的docker\\n\\n一般情况下如果不是开发者只是使用者那么采取第3种方式即可如果是开发者那么源码编译安装是必需的本文采取第3种方式 [...] ### docker镜像选择和启动\\n\\n docker镜像选择vllm一般会把各个release版本的稳定docker镜像上传到dockerhub在dockerhub搜索vllm即可查到本文采取的docker镜像为``vllm/vllm-openai:0.8.5.post1``\\n docker容器启动dockerhub里的vllm镜像最后一个命令为ENTRYPOINT意味着docker启动的同时会运行的命令所以这个vllm镜像启动的同时会启动openai server因为我们部署的是Qwen3-235B-A22B所以我们需要在命令行指定该model否则默认部署的是opt-125M。此外指定tp为8使用8卡来部署。4卡也可只要装得下参数且能有余量保存足够的kv cache就行\\n\\ntips如果不想docker启动的同时运行某个命令可以在命令行添加--entrypoint /bin/bash这样的话启动docker即直接进入命令行不会自动启动server部署Qwen3模型如下图\\n\\n### 启动server&log解析 [...] 首次部署该模型时会去huggingface下载而后缓存到huggingface的默认缓存目录(/root/.cache/huggingface)之后部署时就不用下载而是直接load\\n\\n获取到的有用信息\\n\\n 模型加载完成后每张卡花费了54.9GB这里面不光是weight所占空间还有kv cache等预留空间\\n 为custom allreduce算子注册在cuda graph上的地址便于capture\\n 开始capture cuda graph\\n\\n获取到的有用信息\\n\\n Qwen3在\\n 有如上的很多http GET和POST方法可用\\n Qwen3部署服务的进程号是2126887\\n\\n此时我们的GPU显存占用情况如下聪明的读者或许已经猜出型号但是我还是要为了zzzq打个码\\n\\n由此我们的Qwen3-235B-A22B模型就serving起来了接下来我们只需在客户端发送请求给它处理然后返回给我们就OK了\\n\\n## 客户端请求\\n\\n默认情况下我们没有采用thinking模式发送请求的命令如下可用看到没有任何thinking过程\", \"score\": 0.79675186, \"published_date\": \"\"}, {\"index\": 4, \"title\": \"Qwen3Omni 使用全攻略在线Demo / Transformers / vLLM / 本地 ...\", \"url\": \"https://www.laogou717.com/2025/09/22/AI%20era/Wan/Qwen3-Omni-%E4%BD%BF%E7%94%A8%E5%85%A8%E6%94%BB%E7%95%A5/index.html\", \"content\": \"| | |\\n --- |\\n| ``` 1 2 3 4 5 ``` | ``` # 建议新建虚拟环境;如已安装 transformers先卸载或直接用新环境 # 建议新建虚拟环境;如已安装 transformers先卸载或直接用新环境pip install \\\"git+ accelerate\\\"git+ install -U qwen-omni-utils # 处理音频/图像/视频# 处理音频/图像/视频# 可选FlashAttention 2 以降显存(仅 fp16/bf16硬件需兼容# 可选FlashAttention 2 以降显存(仅 fp16/bf16硬件需兼容pip install -U flash-attn --no-build-isolation ``` |\\n\\n以上步骤均来自官方模型卡“Transformers Usage”段落。(Hugging Face)\\n\\n1. 下载权重(如需离线环境): [...] | | |\\n --- |\\n| ``` 1 2 3 4 5 6 7 ``` | ``` git clone -b qwen3_omni clone cd vllm cdpip install -r requirements/build.txtpip install -r requirements/cuda.txtexport VLLM_PRECOMPILED_WHEEL_LOCATION= exportVLLM_USE_PRECOMPILED=1 pip install -e . -v --no-build-isolationpip install \\\"git+ accelerate qwen-omni-utils -U\\\"git+ ``` |\\n\\n以上命令与限制说明均来自 Qwen3Omni 模型卡“vLLM Usage”。(Hugging Face)\\n\\n1. 代码示例vLLM 推理,含多模态数据装载):模型卡已给出 `LLM(... limit_mm_per_prompt=...)` 的完整示例,可直接复制。(Hugging Face) [...] (完整代码片段与可切换发声人等选项,见模型卡。)(Hugging Face)\\n\\n> 技巧:如暂不需要语音输出,可 `model.disable_talker()` 节省约 10GB 显存;或在 `generate` 时 `return_audio=False`,先拿到更快的文本结果。(Hugging Face)\\n\\n### 方案 BvLLM 高吞吐服务(推荐生产/多并发)\\n\\n适用在线推理服务、与 OpenAI API 兼容接入、批处理吞吐。要点官方模型卡提供了vLLM 用法,当前需从特定分支安装(包含多模态与音频输出支持的改动)。(Hugging Face)\\n\\n1. 安装 vLLM根据模型卡给出的步骤\", \"score\": 0.7823471, \"published_date\": \"\"}, {\"index\": 5, \"title\": \"通过vllm部署qwen3大模型以及基于vLLM 的OpenAI 兼容API 接口 ...\", \"url\": \"https://agent.csdn.net/6841203a606a8318e85b98b8.html\", \"content\": \"> enable-reasoning :启用模型的推理功能,例如逻辑推理、数学推理等,让模型在生成文本时能够进行一定的逻辑思考。\\n> reasoning-parser :指定使用的推理解析器,如 deepseek\\\\_r1用于解析推理过程中的逻辑结构使模型的输出更符合逻辑和预期的格式。\\n>\\n> 其他参数\\n>\\n> verbose :启用详细日志输出,用于调试和了解服务运行过程中的详细信息。\\n> help :显示帮助信息,列出所有可用的命令和参数及其简要说明。 [...] ```\\nfrom import =(= \\\"EMPTY\\\", # vLLM 无需密钥,任意字符串即可 =\\\" # 端口需与启动命令一致)\\n```\\n\\n#### 二、文本生成接口\\n\\n##### 1. 同步文本生成 (`/v1/completions`)\\n\\n适用场景非对话式文本生成如问答、续写\\n\\n```\\n=..(=\\\"模型名称(如 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B\\\", = \\\"输入文本\\\", =0.7, # 控制生成随机性 = 100, # 生成最大长度 = False # 是否流式输出) print(..)\\n```\\n\\n##### 2. 流式文本生成\\n\\n启用流式传输实现逐词返回\\n\\n```\\n=..(= \\\"模型名称\\\", = \\\"输入文本\\\", = True) for in: print(.., = \\\"\\\", = True)\\n```\\n\\n#### 三、对话交互接口 (`/v1/chat/completions`)\\n\\n适用场景多轮对话如聊天机器人\\n\\npython\\n\\n复制 [...] # AI Agent技术社区\\n\\n## 登录社区云\\n\\n### AI Agent技术社区\\n\\n欢迎加入社区\\n\\n欢迎加入社区\\n\\nAI Agent技术社区 通过vllm部署qwen3大模型以及基于 vLLM 的 OpenAI 兼容 API 接口调用方法总结\\n\\n# 通过vllm部署qwen3大模型以及基于 vLLM 的 OpenAI 兼容 API 接口调用方法总结\\n\\n该报错说明KV缓存所需的内存超过了可用的显存KV缓存的计算涉及模型层数、序列长度和批次大小等因素模型默认设置的max\\\\_seq\\\\_len是40960这大大超过了服务器的负载上限应该降低通过调整max\\\\_model\\\\_len参数以减少KV缓存需求。接口必须确认实际加载的模型名称避免因名称不匹配导致404错误。适用场景非对话式文本生成如问答、续写适用场景多轮对话如聊天机器人\\n\\n### Gq.转\\n\\n9049人浏览 · 2025-05-07 15:16:19\\n\\n Gq.转  ·  2025-05-07 15:16:19 发布\\n\\n### 一通过vllm部署qwen3模型。\\n\\n#### 1.安装vllm\", \"score\": 0.767429, \"published_date\": \"\"}], \"total_results\": 5}",
"timestamp": "2025-11-14T13:53:29.069474",
"tool_call_id": "web_search:0",
"name": "web_search"
},
{
"role": "assistant",
"content": "让我搜索更具体的vLLM部署Qwen3-7B的步骤",
"timestamp": "2025-11-14T13:53:38.852999"
},
{
"role": "assistant",
"content": "",
"timestamp": "2025-11-14T13:53:38.875328",
"tool_calls": [
{
"id": "web_search:1",
"index": 0,
"type": "function",
"function": {
"name": "web_search",
"arguments": "{\"max_results\": 3, \"query\": \"\\\"vllm serve\\\" Qwen3-7B 部署命令参数 Linux\"}"
}
}
]
},
{
"role": "tool",
"content": "{\"success\": true, \"summary\": \"🔍 搜索查询: \\\"vllm serve\\\" Qwen3-7B 部署命令参数 Linux\\n📅 搜索时间: 2025-11-14T13:53:47.315634\\n🎯 过滤条件: Topic: general\\n\\n📝 AI摘要:\\nTo deploy Qwen3 with vLLM on Linux, use `vllm serve --model Qwen/Qwen3-1.7B --port 8102`. Set `CUDA_VISIBLE_DEVICES` to specify GPU usage. Adjust `--gpu-memory-utilization` to manage memory.\\n\\n---\\n\\n📊 搜索结果:\\n\\n1. vLLM - Qwen - Read the Docs\\n 🔗 https://qwen.readthedocs.io/zh-cn/latest/deployment/vllm.html\\n 📄 ## 常见问题解答¶\\n\\n 第一个参数是 `--max-model-len` 。我们提供的默认最大位置嵌入(`max_position_embedding`)为 40960 因此服务时的最大长度也是这个值这会导致更高的内存需求。将此值适当减小通常有助于解决OOM问题。\\n 另一个您可以关注的参数是 `--gpu-memory-utilization` 。 vLLM将预分配该参数指定比例的显存。默认...\\n\\n2. 通过vllm部署qwen3大模型以及基于vLLM 的OpenAI 兼容API 接口 ...\\n 🔗 https://agent.csdn.net/6841203a606a8318e85b98b8.html\\n 📄 > 环境变量设置\\n>\\n> `CUDA_VISIBLE_DEVICES=0`:设置环境变量 `CUDA_VISIBLE_DEVICES` 的值为 `0`。这表示只使用系统中编号为 0 的 GPU 来运行 VLLM 服务。如果系统有多个 GPU这个设置可以指定使用特定的 GPU 来执行模型推理任务。\\n>\\n> VLLM 服务启动命令\\n>\\n> `vllm serve`:这是启动 VLLM 服务的命令...\\n\\n3. vLLM 服务器参数| Red Hat AI Inference Server | 3.0\\n 🔗 https://docs.redhat.com/zh-cn/documentation/red_hat_ai_inference_server/3.0/html-single/vllm_server_arguments/index\\n 📄 Copy to Clipboard\\nCopied!\\n\\nToggle word wrap\\nToggle overflow\\n\\n## 第 2 章 vLLM 服务器参数的完整列表 复制链接链接已复制到粘贴板!\\n\\n以下是可与 `vllm serve` 命令一起使用的 vLLM 服务器参数的完整列表。提供了每个服务器参数和默认值的说明。\\n\\n### 2.1. vLLM 服务器参数 复制链接链接已复制到粘贴板!\\n...\", \"filters\": {\"topic\": \"general\"}, \"query\": \"\\\"vllm serve\\\" Qwen3-7B 部署命令参数 Linux\", \"results\": [{\"index\": 1, \"title\": \"vLLM - Qwen - Read the Docs\", \"url\": \"https://qwen.readthedocs.io/zh-cn/latest/deployment/vllm.html\", \"content\": \"## 常见问题解答¶\\n\\n 第一个参数是 `--max-model-len` 。我们提供的默认最大位置嵌入(`max_position_embedding`)为 40960 因此服务时的最大长度也是这个值这会导致更高的内存需求。将此值适当减小通常有助于解决OOM问题。\\n 另一个您可以关注的参数是 `--gpu-memory-utilization` 。 vLLM将预分配该参数指定比例的显存。默认情况下该值为 `0.9`。这也是为什么您发现一个vLLM服务总是占用大量内存的原因。如果你使用了eager模式默认不是您可以将其调高以应对OOM问题。反之vLLM会使用CUDA Graphs而CUDA Graphs会额外占用不受vLLM管理的显存此时您应当尝试降低`--gpu-memory-utilization`。如果还是无法解决,可以尝试`--enforce-eager`(这会影响推理效率)或缩小`--max-model-len`。\\n\\n有关 vLLM 的更多使用指南,请参阅 vLLM 的Qwen3 使用指南。 [...] Skip to content\\n\\nBack to top \\n\\nView this page\\n\\n# vLLM¶\\n\\n我们建议您在部署 Qwen 时尝试使用 vLLM。它易于使用且具有最先进的服务吞吐量、高效的注意力键值内存管理通过PagedAttention实现、连续批处理输入请求、优化的CUDA内核等功能。要了解更多关于vLLM的信息请参阅 论文 和 文档。\\n\\n## 环境配置¶\\n\\n默认情况下你可以通过 pip 在新环境中安装 `vllm` \\n\\n```\\n \\\"vllm>=0.8.5\\\"\\n```\\n\\n请留意预构建的`vllm`对`torch`和其CUDA版本有强依赖。请查看vLLM官方文档中的注意事项以获取有关安装的帮助。\\n\\n## API 服务¶\\n\\n借助vLLM构建一个与OpenAI API兼容的API服务十分简便该服务可以作为实现OpenAI API协议的服务器进行部署。默认情况下它将在 ` 启动服务器。您可以通过 `--host` 和 `--port` 参数来自定义地址。请按照以下所示运行命令:\\n\\n```\\n \\n``` [...] 在 vLLM 0.8.5 版本中,`enable_thinking=False` 与此功能不兼容。如果需要向 API 传递 `enable_thinking=False`,则应禁用解析思考内容。此问题已在 vLLM 0.9.0 中通过 `qwen3` 思考解析器得到解决。\\n\\n### 解析工具调用¶\\n\\nvLLM 支持将模型生成的工具调用内容解析为结构化消息:\\n\\n```\\n \\n```\\n\\n详细信息请参阅函数调用的指南。\\n\\n### 结构化/JSON输出¶\\n\\nvLLM 支持结构化/JSON 输出。请参照vLLM文档了解 `guided_json` 参数。此外,也建议在系统消息或用户提示中指示模型生成特定格式,避免仅依赖于推理参数配置。\\n\\n### 部署量化模型¶\\n\\nQwen3 提供了两种类型的预量化模型FP8 和 AWQ。\\n\\n部署这些模型的命令与原始模型相同只是名称有所更改\\n\\n```\\n # For FP8 quantized model # For AWQ quantized model \\n```\\n\\n备注\", \"score\": 0.7686816, \"published_date\": \"\"}, {\"index\": 2, \"title\": \"通过vllm部署qwen3大模型以及基于vLLM 的OpenAI 兼容API 接口 ...\", \"url\": \"https://agent.csdn.net/6841203a606a8318e85b98b8.html\", \"content\": \"> 环境变量设置\\n>\\n> `CUDA_VISIBLE_DEVICES=0`:设置环境变量 `CUDA_VISIBLE_DEVICES` 的值为 `0`。这表示只使用系统中编号为 0 的 GPU 来运行 VLLM 服务。如果系统有多个 GPU这个设置可以指定使用特定的 GPU 来执行模型推理任务。\\n>\\n> VLLM 服务启动命令\\n>\\n> `vllm serve`:这是启动 VLLM 服务的命令。它会根据后续的参数和选项来加载指定的模型并启动服务。\\n>\\n> 模型路径\\n>\\n> `/home/xugq/qwen3-1.7b/`:指定要加载的模型所在的目录。在这个例子中,模型存放在 `/home/xugq/qwen3-1.7b/` 目录下。VLLM 会从这个路径加载模型文件和相关配置。\\n>\\n> 服务配置参数\\n>\\n> `--port 8102`:指定 VLLM 服务监听的端口号为 8102。客户端可以通过这个端口与服务进行通信。 [...] `VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3-1.7B --enable-reasoning --reasoning-parser deepseek_r1`\\n\\n如果已经将模型下载到本地文件可以指定文件路径启动\\n\\n`CUDA_VISIBLE_DEVICES=0 vllm serve local/qwen3-1.7b/ --port 8888 --gpu-memory-utilization 0.3 --host 0.0.0.0`\\n\\n以下是关于这条命令的详细解释 [...] > enable-reasoning :启用模型的推理功能,例如逻辑推理、数学推理等,让模型在生成文本时能够进行一定的逻辑思考。\\n> reasoning-parser :指定使用的推理解析器,如 deepseek\\\\_r1用于解析推理过程中的逻辑结构使模型的输出更符合逻辑和预期的格式。\\n>\\n> 其他参数\\n>\\n> verbose :启用详细日志输出,用于调试和了解服务运行过程中的详细信息。\\n> help :显示帮助信息,列出所有可用的命令和参数及其简要说明。\", \"score\": 0.75464433, \"published_date\": \"\"}, {\"index\": 3, \"title\": \"vLLM 服务器参数| Red Hat AI Inference Server | 3.0\", \"url\": \"https://docs.redhat.com/zh-cn/documentation/red_hat_ai_inference_server/3.0/html-single/vllm_server_arguments/index\", \"content\": \"Copy to Clipboard\\nCopied!\\n\\nToggle word wrap\\nToggle overflow\\n\\n## 第 2 章 vLLM 服务器参数的完整列表 复制链接链接已复制到粘贴板!\\n\\n以下是可与 `vllm serve` 命令一起使用的 vLLM 服务器参数的完整列表。提供了每个服务器参数和默认值的说明。\\n\\n### 2.1. vLLM 服务器参数 复制链接链接已复制到粘贴板!\\n\\n--model\\n: 要使用的 Hugging Face 模型的名称或路径。\\n\\n 默认值:`facebook/opt-125m`\\n\\n--task\\n: 使用模型的任务。每个 AI Inference 服务器实例只支持一个任务,即使同一模型可用于多个任务。当模型仅支持一个任务时,可以使用 `auto` 来选择它;否则,您必须明确指定要使用的任务。\\n\\n 默认值 `auto`\\n\\n 选项 `auto`,`generate`,`embedding`,`embed`,`classify`,`score`,`reward`,`transcription` [...] ```\\nusage: vllm serve [-h] [--host HOST] [--port PORT]\\n [--uvicorn-log-level {debug,info,warning,error,critical,trace}]\\n [--disable-uvicorn-access-log] [--allow-credentials]\\n [--allowed-origins ALLOWED_ORIGINS]\\n [--allowed-methods ALLOWED_METHODS]\\n [--allowed-headers ALLOWED_HEADERS] [--api-key API_KEY]\\n [--lora-modules LORA_MODULES [LORA_MODULES ...]] [...] ```\\nusage: vllm serve [-h] [--host HOST] [--port PORT]\\n [--uvicorn-log-level {debug,info,warning,error,critical,trace}]\\n [--disable-uvicorn-access-log] [--allow-credentials]\\n [--allowed-origins ALLOWED_ORIGINS]\\n [--allowed-methods ALLOWED_METHODS]\\n [--allowed-headers ALLOWED_HEADERS] [--api-key API_KEY]\\n [--lora-modules LORA_MODULES [LORA_MODULES ...]]\", \"score\": 0.68344116, \"published_date\": \"\"}], \"total_results\": 3}",
"timestamp": "2025-11-14T13:53:47.316973",
"tool_call_id": "web_search:1",
"name": "web_search"
},
{
"role": "assistant",
"content": "基于搜索结果我来为你详细介绍如何在Linux系统上使用vLLM部署Qwen3-7B模型\n\n## 在Linux系统上使用vLLM部署Qwen3-7B的详细步骤\n\n### 1. 环境准备\n\n**系统要求:**\n- Linux系统Ubuntu 20.04+ 推荐)\n- NVIDIA GPU建议至少24GB显存用于7B模型\n- CUDA 11.8+ 和对应的NVIDIA驱动\n\n**安装NVIDIA驱动和CUDA**\n```bash\n# 检查GPU状态\nnvidia-smi\n\n# 安装CUDA如果未安装\nsudo apt update\nsudo apt install nvidia-cuda-toolkit\n```\n\n### 2. 安装vLLM\n\n**创建虚拟环境(推荐):**\n```bash\n# 创建新的Python环境\npython -m venv vllm_env\nsource vllm_env/bin/activate\n```\n\n**安装vLLM**\n```bash\n# 安装vLLM建议使用0.8.5以上版本)\npip install \"vllm>=0.8.5\"\n\n# 或者安装特定版本\npip install vllm==0.8.5\n```\n\n**注意:** vLLM对PyTorch和CUDA版本有强依赖关系请确保版本兼容。\n\n### 3. 模型部署\n\n**基本部署命令:**\n```bash\n# 使用Hugging Face模型库直接部署\nvllm serve Qwen/Qwen3-7B --port 8000 --host 0.0.0.0\n```\n\n**指定GPU部署**\n```bash\n# 只使用第0号GPU\nCUDA_VISIBLE_DEVICES=0 vllm serve Qwen/Qwen3-7B --port 8000\n\n# 使用多个GPU多卡并行\nCUDA_VISIBLE_DEVICES=0,1 vllm serve Qwen/Qwen3-7B --tensor-parallel-size 2 --port 8000\n```\n\n### 4. 内存优化参数\n\n**重要参数配置:**\n```bash\n# 优化内存使用的完整命令\nCUDA_VISIBLE_DEVICES=0 vllm serve Qwen/Qwen3-7B \\\n --port 8000 \\\n --host 0.0.0.0 \\\n --max-model-len 8192 \\\n --gpu-memory-utilization 0.8 \\\n --enforce-eager\n```\n\n**参数说明:**\n- `--max-model-len 8192`减小最大序列长度降低内存需求默认40960太大\n- `--gpu-memory-utilization 0.8`GPU内存使用率根据显存调整\n- `--enforce-eager`禁用CUDA Graphs减少额外显存占用\n- `--tensor-parallel-size`多GPU并行时的GPU数量\n\n### 5. 启用推理模式(可选)\n\n**启用Qwen3的推理功能**\n```bash\n# 启用推理模式\nvllm serve Qwen/Qwen3-7B \\\n --port 8000 \\\n --enable-reasoning \\\n --reasoning-parser deepseek_r1\n```\n\n### 6. 使用ModelScope国内用户\n\n**设置ModelScope源**\n```bash\n# 设置环境变量使用ModelScope\nexport VLLM_USE_MODELSCOPE=true\n\n# 然后从ModelScope部署\nvllm serve qwen/Qwen3-7B --port 8000\n```\n\n### 7. 部署验证\n\n**测试API服务**\n```bash\n# 使用curl测试\ncurl http://localhost:8000/v1/chat/completions \\\n -H \"Content-Type: application/json\" \\\n -d '{\n \"model\": \"Qwen/Qwen3-7B\",\n \"messages\": [{\"role\": \"user\", \"content\": \"Hello, how are you?\"}],\n \"max_tokens\": 100\n }'\n```\n\n**Python客户端测试**\n```python\nfrom openai import OpenAI\n\nclient = OpenAI(\n base_url=\"http://localhost:8000/v1\",\n api_key=\"EMPTY\" # vLLM不需要真实的API密钥\n)\n\nresponse = client.chat.completions.create(\n model=\"Qwen/Qwen3-7B\",\n messages=[{\"role\": \"user\", \"content\": \"Hello, how are you?\"}]\n)\nprint(response.choices[0].message.content)\n```\n\n### 8. 常见问题解决\n\n**内存不足问题:**\n- 降低`--max-model-len`参数\n- 减小`--gpu-memory-utilization`值\n- 添加`--enforce-eager`参数\n- 考虑使用量化模型FP8或AWQ版本\n\n**多GPU部署**\n```bash\n# 4卡并行示例\nCUDA_VISIBLE_DEVICES=0,1,2,3 vllm serve Qwen/Qwen3-7B \\\n --tensor-parallel-size 4 \\\n --port 8000\n```\n\n### 9. 生产环境建议\n\n**使用Docker部署推荐**\n```bash\n# 拉取vLLM镜像\ndocker pull vllm/vllm-openai:latest\n\n# 运行容器\ndocker run --gpus all -p 8000:8000 \\\n -v ~/.cache/huggingface:/root/.cache/huggingface \\\n vllm/vllm-openai:latest \\\n vllm serve Qwen/Qwen3-7B --port 8000 --host 0.0.0.0\n```\n\n**后台运行:**\n```bash\n# 使用nohup后台运行\nnohup vllm serve Qwen/Qwen3-7B --port 8000 --host 0.0.0.0 > vllm.log 2>&1 &\n```\n\n这样你就完成了在Linux系统上使用vLLM部署Qwen3-7B模型的完整流程。根据你的GPU配置和具体需求可以调整相应的参数来优化性能和内存使用。",
"timestamp": "2025-11-14T13:54:19.500334"
}
],
"todo_list": null,
"metadata": {
"project_path": "/opt/agent/agents/users/jojo/project",
"project_relative_path": "users/jojo/project",
"thinking_mode": true,
"total_messages": 8,
"total_tools": 4,
"status": "active"
},
"token_statistics": {
"total_input_tokens": 29055,
"total_output_tokens": 1699,
"updated_at": "2025-11-14T14:07:55.506628"
}
}