通义千问最新一代多模态大模型 Qwen3.5 已成功适配能 BM1684X 和 BM1688 系列TPU芯片, 2B、4B、9B 三个版本均已适配 ,从预编译 bmodel 可 LLM-TPU(附录链接(4))直接下载使用。本文介绍如何通过 Openclaw + Skill 实现全自动部署—— 不写一行代码,不记一条命令 ,对话即部署。
关于Qwen3.5
Qwen3.5(附录链接(1))是阿里通义实验室推出的新一代多模态大语言模型,主要亮点包括:
- 多模态理解 :原生支持图片和视频输入,可对图像内容进行精细化描述、文字识别、场景理解等
- 创新架构 :采用 Full At te n ti on + Linear Attention 混合架构 ,兼顾理解深度与推理效率
- 多语言支持 :流畅支持超过100种语言
- 丰富的能力矩阵 :文本生成、逻辑推理、视觉分析、代码开发、多语言对话等全面覆盖
- 多版本可选 :提供2B、4B、9B等多种参数规模,满足不同场景需求
相对于上一代Qwen3VL,表现更加优异,如下:
Openclaw + Skill:对话即部署
传统部署流程需要手动拉代码、装依赖、编译扩展、下载模型、写启动脚本……每一步都可能踩坑。而通过Openclaw(附录链接(2))+ Skill,这一切只需 两步 :
第一步:添加 技能
将 qwen3_5-bmodel Skill(附录链接(3))添加到Openclaw:
git
clone
ai
fengbai/skill_hub.git
ln -s
"
$(pwd)
/skill_hub/skills/qwen3_5-bmodel"
~/.Openclaw/skills/qwen3_5-bmodel
第二步:用自然语言描述需求
在 Openclaw 中输入:
帮我在 BM1684X 设备(IP: )上部署 Qwen3.5 多模态模型,启动 Web 服务
将替换为你的 BM1684X 设备实际 IP 地址。
就这么简单。 Openclaw 自动读取 Skill 文档,全程接管:
- 通过 gssh 连接远程边缘盒子
- 拉取 LLM-TPU(附录链接(4))代码,编译 chat.so
- 下载预编译 bmodel(~2.3G)
- 上传 Flask Web 服务,配置 SSE 流式输出
- 建立 端口 转发,本地浏览器直接访问
部署完成后,打开 即可体验图片/视频/文字多模态 问答 :
为什么用 Skill?
Skill 不只是一个部署脚本。它沉淀了 真实踩坑经验 :
|
坑点 |
Skill 中的解决方案 |
|---|---|
| 系统 Python 3.8 无法加载 cpython-310 的 chat.so | 自动使用 Python 3.10 虚拟环境 |
| transforme rs 4.x 不识别 Qwen3.5 model_type | 自动升级到 Transformers >= 5.x |
| config 缺少 processor_config.json 导致 Processor 回退 | 自动补全配置文件 |
| dfss SFTP 模式下载新文件失败 | 自动切换 HTTP 模式 |
| Dash 没有 disown,后台进程被杀 | 使用 setsid 脱离会话 |
| 前端 SSE 流第二轮无法发送 | 正确处理 re ad er. can cel() |
这些经验被结构化地写入 Skill 文档,AI Agent 读取后自动规避, 让你不再重复踩坑 。
完整 Skill 库见 skill_hub(附录链接(5)),已添加多个模型的skill一键部署:
|
技能 |
模型 |
说明 |
|---|---|---|
| qwen3_5-bmodel | Qwen3.5-VL-2B | 多模态图片/视频/文字问答 |
| QWEN3-bmodel | Qwen3-4B | 文本对话 LLM |
| Vila-bmodel | ViLA-1.5-3B | 视觉语言模型 |
| Fu nAS R-bmodel | FunASR | 语音识别 |
| YOLOV5-bmodel | YOLOv5s | 目标检测 |
| ppocr-bmodel | PP-OCRv4 | 文字识别 |
| ByteTr ac k-bmodel | YOLOv5s | 多目标追踪 |
已适配版本
Qwen3.5 的 2B、4B、9B 三个参数版本均已完成适配,INT4 量化预编译 bmodel 可从 LLM-TPU(附录链接(4))直接下载,开箱即用:
|
版本 |
量化方式 |
平台 |
|---|---|---|
| Qwen 3.5-2B | INT4自动回合 W4BF16 | BM1684X / BM1688 |
| Qwen3.5-4B | INT4自动回合 W4BF16 | BM1684X / BM1688 |
| Qwen3.5-9B | INT4自动回合 W4BF16 | BM1684X / BM1688 |
更大参数版本(4B、9B)适合对精度要求更高的场景,用户可根据实际算力和业务需求灵活选择。
性能表现
基于 BM1684X 平台,INT4量化的 Qwen3.5-2B 模型实测表现:
|
指标 |
数值 |
|---|---|
|
首Token延迟(FTL) |
~0.46s(图片输入) / ~0.10s(纯文本) |
|
生成速度(TPS) |
~27.7 tokens/s |
|
视觉编码耗时 |
~0.2s |
以一张768×768图片为例,仅占用约576个Token,高效平衡了图像理解精度与推理速度。
效果展示
下图展示了 Qwen3.5 在BM1684X上运行的实际效果,包括图片理解和纯文本对话:
模型能够对输入图片进行详细的场景描述(床、梳妆台、书架、植物、装饰等元素的精准识别),并在纯文本模式下流畅对话,展现出优秀的多模态理解能力。
应用场景
Qwen3.5在TPU上的适配,为以下场景提供了高性价比的端侧AI方案:
- 智能安防 :实时视频流的场景理解与异常检测
- 智能零售 : 商品 识别、货架分析、顾客行为理解
- 工业质检 :产品外观缺陷检测与分析报告生成
- 智慧文档 :合同、票据、表格等文档的OCR与结构化提取
- 教育科研 :图表解读、论文辅助阅读与多语言翻译
- 边缘智能设备 : 机器人 、 无人机 等 嵌入式 平台的多模态交互
总结
Qwen3.5成功落地算能BM1684X/BM1688平台,标志着国产大模型与国产AI芯片的又一次深度协同。通过 Openclaw + Skill的自动化部署方案, 开发者 可以真正实现 零代码、零门槛 地将前沿多模态AI能力部署到边缘设备中。
- 想要极简体验?用Openclaw + Skill,对话即部署
- 想要深度定制?参考手动部署方式
手动部署方式
如果你更习惯手动操作,也可以按以下步骤部署。
模型编译
通过算能 TPU-MLIR 编译框架,仅需一条命令即可完成模型编译:
llm_convert.py -m Qwen3.5-2B-int4-AutoRound --max_input_length 1024 -s 2048 -c bm1684x --out_dir qwen3.5 --max_
pi
xels 768,768
支持INT4量化(AutoRound/AWQ/GPTQ),在保持模型精度的同时大幅降低显存占用和推理成本。
下载预编译 bmodel
#
BM1684X
python3
-m dfss --url=open@sophgo.com:/ext_model_information/LLM/LLM-TPU/qwen3.5-2b-int4-autoround_w4bf16_seq2048_bm1684x_1dev_dynamic_20260415_111517.bmodel
#
BM1688
python3 -m dfss --url=open@sophgo.com:/ext_model_information/LLM/LLM-TPU/qwen3.5-2b-int4-autoround_w4bf16_seq2048_bm1688_2core_dynamic_20260415_212627.bmodel
Python 运行
访问 LLM-TPU Qwen3_5 目录(附录链接(4)),有 Python 和 C++ 两种 Demo:
pip3 install torchvision transformers qwen_vl_utils
cd python_demo
mkdir build && cd build && cmake .. && make && cp *cpython* .. && cd ..
python3 pipeline.py -m your_model.bmodel -c config
C++ 运行
cd cpp_demo
mkdir build && cd build && cmake .. && make && cp pipeline .. && cd ..
./pipeline -m your_model.bmodel -c config
适配与验证日期:2026年4月16日
附录
链接汇总
|
编号 |
地址 |
|---|---|
|
(1) |
|
|
(2) |
|
|
(3) |
|
|
(4) |
|
|
(5) |
-
skill
skill+关注
关注
0文章
17浏览量
12186 -
大模型
大模型+关注
关注
2文章
3777浏览量
5273 -
OpenClaw
OpenClaw+关注
关注
0文章
41浏览量
21