拒绝手写代码！Openclaw+Skill一键部署Qwen3.5到算能边缘盒子

通义千问最新一代多模态大模型 Qwen3.5 已成功适配能 BM1684X 和 BM1688 系列TPU芯片， 2B、4B、9B 三个版本均已适配 ，从预编译 bmodel 可 LLM-TPU(附录链接(4))直接下载使用。本文介绍如何通过 Openclaw + Skill 实现全自动部署—— 不写一行代码，不记一条命令 ，对话即部署。

关于Qwen3.5

Qwen3.5（附录链接（1））是阿里通义实验室推出的新一代多模态大语言模型，主要亮点包括：

多模态理解 ：原生支持图片和视频输入，可对图像内容进行精细化描述、文字识别、场景理解等
创新架构 ：采用 Full At te n ti on + Linear Attention 混合架构 ，兼顾理解深度与推理效率
多语言支持 ：流畅支持超过100种语言
丰富的能力矩阵 ：文本生成、逻辑推理、视觉分析、代码开发、多语言对话等全面覆盖
多版本可选 ：提供2B、4B、9B等多种参数规模，满足不同场景需求

相对于上一代Qwen3VL，表现更加优异，如下：

Openclaw + Skill：对话即部署

传统部署流程需要手动拉代码、装依赖、编译扩展、下载模型、写启动脚本……每一步都可能踩坑。而通过Openclaw（附录链接（2））+ Skill，这一切只需两步：

第一步：添加技能

将 qwen3_5-bmodel Skill（附录链接（3））添加到Openclaw：

git clone ai fengbai/skill_hub.git
ln -s " $(pwd) /skill_hub/skills/qwen3_5-bmodel" ~/.Openclaw/skills/qwen3_5-bmodel

第二步：用自然语言描述需求

在 Openclaw 中输入：

帮我在 BM1684X 设备（IP: ）上部署 Qwen3.5 多模态模型，启动 Web 服务

将替换为你的 BM1684X 设备实际 IP 地址。

就这么简单。 Openclaw 自动读取 Skill 文档，全程接管：

通过 gssh 连接远程边缘盒子
拉取 LLM-TPU（附录链接（4））代码，编译 chat.so
下载预编译 bmodel（~2.3G）
上传 Flask Web 服务，配置 SSE 流式输出
建立端口转发，本地浏览器直接访问

部署完成后，打开即可体验图片/视频/文字多模态问答 :

为什么用 Skill？

Skill 不只是一个部署脚本。它沉淀了 真实踩坑经验 ：

坑点	Skill 中的解决方案
系统 Python 3.8 无法加载 cpython-310 的 chat.so	自动使用 Python 3.10 虚拟环境
transforme rs 4.x 不识别 Qwen3.5 model_type	自动升级到 Transformers >= 5.x
config 缺少 processor_config.json 导致 Processor 回退	自动补全配置文件
dfss SFTP 模式下载新文件失败	自动切换 HTTP 模式
Dash 没有 disown，后台进程被杀	使用 setsid 脱离会话
前端 SSE 流第二轮无法发送	正确处理 re ad er. can cel（）

这些经验被结构化地写入 Skill 文档，AI Agent 读取后自动规避， 让你不再重复踩坑 。

完整 Skill 库见 skill_hub（附录链接（5）），已添加多个模型的skill一键部署：

技能	模型	说明
qwen3_5-bmodel	Qwen3.5-VL-2B	多模态图片/视频/文字问答
QWEN3-bmodel	Qwen3-4B	文本对话 LLM
Vila-bmodel	ViLA-1.5-3B	视觉语言模型
Fu nAS R-bmodel	FunASR	语音识别
YOLOV5-bmodel	YOLOv5s	目标检测
ppocr-bmodel	PP-OCRv4	文字识别
ByteTr ac k-bmodel	YOLOv5s	多目标追踪

已适配版本

Qwen3.5 的 2B、4B、9B 三个参数版本均已完成适配，INT4 量化预编译 bmodel 可从 LLM-TPU（附录链接（4））直接下载，开箱即用：

版本	量化方式	平台
Qwen 3.5-2B	INT4自动回合 W4BF16	BM1684X / BM1688
Qwen3.5-4B	INT4自动回合 W4BF16	BM1684X / BM1688
Qwen3.5-9B	INT4自动回合 W4BF16	BM1684X / BM1688

更大参数版本（4B、9B）适合对精度要求更高的场景，用户可根据实际算力和业务需求灵活选择。

性能表现

基于 BM1684X 平台，INT4量化的 Qwen3.5-2B 模型实测表现：

指标	数值
首Token延迟（FTL）	~0.46s（图片输入） / ~0.10s（纯文本）
生成速度（TPS）	~27.7 tokens/s
视觉编码耗时	~0.2s

以一张768×768图片为例，仅占用约576个Token，高效平衡了图像理解精度与推理速度。

效果展示

下图展示了 Qwen3.5 在BM1684X上运行的实际效果，包括图片理解和纯文本对话：

模型能够对输入图片进行详细的场景描述（床、梳妆台、书架、植物、装饰等元素的精准识别），并在纯文本模式下流畅对话，展现出优秀的多模态理解能力。

应用场景

Qwen3.5在TPU上的适配，为以下场景提供了高性价比的端侧AI方案：

智能安防 ：实时视频流的场景理解与异常检测
智能零售 ：商品识别、货架分析、顾客行为理解
工业质检 ：产品外观缺陷检测与分析报告生成
智慧文档 ：合同、票据、表格等文档的OCR与结构化提取
教育科研 ：图表解读、论文辅助阅读与多语言翻译
边缘智能设备 ：机器人、无人机等嵌入式平台的多模态交互

总结

Qwen3.5成功落地算能BM1684X/BM1688平台，标志着国产大模型与国产AI芯片的又一次深度协同。通过 Openclaw + Skill的自动化部署方案，开发者可以真正实现 零代码、零门槛 地将前沿多模态AI能力部署到边缘设备中。

想要极简体验？用Openclaw + Skill，对话即部署
想要深度定制？参考手动部署方式

手动部署方式

如果你更习惯手动操作，也可以按以下步骤部署。

模型编译

通过算能 TPU-MLIR 编译框架，仅需一条命令即可完成模型编译：

llm_convert.py -m Qwen3.5-2B-int4-AutoRound --max_input_length 1024 -s 2048 -c bm1684x --out_dir qwen3.5 --max_ pi xels 768,768

支持INT4量化（AutoRound/AWQ/GPTQ），在保持模型精度的同时大幅降低显存占用和推理成本。

下载预编译 bmodel

# BM1684X
python3 -m dfss --url=open@sophgo.com:/ext_model_information/LLM/LLM-TPU/qwen3.5-2b-int4-autoround_w4bf16_seq2048_bm1684x_1dev_dynamic_20260415_111517.bmodel

# BM1688
python3 -m dfss --url=open@sophgo.com:/ext_model_information/LLM/LLM-TPU/qwen3.5-2b-int4-autoround_w4bf16_seq2048_bm1688_2core_dynamic_20260415_212627.bmodel

Python 运行

访问 LLM-TPU Qwen3_5 目录（附录链接（4）），有 Python 和 C++ 两种 Demo：

pip3 install torchvision transformers qwen_vl_utils
cd python_demo
mkdir build && cd build && cmake .. && make && cp *cpython* .. && cd ..
python3 pipeline.py -m your_model.bmodel -c config

C++ 运行

cd cpp_demo
mkdir build && cd build && cmake .. && make && cp pipeline .. && cd ..
./pipeline -m your_model.bmodel -c config

适配与验证日期：2026年4月16日

附录

链接汇总

编号	地址
（1）
（2）
（3）
（4）
（5）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

skill

skill

+关注

关注
0

文章
17

浏览量
12186
大模型

大模型

+关注

关注
2

文章
3777

浏览量
5273
OpenClaw

OpenClaw

+关注

关注
0

文章
41

浏览量
21

菜单

分享

拒绝手写代码！Openclaw+Skill一键部署Qwen3.5到算能边缘盒子

关于Qwen3.5

Openclaw + Skill：对话即部署

第一步：添加技能

第二步：用自然语言描述需求

在 Openclaw 中输入：

为什么用 Skill？

已适配版本

性能表现

效果展示

应用场景

总结

手动部署方式

模型编译

通过算能 TPU-MLIR 编译框架，仅需一条命令即可完成模型编译：

下载预编译 bmodel

Python 运行

C++ 运行

附录

链接汇总

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业

分享

拒绝手写代码！Openclaw+Skill一键部署Qwen3.5到算能边缘盒子

关于Qwen3.5

Openclaw + Skill：对话即部署

第一步：添加 技能

第二步：用自然语言描述需求

在 Openclaw 中输入：

为什么用 Skill？

已适配版本

性能表现

效果展示

应用场景

总结

手动部署方式

模型编译

通过算能 TPU-MLIR 编译框架，仅需一条命令即可完成模型编译：

下载预编译 bmodel

Python 运行

C++ 运行

附录

链接汇总

第一步：添加技能