lch
发布于 2026-04-30 / 0 阅读
0

HappyHorse-1.0中文文生视频国内第二 | 综合能力扎实,人物刻画给力!

示例中,鹦鹉的羽毛细节、色彩与动态展示都还原得十分真实

提示词:在视频中,完整呈现一只成年金刚鹦鹉的外观。画面中,鹦鹉头部和颈部羽毛浓烈鲜红,背部羽毛以亮蓝为主自然融入绿色渐变边缘,腹部羽毛温柔呈现金黄色;黑色弯曲喙部边缘锋利分明,灰色爪子整齐展示两前两后对生的脚趾,左眼周围裸露出白色皮肤并刻有细微纹路。

HappyHorse-1.0-T2V生成


    4月27日晚间阿里巴巴正式官宣推出全新视频生成模型 ——HappyHorse-1.0

    为全面验证其文生视频能力表现,SuperCLUE团队基于SuperCLUE-T2V文生视频基准开展专项测评。结果证明,HappyHorse-1.0-T2V在各项核心维度表现突出,综合实力稳居前列,斩获中文原生文生视频模型国内第二以下为详细测评结果解读。

「过往文章介绍

1.【Kling-v3补测文章可灵3.0文生视频测评结果发布 | 要素搭建能力领跑,稳居国产第二!

2.【Doubao-Seedance-2.0补测文章字节Seedance 2.0强势登顶 | 让AI导演为你的创意灵感添砖加瓦!

3.【2026年2月文生视频测评文章2月「文生视频」大模型测评榜单最新发布:Veo3.1夺冠,Vidu Q3紧追其后,国内模型蓬勃发展!


HappyHorse-1.0-T2V体验地址 (阿里云百炼平台) 

https://bailian.console.aliyun.com/cn-beijing/?spm=5176.29597918.J_CNDPSQ8SFKWB4aef8i6I.1.2415133c0kLKj4&tab=model#/model-market/detail/happyhorse-1.0-t2v?serviceSite=asia-pacific-china

* 图生视频(HaapyHorse-1.0-I2V)、参考生视频(HaapyHorse-1.0-R2V)也可在阿里云百炼平台上体验。

# SuperCLUE-T2V榜单

# 分榜(左右滑动查看明细)
# 国内外头部模型对比

榜单地址:www.superclueai.com

# 模型特点

1.人物刻画精准,动作呈现自然流畅且符合物理规律。
场景应用69.36分[国内第二,稳居全球前三],世界模拟(79.20)、影视素材(65.49)、应用设计(71.91)均位列前三,应用能力扎实。
可高精度刻画人物五官、毛发纹理,全程保持高清质感与形体结构一致性,遵循现实物理法则还原人物动态交互,动作衔接自然流畅、过渡顺滑。
示例中,精准模拟了厚重织物的物理垂坠感与稳定步伐;在特写镜头下,人物细腻生动的五官肤质、天鹅绒的哑光纹理以及金线刺绣的光泽均得到高保真还原。

提示词:在意大利佛罗伦萨古城的石板街道上,一位文艺复兴时期的贵族女性正缓步走向街角露天咖啡馆。她头戴黑色天鹅绒发网,精致的发髻间插着闪耀的珍珠发簪;面部特写展现出白皙肤色与红润唇色,透露出端庄与优雅。她身穿束腰的深红色丝绒长裙,袖口呈喇叭状,边缘绣有精细的金线花纹,特写刻画出丝绒的光泽和刺绣的精致细节;外披貂皮披肩,领口处隐约露出洁白的亚麻衬衣。

场景应用—世界模拟


2.通用能力扎实,画质与场景渲染位列第一梯队。
通用能力58.15分[国内第二,位列全球前三],视频画质渲染(81.55)、要素搭建能力(56.52)位列前三,底层生成能力强悍。
拥有极其成熟的综合生成基底,可稳定输出具有高保真视觉、色彩饱满且光影细腻的高清画面,精准还原多主体与背景的和谐布局。
示例中,画面不仅精准还原了饱经风霜的木质渔船与宽木板码头的真实粗糙肌理,水波的真实感,光影与材质的完美交融,展现出海港的静谧氛围与真实感。

提示词:画面展示一艘木质渔船停泊在海边码头上,渔船船头朝向画面左侧。码头由宽木板构成。码头尽头右侧矗立着一座白色灯塔,高度为渔船桅杆的两倍,塔顶红灯正缓慢旋转。

通用能力—要素搭建


# 模型对比分析
1.阿里系列能力跃升,多项核心场景生成能力增强。
与阿里系列文生视频模型的对比中,HappyHorse-1.0-T2V展现出全面领先的迭代实力:在世界模拟(79.20)、应用设计(71.91)、影视素材(65.49)等核心应用场景领先10-20分展现出更成熟、更具商业实用价值的文生视频创作能力。

模型对比示例

【测评维度】:场景应用—影视素材

【提示词】:未来都市中,活体珊瑚状建筑覆着闪烁的发光菌膜,映射出呼吸般跳动的光影;市民背部镶嵌着机械翅翼,翼端与血管状线路交织;空中漂浮的硅基水母状飞行器喷出修复大气的微孢。


2.跻身全球顶尖阵营,但动态与文化还原存在短板。

与国内外头部模型的对比中,HappyHorse-1.0-T2V展现出极强的竞争力:要素搭建能力(56.52)相对领先;在视频画质渲染(81.55)、应用设计(71.91)上保持了对Veo-3.1-Generate-Preview的领先。

【不足与缺点】

HappyHorse-1.0-T2V也暴露出两个明显的弱项:

    ① 动态塑造能力较弱(36.40分),大幅落后,说明其在处理复杂、高幅度的人物或物体运动轨迹时,连贯性与张力仍显不足

    ② 中国文化理解较弱(60.83分),被拉开了近10分差距,对本土特定历史意象与文化符号的还原深度仍需加强。

与Seedance 2.0对比(BadCase)

【测评维度】:通用能力—动态塑造能力

【提示词】:陶艺师在陶轮上拉坯,右手拇指按压泥团中心开洞,随后双手配合,一手控制外形,一手提拉高度,泥坯在匀速旋转中逐渐成型。

【测评维度】:场景应用—应用设计

【提示词】:在南极冰原上,身着迷你冰球服的企鹅组成队伍,利用浮冰搭建的简易冰场展开激烈的冰球比赛。队长企鹅用喙巧妙顶起冰球,滑行时肚皮紧贴冰面,溅起细碎冰渣;守门员企鹅挥动翅膀奋力扑救,当冰球撞击冰墙后恰好弹向观众席,吸引好奇海豹探头围观。


# 模型待改进之处
1.仍然存在中文乱码的情况在部分复杂的中文文本生成场景中,仍存在字符编码异常等乱码现象,影响了内容的可读性与专业性。
示例中,大屏上的中文出现了明显的字符扭曲与乱码拼凑问题。

提示词:高端发布厅中,现代感十足的舞台上,CEO手持银白色、巴掌大小且带可折叠支架的便携式投影仪,自信走向中央,背景大屏上醒目展示标语。现场观众用手机实时拍摄。演示环节将投影仪放入帆布背包展示便携性。

场景应用—应用设计


2.提示词理解与现实逻辑偏差面对包含精确数量关系与多重空间约束的复杂提示词时,模型的理解与执行能力有限;部分生成内容与现实世界的物理规律、常识逻辑及事实细节存在不符。
示例中,画面不仅未能实现“每个花盘精确分配两只蜜蜂”的设定,反而出现了蜜蜂数量错乱或元素粘连的情况。

提示词:三朵盛开的向日葵均匀分布在一片翠绿的草地上。每个花盘上都有两只蜜蜂在采蜜。其中一朵向日葵的花茎上悬挂着六颗晶莹露珠

通用能力—要素搭建



3.视频生成抽帧严重,动态稳定性与画面连贯性不足在处理包含复杂自然地貌、丰富纹理细节以及需要长镜头推拉的场景时,视频容易出现突兀的抽帧与卡顿现象,导致高频细节在运动状态下发生形变、闪烁或产生“融化感”。
示例中,镜头推移过程中出现了明显的抽帧问题,导致视觉观感生硬卡顿。由于动态稳定性不足,岩壁、绿色灌木与蕨类植物的细节,在镜头移动时产生了持续的闪烁与纹理扭曲。

提示词:展示中国云南石林的喀斯特地貌奇观。画面中,成片的灰色石灰岩峰林拔地而起,形态各异:有的犹如剑指苍穹,有的似巨象饮水;岩壁上布满纵向裂隙与横向溶痕,展现出独特的岩石纹理质感。石峰间洼地里,绿色灌木与蕨类植物交织生长,一条清澈小溪穿过狭窄石缝,水面精妙倒映出层次分明的峰林轮廓。

场景应用—世界模拟


# 加入社群

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark