|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
8月15日,腾讯混元团队推出了3D世界模型的Lite版本。相较于以往26GB的显存需求,此次通过引入动态FP8(8位浮点格式)量化技术,将显存需求直接降至17GB以下,消费级显卡也能流畅运行。
) f; |" \/ Q: g9 e. }" Q! a7 g O- s+ s( t; a
: ]! W6 v/ ]: ?
此前,腾讯混元3D世界模型的FP32版本虽能完整保留所有细节,但显存占用极高——其参数可能超过十亿个,通常需要配备大容量VRAM的GPU来提升推理速度,因此消费级显卡根本无法支持。
- Y7 V- a/ C6 Q$ z) D4 Q& M$ ]1 k/ i" |: q& I+ {& f6 ?! d s4 p1 }' Y2 P: ]
+ S6 N+ x- _: y6 y- k
简单来说,FP32、FP16、FP8代表不同的「精度等级」。过去采用高精度的FP32技术时,虽能实现极高的精度还原,却会占用大量显存,还可能保留不必要的细节(例如背景的天空贴图等其实并不需要如此精雕细琢)。 # F/ p: h0 b {% Z
% z' o% i$ o4 \1 P
f; }7 W; c) y0 q0 L而此次动态FP8量化技术的核心,在于能实时监测模型运行时的数据分布,并针对不同模块进行动态适配:大部分关键区域采用FP16精度,像上述背景贴图等非关键部分则动态调整为FP8精度。
. @1 M$ ?5 O9 w1 i4 \/ q
9 q5 q, x& `* l& v& u) T, v
& z- ^1 l8 f9 j1 T8 g+ T这一技术大幅降低了显存占用,虽然在部分区域适当降低了精度,却让个人玩家也能轻松使用3D世界模型。
, I$ Y0 I4 F; h' d, R% j& S J
- r2 D/ B/ M: l/ p# ~0 ~8 k
1 _3 g+ |- s, w- O1 d( s3 R2 ]1 B腾讯混元3D重塑3D建模流程
& f: Z; b5 F& z- E7 a! p7 |4 }9 B
. C, D" j7 ~% }6 t6 \9 M+ m; s9 p! C1 |/ z' M$ u; G" a
1 g6 E5 P0 t- `腾讯混元 3D 世界模型是行业内首个开源可编辑的世界生成模型,能根据用户提供的图片或文字信息,直接生成完整、可编辑且可交互的世界模型,可直接应用于游戏开发、特效制作、教育仿真等场景。& X8 J% j# h" d2 _3 S
) I( k$ R9 B' n- @. ^! J4 k( f6 }/ U
: ~2 V( v! Z) @% X( l# }
图源:腾讯混元3D官网 / Q4 L' h% ~2 u6 K7 ]. {
: W6 X5 d+ }) D) \, |
* k# P9 L8 C# D: H- T/ z# j+ ?8 Y与腾讯混元模型此前的 3D 模型 AI 生成功能相比,此次推出的 3D 世界模型生成的内容更为丰富,涵盖环境风格、室内外场景、光线渲染等多个因素。传统 3D 场景开发耗时极长,仅一个主要建筑物场景就可能耗费数周甚至更久,而这种一键生成式场景所带来的效率提升,完全超出了用户的想象。
2 t# g6 b* e. H5 D3 ?* |, @" Z- ?9 h0 t' M" Z4 ?
. A8 f, N, B+ E+ F6 _那么,面对如此复杂的场景开发,混元 3D 世界模型是如何快速生成 360° 沉浸式视觉空间的呢?
7 E6 J& s# h+ D% |
( J, \! F4 t, D7 q( z/ N, f
0 k/ L r3 _8 S$ J: \( t从混元世界模型 1.0 的模型架构来看,全景世界图像生成技术作为连接文字、图片与世界的统一代理系统,会先生成初始化世界的全景图,从而实现 360° 的全覆盖场景。/ X1 J1 Y, `3 O2 F8 M
: \ p) Q( ]* A; D6 G: l' J![]()
9 y& _3 q4 r, u图源:腾讯混元3D官网 混元世界模型 1.0 的模型架构 # u: J# O0 X. K9 }- \
1 n, q8 y; Z: p' M
" E; I! n2 C$ X$ i. Z随后,系统会将整个 3D 世界解构为不同的清晰层级,例如前景与背景、海洋与地面、地面与天空等,再基于这些层级进行 3D 世界重建,最终形成 3D 世界模型。
, K3 }+ f9 p; i! x; g* `$ w0 v Q* P
9 \. ~% i, o4 ]- d& S5 ]1 T, p" K2 t% H# i; d P1 B, M( [
相较于传统 3D 场景开发中每个细节都需精雕细琢、耗费大量时间和人力资源的情况,这种一键生成式场景不仅能节省大量时间,还能输出标准化的可漫游 3D Mesh 资产,兼容 Unity、Unreal Engine 等工具。2 U% x$ q9 h2 Q4 q- q
' w2 V1 b* M5 v) C5 I
$ [# O9 ^4 {, R- f而且,生成内容的精度已达到可直接使用的水平:前景内的注意力区域细节呈现到位,背景与前景分离度足够,未出现界限不清晰、光影模糊等问题。
) ]3 w# q+ F0 F8 x: U: c9 j
' `% B- I1 s! G* d
2 Z$ e9 T7 j$ ^; Z+ M2 t但在官网体验混元 3D 世界模型后会发现,它无法完全还原文字中的所有要求,只能还原大致的场景需求、光影颜色以及前景区域的细节。 X+ ~' y3 v5 P) d! i2 B- e" [, l/ s
! s$ u4 I6 K: W l* l
1 G- F& x/ R& W6 |) N. L5 N例如,下图对应的文本要求中提到了机械世界、机器人等元素,但这些都未在生成的场景中呈现。系统只是提炼了与构建大体世界场景相关的词汇,如赛博废土风格、天空中红色的落日等,然后分离出前景与背景 —— 将 “废弃的游乐场” 解构为前景内容,红色落日作为背景天空内容,再基于这些层级重建 3D 世界场景,也就是说,它仅还原了场景的大致需求。, Z& n( a8 {0 h& K; D, A
, E5 |$ y4 K, B# `6 d z& ~: ^
$ g4 V! c! t. f, b% Z" s 2 H# t- Z; s1 ]) |$ M5 k& F6 v- w
图源:腾讯混元3D官网
: G" J0 K: C% x
: j x, f' f9 H! B5 }- G; V) ~7 [; a6 p' l( j
能明显看出混元 3D 世界模型目前还无法满足用户的个性化需求,不过已经能做到初步构建出前景、背景以及简单的场景细节,可以在游戏开发等工作中节省不少时间。
3 p% r; W/ f2 Y% d7 t* C* N% M4 ~/ Y& C) E) w* r6 T: c0 q
# G- |" n, X# X4 G( E$ y
此外,这种依照用户要求生成的 3D 世界模型对普通玩家而言也极具可玩性。直接输出 3D Mesh 资产带来了格式的统一和学习成本的降低,当 AI 能够完成场景解构和 3D 构建工作时,用户的主观能动性就成了决定生成场景的唯一变量。
' }7 f* W i" j. T2 t3 C& t0 o7 z3 P5 C. F7 _3 t
+ O, S6 M( s4 W* C! I
3D模型起风了,25年走向平民化?! A, t! T' Y! Y/ }- S; U
) Z" u A: ~8 x1 h7 _5 \- {
8 c7 Y+ ~$ ?% j2 A6 W% M. a- ?/ Z9 c7 v6 V; j
腾讯此次将混元 3D 世界模型普及至消费级显卡,目的十分明确 —— 吸引广大开发者与创作者涌入 “腾讯混元 3D” 生态。该模型支持从 3D 模型到 3D 世界场景的全流程内容生成,用户由此能够创造属于自己的虚拟世界。
! `8 c/ x! a& \; R9 Z! i: P1 x/ i+ U& B1 \& b
当前市面上,支持 3D 模型生成的 AI 大模型不在少数,如 Tripo AI、Meshy AI、GENIE 等。但众多玩家扎堆争抢 3D 化赛道,导致产品功能高度同质化,也侧面反映出 “将现实场景搬进虚拟世界” 已成为各厂商的核心必争功能。; P# [3 f$ q% k/ h) f. T. q
" _, I& g( z) `4 E+ a# `/ x
在这些 AI 工具中,硅谷初创企业 VAST 于 2024 年发布的 AI 3D 基础模型 Tripo AI,凭借独特的产品结构脱颖而出。, }$ z6 Z+ Q6 `9 f
2 Q1 H1 U7 Q# m. O+ E! k3 y
' @/ e% W/ c$ ^8 e/ X与面向更广泛用户的腾讯混元 3D 不同,Tripo AI 的定位更偏向专业创作者:进入页面后,用户可直接通过文字或图片生成 3D 模型,且可调参数相对丰富 —— 不仅支持当前主流 AI 3D 模型均具备的纹理生成功能,还能自动拆分模型部件,让每个拆解后的部件可单独编辑;甚至支持为模型部件绑定基础动画并演示,不过演示过程中偶尔会出现部件变形问题。总体而言,Tripo AI 是一款功能成熟、可适配多场景的 AI 3D 工具。! O) ~' n; q* y( U' P2 I
' _+ C2 z; s% @
5 Z; |3 \0 Q! r( ] / N$ K% p8 ~* l1 r
图源:Tripo AI 8 v1 i3 a5 p6 h% k; z) e2 X) }
$ e- g" v7 N9 a, t( Y, w* X1 T同样在 2024 年推出的 Meshy AI(由国内团队创建),虽然也支持通过文字、图像直接生成 3D 模型,但它的核心优势在于更完善的社区功能:用户可在社区内浏览其他创作者的 3D 模型作品,平台对模型的分类细化清晰,还标注了互动量、点赞数、是否支持 3D 打印等关键信息。这一设计让新手用户能直接下载现成的 3D 模型使用,同时也提升了社区的传播度与活跃度。" v& H4 H) }. q2 e8 Q4 }9 m1 Q
: x3 R+ }" S& U! d! h
; i8 N6 M+ _) p3 W
1 \: |4 h% F) O! F0 W
图源:Meshy AI
3 Y1 o0 `. \& _6 t% C$ ~7 q( F$ I3 ^6 U5 y( L/ M9 P; Y2 P" A2 D, i
; H0 p- A) F, d6 T5 h) x, l& g( D
而由 Luma AI 推出的 GENIE 工具,除支持文本转 3D 模型、多格式(如 OBJ、FBX 等)导出以适配不同场景外,最大亮点是提供 API 接口 —— 用户可通过该接口直接将视频内容转化为 3D 模型,形成差异化竞争力。
' M. I* C- Z8 Q6 c4 G# d* S0 R7 I6 E
- ?4 K1 l- U% H不难看出,上述产品均凭借自身特色在同质化竞争中突围,腾讯混元 3D 也不例外。尽管其 3D 模型生成功能与其他工具未拉开明显差距,但 “高免费额度” 是其核心优势:在混元 AI 3D 官网,每位用户每天可免费生成 20 次模型,次数耗尽后还能通过分享好友重新获取。这种 “以量换用户” 的推广策略相当成功, 在 3D 世界模型 Lite 版发布前,其社区模型下载量已达 230 万次,成为全球最受欢迎的 3D 开源模型平台之一。% F1 C* X& U$ S* r% `
3 K: v8 } k: J. `
8 ?1 |% d' q* Q6 T. B+ A8 H2 H* [; Z
/ Z [0 v0 J) c图源:腾讯混元AI - e0 ^* N. K7 M4 P& J% ?4 B
5 h1 D- x/ q" B5 v0 X% ?* U
- p, I9 P3 F+ ]( A此次腾讯推出适配消费级显卡的混元 3D 世界模型 Lite 版,无疑将吸引更多创作者加入其生态。用户规模的增长,又将进一步推动反馈迭代与应用场景拓展:以当下热门的 VR 眼镜为例,混元 3D 导出的 3D 世界模型文件可直接导入使用,用户只需拥有 VR 设备,就能随时随地沉浸在自己创建的虚拟场景中,实现生态与硬件的联动;同时,AI 3D 基础模型能让普通用户轻松制作高度自定义的 3D 模型,与 3D 打印机形成协同。 q7 B1 ?9 }+ r" m. V9 w* Z1 H
3 v/ k% t# d& D+ y2 d更重要的是,AI 3D 化近乎 “零学习成本” 的特性,正推动其快速渗透至各行业:在建筑规划、室内设计、电商展示等场景中,3D 可视化内容比文字或传统图纸更易理解,工作人员无需复杂学习即可输出场景内容,大幅减少重复建模的时间;这种 “虚拟模型 + 实体行业” 的联动,既能提升用户粘性,又能通过高度自定义内容让用户产生归属感 —— 种种趋势表明,3D 模型在 2025 年势必走向大众化。
% D6 `- W+ K/ H0 P: g/ }7 y
5 G( J% R' i/ D2 U$ J o小雷认为,未来的 AI 3D 模型将进一步整合专业场景模型与创作风格,通过细分领域和使用场景吸引更多垂直用户,不断拓展生态边界并渗透到各类生活化场景中。! A! b( u- K: B: r# D
0 \9 s M% O% l8 ~2 Y3 e1 a
而这,正是本次 3D 模型平民化浪潮的核心意义 —— 在现实与虚拟交融的当下,让每个人都拥有构建 3D 虚拟世界的能力。
3 l. ] C* g& n0 Q% ]
5 D# l' J$ _) O5 `3 ]. M8 g" A" n) J( e
3D模型普及, 3D 建模师会因此失业吗?6 Q7 }* o& T: p4 X2 x+ O5 x' K' i) S
0 \7 V+ ?9 r2 Y+ ?; a- y: R7 ~- S& D$ e6 ?2 e, h+ w0 ]
8 X' W* Y3 y6 n3 M$ S6 I/ P不过,网上始终有一种论调,认为随着 3D 模型的普及,3D 建模师会面临失业风险。对此,小雷却并不认同。
! Y$ Q* w7 C: A
3 a5 a* p- a6 U5 W' c不可否认,这类能快速生成 3D 模型的工具,必然会对行业产生冲击。AI 模型 “快速高效” 的优势,确实是人类难以企及的;但正如前文所说,当前的 AI 3D 模型尚无法实现真正的用户个性化 —— 其生成的产物,本质上仍是基于大模型学习数据所产出的 “复刻式内容”。
- o; v w. k, o0 A: n
$ f, v2 y% t- } s0 A M而这类缺乏个性的内容,终究成不了优秀的作品。无论是游戏建模还是建筑设计,真正能让人记住的,永远是那些独具匠心的设计:是 3D 建模师反复打磨的细节,是为适配用户需求精心考量的巧思。因此小雷认为,以当前 AI 3D 模型的能力,想要完全取代 3D 建模师基本不可能;相反,作为能高效执行重复性指令的工具,它更适合成为建模师提升效率的 “辅助帮手”。
$ \: D' y& m* [4 y# p
. D' l5 N& y" S其实转念一想,这种 “AI 辅助创作” 的模式,早就在各个行业中渗透。但受限于内容同质化的问题,AI 往往只能停留在 “重复的基础构建” 环节。
5 T, X3 {( A# u9 ]- k9 m- a$ N d/ p9 K. R' d
( B6 R3 F' f, }9 N这也正是雷科技在如今AI 写作工具越来越便捷普及的今天,还在坚持原创的原因,小雷始终认为,真正有深度、有温度的好文章,绝不会因为 AI 的存在而黯然失色。5 G3 Q& Z& h/ K1 M
! w* y4 [* c' Z4 `; I" e+ Y D6 ]6 H『本文转载自网络,版权归原作者所有,如有侵权请联系删除』 |
|