当科技巨头押注“多模态” 谁能为AI落地找到终极答案?

21世纪经济报道 董静怡 上海报道
2025-04-16 05:00

在AI 2.0时代,模型与应用已密不可分。应用场景推动模型发展,而大模型通过差异化创新来突破各种垂直领域的需求。

多模态被看作是一个必然的趋势,也是商汤大模型的“关键词”。近日,商汤技术交流日上发布的“日日新SenseNova V6”,就是一个涵盖通用模型、推理模型、视频理解模型及全模态交互模型的体系。

“从我们的角度来讲,商汤从视觉能力延伸到原生多模态模型是一个非常自然的延伸。”日前,商汤科技董事长兼CEO徐立在商汤技术交流日的演讲中表示,“从行业的发展趋势来看,我们也看到一些潜在的提示点。”

目前,业界对推理能力的关注主要在数理求解等纯文本推理任务上,但要实现推理能力在更广泛场景的落地,就需要多模态和推理的紧密结合。

国际科技巨头正加速布局多模态大模型领域,这一趋势在近期密集发布的新品中体现得尤为明显——无论是谷歌推出的Gemini 2.0、OpenAI发布的GPT-4.5,还是Meta最新开源的Llama 4,都在显著提升原生多模态能力。这些突破性进展表明,通过实现更广泛、更深度的信息交互与整合,多模态大模型正在为用户创造更完整、更丰富的场景价值。

未来,AI大模型的竞争焦点将从技术参数转向应用深度,其核心竞争力将体现在它能否理解人类情感、记忆交互上下文,并在教育、医疗、工业等场景中提供“好用”而非“能用”的解决方案。

多模态成AI共识

据Epoch AI预测,到2028年,互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。这意味着,如果以当前趋势继续下去,数据将成为大型语言模型(LLM)的重大瓶颈。

不过,在徐立看来,这并不意味着整个知识体系都被消耗完。他认为,有很多的知识都蕴藏在大量的图像、视频,甚至3D等其他模态中。但到目前为止,还没有完全地把这些知识真正用来提升原来的文本,甚至是智力的能力。“因为模态的融合没有做到那么好。”

“关于多模态模型的训练,其计算架构比纯文本模型更为复杂。”商汤科技联合创始人兼大模型首席科学家林达华向21世纪经济报道记者表示。

具体来说,文本处理通常包含编码和解码两个阶段,而多模态训练还需要额外处理视频和图像数据的编码阶段。此外,多模态模型还涉及不同模态之间编码方式的协调与选择问题,这进一步增加了模型设计和训练的复杂度。

沙利文大中华区执行总监崔楠也向记者表示,多模态大模型的训练不仅需要大量计算资源,而且训练时间长、效率低。

因此,多模态大模型的持续进化和迭代,也成为了人工智能领域最引人注目的发展趋势之一,国际科技巨头都在不约而同地加强大模型的多模态能力建设。

例如,谷歌的Gemini 2.0凭借原生支持文本、图像、音频和视频的多模态输入输出,结合强大的推理能力和智能体(Agent)架构,显著提升了复杂任务的交互体验。

OpenAI的GPT-4.5则进一步优化了多模态融合,在长上下文理解、跨模态推理等方面取得突破,增强了模型在科研、创作等领域的实用性。

而Meta最新发布的Llama 4采用专家混合架构(MoE)和早期融合技术,在视觉—语言联合训练上取得进展,使其在多模态开源模型中占据领先地位。这些清晰的技术演进路径标志着AI发展正在进入一个全新的阶段。

“大家都在越来越多地强调多模态的能力,这个是一个自然的市场趋势。”商汤科技联合创始人、大装置事业群总裁杨帆表示。

多模态大模型突破了传统单模态模型的局限性,通过整合文本、图像、音频、视频等多种信息模态,实现了更接近人类认知方式的复杂信息处理能力。这种跨模态的深度融合不仅大幅提升了模型的理解深度,更创造了前所未有的应用可能性。

“语言是一种编码过程,这一过程存在信息损失。人类在进行思考和判断时,往往借助多模态方式。因此,多模态正逐渐成为行业模型发展的趋势,它为诸多全新的应用、场景乃至硬件形态的出现提供了可能。”杨帆表示。

打开落地应用的新可能

2023年起,商汤启动业务重组,将重心转向生成式AI。商汤2024年全年业绩财报显示,生成式AI收入突破24.0亿元人民币,同比增长103.1%,占集团收入的比例由2023年的34.8%进一步提升至63.7%,已成为集团最大业务。

此次“日日新SenseNova V6”的发布,可视为其技术转型的阶段性成果——通过多模态融合,将视觉能力与模型结合,延续其在图像、视频理解上的积累。

而多模态也是多样行业落地的必备因素。因为AI最终会走回线下,走回物理现实,在这个过程中多模态的处理和思考能力就成为一种必然的趋势性需求。

“未来的交互,就是一个多模态全模态的交互,”林达华向记者表示,“我们就是要打通未来交互入口的核心技术。”

徐立强调:“AI之道,在于百姓之日用。”这句话既点明了商汤的技术愿景,也揭示了当前大模型发展的核心挑战——如何让AI真正融入产业与生活,而非停留在实验室或技术演示阶段。

此前,商汤科技确立了“大装置—大模型—应用”三位一体核心战略,以日日新(SenseNova)多模态大模型为基石,以生产力工具和交互工具为两大落地方向。

商汤科技认为,大模型在商业应用上有两个方面的关键价值:一是融入真实的业务应用,具备处理复杂信息和解决复杂问题的能力;二是以更有亲和力的方式与人交互,让人感受到和模型交流的良好体验,愿意和模型持续交流。

要实现上述目标,模型需要具备强大的推理能力,以支撑对人类意图的深度理解、对复杂信息的分析判断以及解决真实环境中的复杂问题;能理解情感,与人共情,并且可以和人实时互动;能记住过去一段时间发生的事情,并且捕捉其中的关键信息并融入推理。

反映在落地应用上,则在具身智能、教学等场景上有所突破。林达华向记者表示,会从这些特定行业出发进行初步迭代,之后众多下游企业、合作伙伴以及爱好者会衍生出更多应用创意。

“靠单纯的技术很难形成长久的壁垒,现在一个新的模型发布后很快就会有一系列模型追赶上来,开源也会进一步缩小大家在技术上的差距。技术和行业的深度结合才能形成持久壁垒。”林达华表示。

放眼行业,阿里巴巴宣布推动大模型技术对公司业务的深度改造,百川智能宣布减少多余动作,专注医学方向,这都说明大模型企业开始专注于技术落地和应用的爆发。

不过,大模型最终要解决的是“好用”而非“能用”的问题,数据隐私、模型偏见、算力成本等问题仍需行业共同应对。零一万物创始人李开复预测,2025年是“AI应用大规模落地元年”,但厂商需回归商业本质,真正为客户创造价值,而非仅追求技术指标。

行业的下半场,胜负将取决于谁能更深入产业,构建“数据飞轮”和场景黏性。商汤的战略提供了某种参考答案,但最终能否在激烈的竞争中脱颖而出,仍需时间检验。无论如何,多模态AI的深入发展,正让智能技术前所未有地贴近普通人的生活,而这或许才是此次技术浪潮最值得期待的方向。

(作者:董静怡 编辑:包芳鸣)

董静怡
向TA提问

21记者

长期关注出海、电商、AI