如何“面试”AI 2.0数字人?《大模型赋能下的AI 2.0数字人平台》白皮书是个参考

  45页 阅读:38157 商汤智能产业研究院
“数字分身”正在成为新型AI劳动力工具。
 
联合发布

上海市人工智能技术协会、零壹智库、增强现实核心技术产业联盟、商汤科技

指导委员会

朱伟民 上海市人工智能技术协会秘书长

刘兴亮 《刘兴亮时间》《亮三点》创始人,DCCI互联网研究院院长

柏   亮 零壹智库CEO

栾   青 商汤科技数字文娱事业部总经理

田   丰 商汤智能产业研究院院长

鸣谢

李斌 刘杰靖 许闻苑 郭晓际 于天娥 王进 廖虎 陈天伦

编写组

杨   燕 商汤智能产业研究院战略研究主任

徐柏琦 商汤科技数字文娱事业部市场总监
 
关键发现
 
1.生成式AI和大模型技术的飞速发展正推动AI数字人向更高级别进化,显著提高了数字人的生产效率和智能交互能力。这一进步不仅降低了AI数字人的应用门槛,使其更广泛地服务于各行各业,同时也能为人们提供更加智能化和高效的数字人服务,极大的增强用户的沉浸式体验。

2.生成式AI和大模型技术发展不仅提升了AI数字人的可用性和可及性,也激发了人们在多样化的应用场景中探索如何将这些先进技术与数字人进行融合创新。这些创新实践主要集中在增强用户互动体验,以及创造高效的新型AI劳动力方面,不仅扩展了数字人的应用边界,也为整个市场带来了创新活力和增长动力。

3.数字人平台是生产数字人的生产力工具。与上一代平台相比,AI2.0数字人平台在实际部署中展现出“产线化”能力升级、应用服务一体化发展、可信能力建设三大特性,使得平台能够高效地创造出可信、可用、可及的AI数字人及其相关应用,更好的响应市场用户和场景需求。

4.本白皮书提出了业界首个“AI2.0数字人平台评估体系”,通过产品服务、战略愿景和市场生态三大维度、十二个指标对AI2.0数字人平台进行定量和定性的全面评估。商汤如影AI数字人平台成为市场领导者,在各个评估指标的得分超过厂商平均分,在平台能力、可信能力、市场认知和创新规划四个评估指标拿到满分。

5.商汤如影平台在产品服务方面呈现出较强的技术实力和深厚的平台积累,基于自主研发的“日日新”大模型技术和充足的“AI大装置”算力资源,不断推动AI数字人产品服务的创新与升级,并通过渠道生态布局和服务体系建立,提供多元化的产品服务形态,满足产业用户差异化需求,同时响应监管需求,建全、完善可信体系建设。

6.未来,AI数字人不只是AI工具,将成为数字社会的基本组成。每个人都将拥有自己的“数字分身”,在XR、空间计算等技术的融合发展下,以全新的方式体验和享受数字化生活。AI数字人还将成为未来社会的人力资本、人机交互的关键窗口,并与数字空间、具身智能等结合创造出不可估量的经济和社会价值。
 
一、生成式AI和大模型为数字人产业发展注入新动力
 
2023年是人工智能领域的一个重要转折点,生成式AI和大模型技术的飞跃性进步,使得AI从过去的“分类器”角色转变为具备强大创造力的“生成器”。

这一根本性的转变赋予了AI前所未有的创新能力和深层次的理解力,引领我们步入了AI2.0的新时代。在这一技术革新浪潮的推动下,各行各业和企业纷纷积极探索,将生成式AI和大模型技术融入其产品开发和业务流程,旨在提升客户体验、优化业务效率以及创新商业模式等方面实现新的突破。据Gartner预测,到2026年,将有超过80%的企业采用生成式AI,或部署支持生成式AI应用,这一比例在2023年初还不足5%。

生成式AI、大模型应用的崛起也为数字人产业发展注入了新的动力。据沙利文头豹研究院研究显示,得益于生成式AI的加持,2023年中国数字人市场规模达到了355亿元人民币,这一数字比2022年翻了一番。其中,生成式AI的贡献占比约为35%,显示出其在推动市场增长中的关键作用。预计到2027年,随着技术的进一步成熟和深入应用,数字人市场规模有望达到680亿元人民币,而生成式AI的贡献占比预计将提高到60%以上(见图1)。这一增长不仅反映了市场对生成式AI和大模型的日益依赖,也预示着数字人将在更多行业和场景中扮演重要角色。
 
图1:中国数字人市场规模(单位:亿元),沙利文头豹研究院
 
生成式AI和大模型对数字人市场的推动效应,主要源自于两大关键作用力:一是纵向提升数字人内在潜能,增强其可及性和可用性;二是横向拓展数字人应用边界,积极探索数字人在新场景、新应用下的落地潜力(见图2)。
 
图2:AI2.0从两个维度为数字人市场注入新动力,商汤智能产业研究院
 
1.大模型加速数字人从L4向L5级进化,提升内在潜能

IDC认为,与AI深度融合的数字人才能称为AI数字人。商汤智能产业研究院在2022年发布的《企业级AI数字人白皮书》中,根据AI在数字人拟人化和生产自动化两个维度的融合程度,又将数字人分为“L1-L5”五个等级,并指出,只有达到L4级及以上的数字人才被认为是AI数字人(见图3)。
 
图3:L4级及以上的数字人被定义为AI数字人,商汤智能产业研究院
 
可见,AI技术的发展对数字人的演进至关重要。如果将AI1.0视为CG数字人向AI数字人转变的分水岭,那么以生成式AI和大模型为代表的AI2.0则是推动数字人从L4向L5级进化的加速器。具体表现在三大方面:

首先,大模型大幅提升数字人生产自动化水平,增进数字人的可及性和经济性。
 
在大模型赋能下,通过生成式AI算法,基于深度学习模型、动作模拟、情感模拟等技术,仅需几分钟的真人视频素材,经过大模型数小时的训练,就能高效地生成具有高度逼真性的数字人。

这一过程不仅极大地缩短了制作时间,而且显著降低了制作成本,使得数字人的应用门槛得以降低,为更广泛的行业和领域打开了大门。例如,用户只需要上传一段2~5分钟手机拍摄的真人视频,就能通过商汤如影平台生成声音及动作自然、口型准确、多语种精通的数字人分身,整个制作过程耗时从原先的多则半年少则两周,现在控制在24小时以内,生产成本从百万级别降低至了数千元。

其次,大模型助力数字人智能化交互更上新台阶。

AI数字人作为AI技术的产物,其核心价值在于能够模拟人类智能,提供高效、准确的服务。大模型通过其强大的数据处理和学习能力,赋予了数字人更加智慧的“大脑”,显著提升了数字人的智能水平,使其在多个方面实现了质的飞跃。

这种跨越式的飞跃,一方面体现在大模型让数字人能够更深入地理解复杂的语境和情感,使得它们在自然语言处理方面的能力大幅提升。数字人不仅能够更好地理解用户的意图,进行更加自然、连贯的对话,甚至在复杂的社交场景中,如直播带货,数字人能够与观众进行流畅的多轮互动,提供实时的反馈,极大地提升了用户体验。还能进行多语种交互的能力,为用户带来更加丰富和无缝的沟通体验,这极大地扩展了数字人的全球应用范围,也为跨文化交流和合作提供了前所未有的便利。
 
另一方面,大模型支持数字人在多模态交互方面显著提升。这意味着数字人不仅能够处理和理解文本,还能够处理音频、图像和视频等多种形式的数据。这种多模态能力使得数字人在提供服务时更加全面和生动,例如,在教育领域,数字人可以根据学生的反馈调整教学内容和方式,或者在电商领域,数字人能够根据用户的兴趣推荐个性化的内容。

第三,大模型更生动的实现数字人角色带入,极大增强用户的沉浸式体验。

大模型对数字人在语音和表情交流能力上的显著提升,使得数字人在与用户的互动中能够展现出更加自然和真实的反应,从而极大地提升了用户体验的深度和丰富性。

在语音交流方面,大模型使得数字人能够理解和生成更加流畅、富有情感色彩的对话。它们可以模仿真人语调、节奏和情感变化,使得对话更加生动和富有表现力;在表情交流方面,基于大模型训练,数字人能够更加准确地捕捉和模拟真人面部表情变化,从而在视觉层面上实现更加真实的情感传达。

例如,通过大模型训练将古今中外的名人以数字化的形式生动的复刻出来,让他们与当代人进行跨时空对话。商汤如影推出的钱学森AI数字人就是基于大模型数字化还原钱学森先生的音容相貌,为广大青少年进行沉浸式的科学普及,弘扬老一辈航天人的宝贵精神。
 
2.生成式AI与数字人融合创新,拓展应用边界
 
大模型技术的突破性进展,使得人们能够以更经济的成本拥有“更聪明”的数字人。这一变革不仅提升了数字人的可用性和可及性,在此基础上也进一步激发了人们在更广泛的应用场景中积极探索大模型、生成式AI应用与数字人能力的有机融合,以期为用户创造更好的AI2.0体验,也为数字人市场带来了前所未有的增长动力和创新活力。总结起来共两大方向(见图4):
 
图4:数字人与生成式AI融合创新激发更多市场潜力,商汤智能产业研究院
 
一是,生成式AI场景为数字人落地提供了天然的土壤,为用户创造了与真人无异的互动体验。
 
IDC预测,随着大语言模型和生成式AI的进步,CUI(对话式交互界面)将在未来的AI应用中占据主导地位。这预示着用户将能够在多样化的应用场景中,与AI进行更加自然、流畅的语言交互,使得用户能够便捷地接入和使用各种AI应用。
 
这样的交互环境为数字人技术的融入提供了天然土壤,也将传统以功能为主的交互环境转变成一种更为生动的互动体验——数字人不仅能够模拟人类的情感反应,还能理解和传达信息中的情感特征,为交互过程增添丰富的情感维度。

例如,小冰公司推出的数字互动名片,通过将数字人技术与智能问答系统相结合,实现了用户与数字分身在多个场景下的实时智能对话,为企业和个人提供了一种全新的社交和沟通模式。利用Synthesia平台,用户生成的数字分身可以在企业内训、产品介绍、市场推广等场景中广泛落地,无疑为数字人打开了更为广阔的落地可能。

二是,数字人与大模型结合转化为新型的AI劳动力,加速向产业和个人生活中深入渗透。

这种结合的核心在于,大模型的深度学习和理解能力与数字人的个性化定制及交互性相结合,共同构建了一个能够模拟并增强人类在多种工作场景中表现的智能系统。这种系统不仅极大地提高了执行复杂任务的效率,减少了对传统人力资源的依赖,还能通过持续学习和适应,不断提升其在决策、分析和创造性工作方面的能力,为企业和个人带来了前所未有的生产力释放和价值增长。
 
例如,数字员工与企业大模型结合,能够全天候工作,高效处理那些重复性高、规则性强的任务,显著提升工作效率,降低错误率,并有效节约人力成本。Gartner预测,到2030年,中大型企业中超过有将近500万名一线和中层管理者将被数字人取代,这一发展将提高员工的生产力和参与度。
 
在专业领域,如金融、医疗和法律,数字专家与行业大模型结合可以提供基于海量数据的深入分析和建议,并快速吸收行业新知,为企业或个人提供实时、数据驱动的咨询和决策支持。

在日常生活中,数字人助手与个人大模型结合,能够根据用户日常习惯、偏好和需求,提供高度个性化的服务,在健康管理、时间管理、学习辅导,还是娱乐休闲等方面,成为用户的得力伙伴。
 
这种新型AI劳动力展现出的显著优势,在数字人可用性和可及性的强化下,加速向各行各业及个人生活中深入渗透。
 
二、大模型技术发展引领数字人平台全面升级
 
数字人平台即是生产数字人的生产力工具。进入AI2.0时代,数字人产业的发展焦点已经从单纯的AI算法驱动的数字人创建,转变为基于大模型能力,以提升数字人在形象塑造、人机交互以及场景适应性方面的灵活性和效率。
 
 
“工欲善其事,必先利其器。”这意味着AI2.0时代的数字人平台构建不仅要注重大模型对数字人生成的支撑作用,还需兼顾多样化场景下的用户需求,通过集成生成式AI应用和大模型技术,提升数字人在复杂环境中的表现力和实用性。随着这一趋势的发展,数字人平台及其基础架构正经历着全面的技术升级,以确保平台能够持续适应并满足不断变化的市场需要。
 
 
1.AI2.0数字人平台的技术架构
 
 
AI2.0数字人平台由基础层、平台层共同构成,以支撑数字人应用生态的蓬勃发展。(见图5)。
 
图5:AI2.0数字人平台的技术架构,商汤智能产业研究院

(以上为报告节选,完整版内容请下载PDF原文)

剩余 50% 未读,点击登录,阅读全文

零壹智库研究报告

2013年至今,零壹智库累计发布超过40部新金融专业书籍、200份专题报告500份数据报告,并为数十家机构和政府部门提供了专业的新金融咨询服务;举办了超过30场行业峰会、20000多业内人士到现场交流,超过40场高端闭门会、1500余位业内高管 和专家参与探讨。零壹智库会员体系将在原有机构会员服务的基础上,推出个人VIP会员服务,旨在为新金融行业决策者、从业者和投资者提供专业化的知识、业务交流水平和资源开拓的能力。

报告需求或合作请联系: 132-6199-0570 marketing@01caijing.com 报告购买与咨询请微信扫码:


热门报告

TOP1
免 费
拼多多怎么还不放贷?

拼多多怎么还不放贷?

TOP2
免 费
互联网的疆场上,到处跳动着字节的战火

互联网的疆场上,到处跳动着字节的战火

TOP3
免 费
数字金融年度观察:2024往何处去?

数字金融年度观察:2024往何处去?

TOP4
免 费
支付宝消失的「底线」

支付宝消失的「底线」


相关推荐

互联网的疆场上,到处跳动着字节的战火
免 费

互联网的疆场上,到处跳动着字节的战火

拼多多怎么还不放贷?
免 费

拼多多怎么还不放贷?

六大国有银行数据治理进阶: 合规、赋能与金融产品创新
付 费

六大国有银行数据治理进阶: 合规、赋能与金融产品创新

上市农商行首份年报来了,常熟银行 数字化转型行至何处?
付 费

上市农商行首份年报来了,常熟银行 数字化转型行至何处?


耗时 133ms