京东言犀数字人获吴文俊特等奖,藏哪些黑科技?
数字人技术曾困于“动作僵硬”“答非所问”的状况。而此时,在京东云技术的支撑下,京东言犀团队已在默默编织一张技术网络,且这张网络覆盖多模态交互。2021 年开始,京东多次获得“吴文俊人工智能科学技术奖”。2024 年,京东凭借“多模态交互式数字人关键技术及产业应用”项目,荣获了中国智能科学技术的最高奖——吴文俊人工智能科学技术奖的特等奖,并且是本年度该奖项唯一的特等奖。
2024 年技术突破不断。言犀数字人凭借什么能获得吴文俊奖呢?这个获得特等奖的数字人,到底隐藏着哪些神奇的科技呢?让我们揭开它的赛博面纱吧。
1、“采销东哥”成数字人发展转折点
早期的数字人,由于成本高且拟人度低,动作僵硬、表情不自然,总是会因为“一眼假”的机械感以及流量受限等原因,导致其应用受到极大的限制。
2024 年 4 月,“采销东哥”迅速走红,这成为了数字人发展的一个重要转折点。在直播间中的“采销东哥”,不但复制了原主那具有标志性的宿迁口音,以及搓手指的习惯,而且还能够分享烹饪方面的心得,同时也可以实时地解答产品的技术参数。这次直播的首次亮相,吸引了 4000 万的观看量。
https://img2.baidu.com/it/u=3897308469,1478789173&fm=253&fmt=JPEG&app=120&f=PNG?w=864&h=500
这种“CEO+数字人”的混搭模式,使得总裁数字人直播既能够传递品牌理念,又能让高冷的企业家人设变得接地气。在随后的京东 618 期间,格力的董明珠、名创优品的叶国富等 21 位大佬化身成为直播间的“福利官”,他们既可以用方言来讲段子,又能够专业地解读产品参数。
此后,京东言犀数字人发展态势迅猛,接连展现出诸多令人惊叹的玩法,如进行现场试妆,开展双人互动接捧哏的活动,还有总裁亲自上阵参与,模特进行走秀,抱着玩偶坐着直播,以及现场品酒等。
童装品牌巴拉巴拉借助京东云的技术与平台优势,搭建了将近 10 个垂类直播间并同步进行运营。深夜时段由数字人来承接相关事务,以此满足宝妈宝爸们碎片化的购物需求,精准地承接凌晨闲时的需求。凭借千万级的母婴知识库,从知晓有哪些防过敏的面料,到掌握春节换季童装的选购指南,数字人已经能够达到像专业育儿顾问那样进行精准应答,促使下单的效率得到了大幅度的提升。今年 2 月份,数字人直播在整个 GMV 中所占的比例达到了 15%。并且这个比例正在稳步地提升。
安踏与言犀数字人进行了合作,在成都的线下旗舰店构建了高度仿真的定制数字人直播间。这样一来,线下门店就变成了“云试衣间”,消费者能够跨越时空去体验商品的细节。主播数字人会讲解商品的卖点,而模特数字人则能够无缝地切换 30 余件爆款的穿搭,将跑鞋的弯折情况以及羽绒服的充绒量等产品细节展示出来。2024 年京东 11.11 期间,数字人使得直播间 GMV 获得突破,达到了 2000 万。公域成交的 GMV 达到了 140 万以上,转化率为 32.06%。这意味着每 3 个人浏览,就有 1 个人下单,转化率非常高。
2、让数字人“真假难辨”
这些“数字分身”显得活灵活现,其背后是京东言犀团队经过多年深耕所积累的技术。
京东言犀的相关人员向亿邦动力进行了介绍。其一,言犀团队提出了一种低成本且高保真的人体建模技术,成功解决了人体建模成本高以及观感差的难题。借助扩散模型和柔性仿真引擎,使得数字人生产成本得以大幅降低,仅用 1 秒的视频或照片,就能够生成 4K 超清的形象。
其次,提出了语义一致的多模态应答技术。此技术解决了多模态语义难以对齐以及应答较弱的难题,能够实现语音、表情和动作的精准同步。同时,它还支持复杂场景的理解,比如当用户说“显瘦”时,能够自动推荐“深色系+H 型剪裁”。
https://img1.baidu.com/it/u=1605012512,3601788537&fm=253&fmt=JPEG&app=138&f=JPEG?w=500&h=569
第三,提出了多模态自然化的行为生成技术。这项技术解决了多样化行为难以协调的问题,也解决了交互虚假的难题。
这背后有首创的语音驱动表情算法。数字人在不同情境下的动作、呼喊以及轻声细语等表现,都需要通过声音来驱动。借助多模态驱动,最终能够呈现出一个完整的形象。
每一代技术创新都需有其代表性产品。提及 PC 时,人们会想起微软和英特尔;说起移动互联网,人们会想起大厂。而谈及新一代 AI 时,我们会想起什么呢?数字人便是能够代表 AI 的具有颠覆性的产品,有机会成为零售行业下一代交互的新入口。该负责人如此表示。
最新数据显示,已经有超过 9000 个品牌开始使用言犀数字人。这些品牌累计创造了 140 亿的销售额增量。这 140 亿的销售额增量相当于在虚拟世界重新建造了 30 个北京 SKP。
3、从“一眼假”到“千人千面”
2025 年,京东言犀打算探索具有“千人千面”特点的数字人直播间。它会依据用户画像来动态调整话术的风格。例如,对于科技极客,会侧重于参数的解析;对于宝妈,会增加育儿知识的穿插。在文旅领域,大同的“数字花木兰”已经能够实现用中英双语来讲解古迹。京东计划把总裁数字人的经验复制到城市 IP 的打造中。
这样的探索有很多,有“采销东哥”的破圈,还有 9000+品牌的规模化应用;有 140 亿 GMV,还有吴文俊奖唯一特等奖。我们看到的不只是技术奇迹,更是新质生产力的鲜活注脚。在这里,硬核的 AI 技术与柔软的沟通情商相牵手,一起构成大模型时代的新商业基因。
页:
[1]