阿里小蜜数字人多模态交互实践

发布时间:2022-07-05 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了阿里小蜜数字人多模态交互实践脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

目录
  • 01-双十一的变化以及小蜜数字人的演变
    • 1-为什么要做数字人?
    • 2-双11十大科技 — 围绕虚拟主播的交互新形态
    • 3-从问答到直播,面临的新挑战
    • 4-从问答到直播的技演进
    • 5-从虚拟主播知识大图
  • 02-从问答到直播,长剧本创作是首要挑战
    • 1-学术定义
      • ① Text/Story Generation
      • ② Story Telling/Story Visualization
    • 2-虚拟主播剧本构建流程
    • 3-素材的挑战
      • ① 多来知识挖掘与对齐
      • 详情页结构化改写
    • 4-结构的挑战 — 引入知识图谱增强逻辑性
    • 5-衔接的挑战 — 流畅表述
  • 03-从问答到直播,关注点变化引发的问答新挑战
    • 1-通过阅读理解,降低人工配置成本
    • 2-从答到问 — 通过Qamaker辅助知识构建
    • 3-引入详情页内容支持轻量化问答
    • 4-多模态阅读理解
      • ① 支持主观、长尾问题回复
      • ② 多模态阅读理解挑战
      • ③ 支持视觉 - 文字的匹配与对齐
    • 5-多模态训练如火如荼
    • 6-小蜜多模态算法
      • ① MMTK(MultiModel ToolkIT
      • ② ROSITA:细粒度跨模态预训练
    • 7 - 从图像到直播
      • ① LiveQA的演进
      • ② LiveQA处理流程
  • 04-总结

转载:https://zhuanlan.zhihu.COM/p/410582088

导读: 直播作为一种新的电商形态, 商直播化直播电商化的现象已经逐渐普遍。

本次分享主要围绕多模态与人机交互技术在电商直播中的应用。

小蜜数字人从去年双11 作为集团十大黑科技 正式公开亮相, 该产品从以前的窗口式问答, 升级为直播间多维度互动, 这背后面临的挑战 驱动着小蜜的问答技术 有了新的发展, 这也是我今天主要分享的内容。

01-双十一的变化以及小蜜数字人的演变

阿里小蜜数字人多模态交互实践

2018年

阿里小蜜智能服务占比:98%
相当于10万名人工客服的工作量

店小蜜对话轮次3.5亿
能力等同于58.6万名人工客服

2020年

热线智能客服外呼规模1千万
支持音画同步多模态交互

全球消费者覆盖数8亿
220个国家/地区,18种语言
@H_331_126@

提到双十一, 我们先来快速看一下双11的变化以及背后小蜜的演进。

我们知道去年双11它最大的变化来自于 一天变成了两个时段。

同时, 直播带货的GMV(Gross Merchandise Volume,成交总额) 在整个电商场景里也占到了一个更大的比重。

在服务这块同样有了新变化, 从18年开始, 小蜜在平台的服务, 以及面向商家的服务支持上面, 已经达到了相当的一个规模。

到了最近的双11, 我们已经可以把这种问答或者说服务的能力 扩展到像热线等不同的渠道, 或者像海外的更多国家和地区, 目前是有18种语言, 200多个国家和地区。

同时小蜜也实现了交互形态的新升级, 去年阿里CTO鲁肃 发布了阿里集团的十大双11黑科技

数字人就是作为其中之一。

在具体展开技术细节之前, 先介绍一下我们为什么要做这件事儿。

1-为什么要做数字人?

阿里小蜜数字人多模态交互实践

  • 真人直播
    • 头部流量集中
    • 门槛高、流动大
    • 难以长时间开播
    • 形式单一有限制
    • 容易出错放不开
  • 虚拟主播
    • 助力差异化竞争
    • 品效合一的IP打造
    • 全时段主播/辅播
    • 1vN/1v1互动多样
    • 发挥稳定形态丰富

直播作为一种新的电商形态, 电商直播化与直播电商化的现象已经逐渐普遍。

但在电商的实际市场上, 人们会更加地关注李佳琪这样的头部大V。

而真正的商家在直播过程中面临很多困难

比如说某个服饰国内top大品牌, 它在直播兴起以后, 在杭州这边开了一个分公司, 为什么? 是因为他们总部所在地很难去招到相关的一些直播人才, 难以去满足或者说符合他们现在今天直播的品质的要求。

但是另一方面, 商家也会发现, 其实他们很难去给到 特别大的一些支持或者说资源去支持主播, 比如说打造他们自己的一些人设, 因为等主播有一定成长以后, 它的流失也会比较大

针对 符合要求的直播人才难培养主播培养成熟需要的成本大成熟主播易流失的问题。

这个时候我们引入小蜜数字人, 一方面可以降低商家开播的成本; 一方面数字人的形象可以与商家的品牌形象更好地结合达到品效合一。

例如像海尔兄弟三只松鼠

我们可以用数字人的形式 获得更加鲜活品牌形象的具象化;

此外像二次元的形象 可以作为新的媒介 触达年轻消费人群 提供为商品提供差异化竞争。

2-双11十大黑科技 — 围绕虚拟主播的交互新形态

阿里小蜜数字人多模态交互实践

这种新形态体现在 小蜜数字人具有 货品展现人物驱动以及场景交互的能力。

具体包括了智能播报剧本的创作; 与剧本内容相关的呈现和演示, 包括商品的呈现, 以及数字人在声音上的情绪表达动作肢体上的驱动演绎等;

另外在实时互动的场景中, 我们还需要使数字人具有 做相关的问答以及暖场游戏的能力。

3-从问答到直播,面临的新挑战

阿里小蜜数字人多模态交互实践

问答主要以用户问题知识库 或者文档库内容的匹配为主, 而直播需要将匹配进化为内容的创作

内容创作会涉及 文字、图片、视频 等多种素材, 多模态处理能力必不可少。

用户在直播间的个性化互动支持。

主播在直播间中做1 v N互动, 也可以通过端上卡片1v1的推荐互动, 如何融合千人千面的个性化推荐 和数字人的动态行为决策 是一个我们正在探索的课题。

4-从问答到直播的技术演进

阿里小蜜数字人多模态交互实践

从最开始基于知识库的问答 (FAQ的匹配,NLU与意图路由,任务型对话) 我们进一步引入了 非结构化内容问答 (例如面向文档的阅读理解面向详情页的视觉问答), 再进一步演进到多模态内容合成: 围绕着文本生成能力和知识图谱构建, 将不同素材进行有机的组合和表现, 包括 故事线的编排行为的驱动情感的计算直播间氛围感知实时推荐等等

5-从虚拟主播知识大图

阿里小蜜数字人多模态交互实践

接下来会围绕数字人交互分两部分介绍:剧本构建互动呈现

02-从问答到直播,长剧本创作是首要挑战

阿里小蜜数字人多模态交互实践

在这里我举例一些播报比较好的真人话术 和他们相对应卖点。

可以看到一般好的真人主播会针对特定的选品, 挑选专业性的爆点性的内容, 它通常都是一两个点, 但是也会注重用户 在真实使用场景的这种连接和共鸣, 达到种草的效果。

1-学术定义

① Text/Story Generation

阿里小蜜数字人多模态交互实践

对于剧本生成, 在学术上类似的任务是Text / Story Generation

目前工业上常用的方法是Data2Text Generation

这篇文章清华淘宝推荐理由生成 一起合作的工作, 可以看到这里边利用到了很多的KV信息, 以及一个阶段的生成 来实现最终的短文本的生成关系

他主要依赖于输入的数据 并且专注于短文本的生成

还有一些方法 更加偏向于开放式的Story Generation

比如说gpt3, 以及达摩院的PLUG模型等等, 它们可以根据一两个线索 或者一个文章的开头 来去补全后续的内容。

但考虑这些模型的可控性比较差, 目前使用在直播场景落地仍然具有挑战性。

② Story Telling/Story Visualization

阿里小蜜数字人多模态交互实践

在我们将视觉的呈现考虑进来以后, 它就变成了一种多模态任务

例如微软提出的 基于视觉素材 story telling的工作。

任务要求是 给定一些具有差异性的图片, 围绕这些图片的差异性 生成一个简短的介绍。

最近的一些工作 会尝试融合一些图像的Scene Graph 来保证整个生成的逻辑性顺畅性

还有一种从文本出发, 做Story Visualizatioin

做的效果比较好工作有 微软的StoryGAN, 它可以根据相关文本内容, 生成类似于卡通动画的场景。

文本可视化目前 还处在创新探索的阶段。

2-虚拟主播剧本构建流程

阿里小蜜数字人多模态交互实践

纵轴来看, 我们对剧本预先设定了框架, 框架一部分来自于业务的定制性, 另一部分来自于我们对用户的关注点挖掘, 比如检索日志历史点击内容, 或者说从真人主播历史中挖掘好的脚本套路, 然后来形成一体化的框架。

在这个框架之上, 我们会去沿着图中横轴的步骤去构建整体剧本, 整体成型的剧本里边涉及到多种素材来源

既包括了关键词pv属性等结构化的数据, 也包括了一些非结构化的 比如文本、图片、视频等内容。

最终, 这些内容在构建过程中通过匹配的方式, 或者在素材来源追溯的方式得到最终的呈现。

3-素材的挑战

① 多来源知识挖掘与对齐

阿里小蜜数字人多模态交互实践

第一步要解决的是素材从哪里来的问题。

在我们的业务场景中, 更多是要用轻量高效的方法 快速实现素材的构建。

虽然淘系或者电商域 已经积累了大量的这种素材, 但它的形态非常丰富, 关键词三元组短句单句整个篇章, 以及面临着多渠道的一些来源, 比如说 用户的有UGC的, 有商家PGC的, 还有平台积累的一些比如说 知识图谱商品图谱这样的信息, 它会带来极大的知识质量控制挑战。

在这里面的话, 我们基于现有的淘系商品图谱 做了进一步的扩展。

右边这个例子中 可以看到 我们对于历史文本进行短语挖掘实体的识别与挂载, 会从商品属性扩展到卖点, 例如宝宝餐具, 因为它的材质是食品级硅胶, 这种食品级硅胶它带来的卖点 就包括了可以支持高温的消毒, 更加安全, 不含BPA等信息。

其实不只是卖点, 我们会把用户使用场景相关的痛点, 同样关联在图谱中。

这些关系 最终会作为基础的框架 来去组织素材, 达到剧本的整体逻辑性

② 详情页结构化改写

阿里小蜜数字人多模态交互实践

但是对于一些新上架的商品, 它基本上没有历史数据, 所以我们也引入了这些商品的详情页 作为冷启动来源

我们处理的思路和Layout LM的思路类似, 因为如果直接做image caption,结果不可控; 但是如果拿OCR挖掘,会由于布局的关系会显得比较杂乱。

所以我们会结合一些 相关的object或者layout embedding, 然后来实现对句子相对位置的感知最终改写完整性的保障。

比如说 我们针对这张抽取的相关的片段, 形成一句卖点的介绍

在最终的业务数据集上也有明显提升

同时在素材方面还有一些比如像 短文本生成模板自动生成, 这里就不再展开了。

4-结构的挑战 — 引入知识图谱增强逻辑性

阿里小蜜数字人多模态交互实践

但是我们只有素材的话, 其实有一个挑战在于 我们没有办法以一个很好的逻辑去展开。

这里举一个具体的例子, 就是在我们做的第一版的剧本里边, 我们的数字人 可能更多的去围绕着商品的成分和功效来去介绍, 就听起来的观感就有点 像王婆卖瓜,自卖自夸, 这样它很难去与用户真正产生一个连接, 或者说让他们有一种真实感。

所以说在这个例子里, 我们会先从 近期天气炎热比较干燥, 或者说熬夜会遇到的皮肤衰老角质化问题, 从真正用户遇到的痛点问题, 以及它对应的生活场景出发, 再回归到我们具体介绍的商品属性, 或者说卖点的介绍上来。

在这个过程中, 我们会引入到一个场景化的知识图谱, 这个也是我们在之前的 基于成分卖点的基础上 做了进一步扩充的, 目前主要覆盖了美妆食品热点类目。

在剧本的生成过程中, 我们最终会分成两步。

第一步,将虚拟人讲解的大纲基于图谱做生成。 第二步,围绕着大纲展开,填充具体的内容形成剧本的血肉。

5-衔接的挑战 — 流畅表述

阿里小蜜数字人多模态交互实践

有了结构以后, 他可以在宏观上保证我们顺畅的去讲述这件事, 但是在微观上怎么去流畅的表述呢?

例如 我们讲棉布的亲肤感、透气性、卫生性的卖点来说, 会面临着很多冗余的素材。

围绕着预训练通过预构建数据集, 比如说句子的顺序的打乱丢弃和重复样本的过滤等等, 这样可以使大规模训练的模型具有一定的重点抽取能力, 类似摘要的解法

但如果用纯生成的方法, 在遇到线上百万千万甚至亿级的商品规模时, 它的延时性就会达不到要求。

所以我们在这里 又进一步引入了一种基于块拷贝/block copy方法, 在里面比较好的内容, 我们会以成句或者说短句集的形式直接拷贝过来。

在这个过程中, 相比较原始的一些piPEline的方法, 或者说是一些比较简单的 像BART这样的基于预训练模型的生成方法的话, 无论是在数值上 比如BLEUROUGE指标上, 还是在人工评分上都有更好的效果。

具体可以看一下case。

最终的话, 我们会把棉布里边相关的 一种吸湿性吸汗性亲肤感等等特征 抽取出来, 并且根据这里边的前后的语义逻辑, 形成最终的整体性的介绍

03-从问答到直播,关注点变化引发的问答新挑战

阿里小蜜数字人多模态交互实践

下面我们主要介绍虚拟人互动方面的技术。

作为比较, 列举出某一个直播间的对话分布, 可以看到 相比较小蜜之前做的偏售中后的场景来说, 用户直播间的问题更加值得关注。

比如说 活动优惠或者商品问答的一些产品里, 它面临着更多的一些 非标准的,答案会实时变化, 并且 问题的跨度比较大 以及 问题长尾 等现象。

针对这个问题, 我们基于之前的FAQ的知识库 进一步的引入 比如说 像活动的这种文档操作的说明书, 还有一些百科内容, 去构建起一种 基于阅读理解的问答能力

1-通过阅读理解,降低人工配置成本

阿里小蜜数字人多模态交互实践

刚才也有同学提到了关于MRC的一些任务, 在学术的数据集上, 比如说高达这样的, 它很多都是一些span, 当然到后面 我们也可以看到 基于多跳推理和长文本, 甚至说 带有生成式答案的阅读理解的过程

在我们的工作中 更多会是从 业务实用的角度去考虑这件事, 比如说 我们会结合不同的一些任务, 像 Retrieval & Ranking基础的预训练来去做整个model, 通过Multi-task Learning共享相关的数据和不同的训练阶段 来获得整体的提升。

2-从答到问 — 通过QAMaker辅助知识构建

阿里小蜜数字人多模态交互实践

但是在上线以后 也会发现一些问题, 如果只通过MRC做内容抽取的话, 它的业务可控性 其实不如FAQ这样灵活, 比如说FAQ我可以去加一些相似问法或者干预手段

同时它领域迁移的成本也比较高, 但另一方面的话, 我们又面临着大量的 不管是我们域内还是域外的客户, 其业务都涉及到大量非结构化文档, 所以在这里的话 我们就进一步引入了 MRC的对偶能力Learn to Ask, 构建了QAmaker

关于QAmaker 我们今年在WWW上被接收了一篇文章, 这也是业界第一个 把这两个能力 去做了一个one-stop联合式方案

它的思路很简单, 但效果非常不错。

主要方法是 MRC的抽取和生成做了Joint Training, 同时对答案span预测的过程问题的过程 做进一步的attention, 这就可以 使模型在问和答上相互指导

它的好处就在于 我们相比较这种两阶段式的, 比如说先抽取再生成问题, 或者先生成问题再抽取来说, 它的生成问题和答案的抽取可以是并行, 并且是能够相互一致性, 相比两阶段有更好的一个效果。

具体的话可大家可以去看我们的文章。

3-引入详情页内容支持轻量化问答

阿里小蜜数字人多模态交互实践

让我们把目光回到详情页, 因为详情页还是一个 对于冷启动商品 或者说 长尾问题 很好的解决内容来源。

所以说 在这里 我们也引入了VQA视觉问答任务, 首先把详情页 去做了一定的采取裁切和匹配, 根据用户的问题 会返回相关的图片, 并且高亮其中的区域, 同时也会生成一个简短的文字内容回复

4-多模态阅读理解

① 支持主观、长尾问题回复

阿里小蜜数字人多模态交互实践

在这里面的话, 如果单纯利用OCR的话, 其实它有很多问题是难以解决的。

比如说有一些偏向于主观类的, 它可能更需要去理解这个图片。

有一些在吊牌图和同样的视觉信息都包含的情况下, 我们更希望去展示一种视觉相关的内容, 更不用说可能很多图片其实是没有文字标注的。

② 多模态阅读理解挑战

阿里小蜜数字人多模态交互实践

除了对图片和文字的理解外, 对整个详情图细粒度语义切分同样很有挑战, 怎么去选取带有语义一致性的, 但是颗粒度又比较细适合做回复的, 也需要通过多模态技术解决。

③ 支持视觉 - 文字的匹配与对齐

阿里小蜜数字人多模态交互实践

在这个过程中的话, 我们利用了多模态的预训练技术

最终的效果可以看到 一些主观类的一些问题, 然后还有 一些使用步骤的问题, 我们都可以在直播间或者问答的时候去做一个呈现。

这里是 一些视觉呈现和播报文字对齐配合 的示例。

5-多模态训练如火如荼

阿里小蜜数字人多模态交互实践

由于预训练 这里前面的老师已经做了非常详细的介绍, 我就不再展开了, 包括了 单流的模型双流的模型……

这里我写的比较是 之前比较早期的一些工作, 包括近期 我们可以看到有UNIMO, 还有像视频的MMT等等的, 都会有很多这样的工作。

6-小蜜多模态算法

① MMTK(MultiModel Toolkit)

阿里小蜜数字人多模态交互实践

我们也是在这个基础上, 针对详情页这种形态, 引入了额外的任务

比如说详情页这里边的话, 我有一张大的一张图片, 我把它通过一些视觉的方式切分开以后, 这些小图和大图之间的关系, 天然就具有一定的语义包含的信息, 通过这样来去学习到 他们局部的文字和图像之间的语义关联

我们也在公开的VQA challenge上连续几年取得了Top成绩, 同时在业务效果上 相对来说比之前单模态拿到了更好的结果。

但是这种直接 基于详情页图片的这种大小关系, 其实是一个很弱的对齐, 包括我们也看到了, 家在整个领域发展过程中, 也在不断尝试利用到一些细度match的信息, 包括OSCAR它可以用一些图像的scene graph, 然后像ERNIE-VIL, 然后之前应该在早期 也有一个针对文字的这样的信息的融入

② ROSITA:细粒度跨模态预训练

阿里小蜜数字人多模态交互实践

我们进一步提出了ROSITA模型, 最近刚刚被ACMMM会议所接收。

这里面、有一个很直接的motivation, 我们会将这个图像里边的scene graph的物体文字里相关的一些实体更精细粒度的对齐

在具体的实现上面, 我们会将同模态中 出现在scene graph的实体, 与其有直接连接 并且 连接关系比较强的部分元素更高的概率去做作MLP任务, 因为相对来说 它们之间容易导致信息泄露

同时, 在跨模态之间做对齐的元素, 我们会降低它们同时被mask的概率, 因为这部分 其实可以提供很好的模态之间的互补信息

通过这样的方法, 进一步改进了mask language model里边的 token prediction的任务效果, 然后在不侵入模型结构的情况下 去进一步提升它细粒度的一个学习能力。

可以看到右边的话, 我们在对比这样的基线的UNITER模型时, 我们在不同的物体和token之间的定位都有更好的效果。

比如对于children这个词, 我们会进一步的把图片里边的两个小孩 都会高亮出来 然后再识别出来。

包括在child和cat这样的 重叠视觉区域里边, 模型会将文字里边 相关词 赋予更高的attention权重

感兴趣的话大家可以去, 我们近期应该会公开相关的论文和代码。

这部分的话也是在 包括对比OSCARVILLA等一些模型, 也拿到了多模态多种数据集的SOTA效果

7 - 从图像到直播

① LiveQA的演进

阿里小蜜数字人多模态交互实践

但是其实对于直播间整个形态的话, 它不只有图片, 也不只是视频, 进一步的 也可以结合直播流做一些互动

我们开创了Live QA的工作, 在这里我快速提一下它的演进过程, 对于视频会有Grounding的任务, 比如说 可以检测里边的物体动作时间等, 是比较经典的视频任务, 再进一步的话, 目前也有VideoQA的任务, 会针对一些具体的问题去截取相关的视频clip, 或者说基于给到的文字,回复相关的音视频片段

那么在直播这个场景, LiveQA的差异点 一个是在于音视频流往往都是实时的, 相比离线的VideoQA对于食品表示和匹配的延迟 会有很高要求。

另外直播间里 因为涉及到用户的互动行为, 还存在点击评论等异构化数据, 怎么根据用户的问题来 去快速跳转到 之前曾经播报过的某一个时间段, 也同样需要融合这些异构数据。

所以我们今天定义的Live QA任务, 目前它会作为一个独特于静态视频的形态, 会有新的挑战需要去解决, 未来或许也会结合这种Live的这种形式 来去做streaming base预训练的工作。

② LiveQA处理流程

阿里小蜜数字人多模态交互实践

目前为了更好的落地, 我们把它分解成了一整个链路, 在视频的表示方面 融合了ASR/音频视频中检测出实体等 结构化信息与统一的高维表示。

因为这个场景相对来说是强商品驱动的, 也会涉及到大量属性或卖点等。

同样对于用户Query 也会做NLU的结构化表示识别, 由于用户经常会包含类似 13号商品指代信息, 这时候还涉及到上下文的消歧, 有些情况还需要做反问确认等等。

再进一步 我们会综合这些信息 到视频的预训练模型上面 去做跨模态对齐信息融合

这里的展现是 在回放场景, 通过主播小助理点进去了以后, 可以看到 它推荐的热门问题部分 可以做视觉呈现, 支持快速跳转回放。

目前整个工作还在不断的进展中, 我们也在去覆盖到更多的行业和场景, 后面有机会的话可以再去做分享。

04-总结

阿里小蜜数字人多模态交互实践

做个小结,

我们看到人机交互已经变成了多模态或者全模态融合的交互形式,

以数字人为例今天提供了更多的维度和空间,

帮助我们去构建一个更加人性化、更加友好的交互体验。

同时随着生成技术发展以及结合知识图谱的扩展与推理能力

能够让整个内容生产跟得上今天交互形态的发展。

最后,预训练技术其实从文本到多模态已经形成了明确的发展趋势,

未来在面向直播的这种低延时,高噪声的场景里边,

可能有更多的问题和挑战需要我们去解决。

脚本宝典总结

以上是脚本宝典为你收集整理的阿里小蜜数字人多模态交互实践全部内容,希望文章能够帮你解决阿里小蜜数字人多模态交互实践所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。