一种面向虚拟数字人交互的基于文本片段的主题挖掘方法技术

技术编号:34912793 阅读:12 留言:0更新日期:2022-09-15 07:01
本发明专利技术公开了一种面向虚拟数字人交互的基于文本片段的主题挖掘方法,包括:对文本数据进行处理,得到词串序列;基于词串序列构建文本片段序列;统计文本片段序列中的文本片段的词共现模式,构建词

【技术实现步骤摘要】
一种面向虚拟数字人交互的基于文本片段的主题挖掘方法


[0001]本专利技术涉及计算机领域,更具体地,涉及虚拟现实/增强现实虚拟数字 人技术、基于文本片段的主题挖掘方法。

技术介绍

[0002]随着人工智能、大数据、物联网等技术高速发展,各行业数字化进程 加快,不同业务场景对线上用户服务都提出了更高的要求,AI助手除了要 提供更加智能的交互体验,还需要通过自学习自适应等来提升对于行业、 应用和用户的理解能力、应变能力和表达能力。人机交互模式从文本客服 升级为语音客服再到多模态人机交互系统,也就是大家常说的数字人,沟 通效率和服务温度都得到了大幅提升。
[0003]通过AI技术的加持,数字人产品目前已拥有强大的形象表现力、识 别力和理解能力,并且能够保证最优服务性能,在很多场景中都能做到“听 得清、听得懂、会表达”。听得清就是能够把人的声音精准转化成文本。 听清后还需要听得懂。在表达交流能力上,数字人由个性化沉浸式TTS、 有风格的语音合成技术、以及具备形象、情绪和动作的虚拟人合成,拥有 超过多种语音合成音色,多个拟人化形象,把对话内容多模态多层次地表 达出来。本文面向虚拟数字人交互而识别出长短不一的文本,通过设计主 题模型自动挖掘交谈中的主题,从而实现真正意义上的“听得懂”。
[0004]当前的主题模型几乎都是构建在“文档

主题

词语”三层框架上的, 即:一篇文档由多个权重不一的主题构成,而一个主题是由语义相近的词 语聚集而成的。从本质上讲,这类主题模型是在分析全局的词语

文档关 联关系(即:哪些词语容易出现在同一个文档中,而哪些词语又将出现在 不同的文档中),然后再抽象出该文档集合下隐藏的主题集。因此,为了 使建立的主题模型表现得很好,一个文档集合要包含足够多的文档,并且 每一篇文档也要包含足够多的词语。这对于长文本(如新闻、学术论文等) 集合来说并不是一个问题;因此,传统的主题模型如LDA和NMF在长文 本数据集上能够学出可读性很强的主题。然而,在短文本(如推特、短消 息、标题、问题、文本片段等)数据集上,由于文档很短,词共现的统计 量不充分,这使得传统的主题模型很难起效。为了解决这个难题,最近几 年研究人员通过不同的技术手段提出了很多新的短文本主题模型,如 Twitter

LDA和GPUDMM。
[0005]尽管目前已经有许多行之有效的主题模型,但是它们要么是针对长文 本数据集来设计的,要么是针对短文本数据集来设计的,并没有同时针对 长/短文本数据集;此外,如果想挖掘一个文档(如一本书)中的主题,当 前的方法都不能直接拿来用。一个简单的想法就是将一本书拆分成含有许 多伪文档的集合(比如说一页看作一个文档,那么有多少页就有多少个伪 文档,从而一本书就成为一个伪文档集合),这样使得传统的主题模型能 够在其上奏效。然而,这种方法虽然简单,但是往往并不能得到令人满意 的效果(后续实验部分会有展示)。

技术实现思路

[0006]本专利技术提供了一种基于文本片段的对称非负矩阵分解的主题挖掘方 法,包括:对文本数据进行处理,得到词串序列;基于所述词串序列构建 文本片段序列;统计所述文本片段序列中的文本片段的词共现模式,构建 词

词共现矩阵;对所述词

词共现矩阵进行归一化处理,得到词

词相关度 矩阵S,词

词相关度矩阵S表示两两词语之间的词义相关度;将词

词相 关度矩阵S分解成词语

主题矩阵和它的转置之间的乘积,其中M 代表着词语的数目,K代表着主题的数目,词语

主题矩阵U的每一行为 每一个词语在主题空间上的表示,词语

主题矩阵U的每一列为一个主题, 并且满足:其中,O(U)表示信息损失量,F表示矩阵 的F

范数。
[0007]在一些实施例,基于所述词串序列构建文本片段序列包括:从第一词 开始,并以所述第一词为指针,以第一尺寸为半径的窗口内为一个文本片 段;将所述指针按照步长大小往下移动,形成第二个文本片段;继续将所 述指针按照步长大小往下移动,直到词串序列的末尾为止。
[0008]在一些实施例,其中,V是中间 辅助变量,为U的一个拷贝,α是非负的超参数,用来控制矩阵V和矩 阵U的接近程度,α的值越大,则这两个矩阵越接近相等。
[0009]在一些实施例,其中,γ是一个 非负的超参数,用来权衡不同因子的重要性,U1和U2是由词语

主题矩阵 U拆分得到,并且U1的规模小于U2的规模。
[0010]本申请的主题挖掘方法将重点从文档转换到局部上下文环境的文本 片段能够带来更多语义相关的主题信息,同时也减少了错误的语义信息; 另外,利用文本片段而不是文档能够用一种统一的方式来处理各式各样的 文本,无论是长文本数据集、短文本数据集,还是单个的文档(比如说一 部小说)。
附图说明
[0011]图1示出了根据一些实施例的将一个来自维基百科的文本序列处理成 一个词串序列的示意图。
[0012]图2示出了根据一些实施例的一个滑动窗口从第一个词到最后一个词 滑动过程的例子。
[0013]图3a至图3d示出了图2中的例子是如何构造成词

词共现网络的。
[0014]图4示出了基于对称非负矩阵分解的主题模型的示例,即,S≈UU
T

[0015]图5示出了基于矩阵分块的对称非负矩阵分解的主题模型,即 [0016]图6示出了根据一些实施例的随机抽样下基于矩阵分块的对称非负 矩阵分解的并行化执行。
[0017]图7示出了根据一些实施例的SBTM

R方法在单篇文档上的主题挖掘 示意图。
[0018]图8示出了根据一些实施例的不同的主题模型在不同小说划分上的 PMI

Score值。
[0019]图9示出了根据一些实施例的SBTM

S算法在长、短文本数据集上的 损失曲线图。
具体实施方式
[0020]下面的实施例可以使本领域技术人员更全面地理解本专利技术,但不以任 何方式限制本专利技术。
[0021]在自然语言处理领域中,词嵌入算法(skip

gram/CBOW)和转化器的 自我注意力机制的巨大成功表明:丰富而又深层次的语义信息可以从局部 上下文环境的词

词共现模式中习得。本申请提出了一种基于文本片段 (shingle)、而不是文档下的对称非负矩阵分解的主题挖掘方法。本申请 将文本片段(shingle)应用在文本主题建模上,并且将该方法缩写为基于 文本片段的主题建模(SBTM,Shingle

based Topic Modeling)。
[0022]从本质上来看,SBTM模型是建立在带有局部上下文环境的文本片段本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本片段的主题挖掘方法,其特征在于,包括:对文本数据进行处理,得到词串序列;基于所述词串序列构建文本片段序列;统计所述文本片段序列中的文本片段的词共现模式,构建词

词共现矩阵;对所述词

词共现矩阵进行归一化处理,得到词

词相关度矩阵S,词

词相关度矩阵S表示两两词语之间的词义相关度;将词

词相关度矩阵S分解成词语

主题矩阵和它的转置之间的乘积,其中M代表着词语的数目,K代表着主题的数目,词语

主题矩阵U的每一行为每一个词语在主题空间上的表示,词语

主题矩阵U的每一列为一个主题,并且满足:其中,O(...

【专利技术属性】
技术研发人员:陈勇乔秀全刘瑞严辉黄亚坤
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1