文档的向量化表示方法、装置和计算机设备制造方法及图纸

技术编号:23984744 阅读:29 留言:0更新日期:2020-04-29 12:59
本申请提出一种文档的向量化表示方法、装置和计算机设备,本申请涉及自然语言处理技术领域,其中,方法包括:通过对文档切分得到多个文本片段,采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量,片段向量,用于指示对应文本片段的语义,进而,采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示文档主题的文档向量,通过两级语义模型,可以获取段落级别和文档级别的各个级别的信息,同时生成的用于指示文档主题的文档向量,获取了完整文本信息,减少了信息的损失,提高了生成的文档向量的准确度,解决了现有技术中文档向量化表示时信息损失严重和无法获取文档中不同级别的向量化表示的技术问题。

Vectorization representation of documents, devices and computer equipment

【技术实现步骤摘要】
文档的向量化表示方法、装置和计算机设备
本申请涉及人工智能
,尤其涉及自然语言处理
,具体涉及一种文档的向量化表示方法、装置和计算机设备。
技术介绍
在当今互联网应用中,如何解决大量的自然语言处理任务已经迫在眉睫。事实上,将不同级别的文本表示成语义向量已成为一种简单有效的方案,人们可以将字,词语,句子,段落乃至是文档表示成语义向量,并且可以将这些向量作为下游模型的特征。自从google公司发布BERT等模型以来,各种改进的模型不断出现,刷新着自然语言理解的水平,像BERT等模型通过在大规模语料上构建学习任务,其可以自然的产生句子和词语的向量表示,然而,目前的模型设置均不合理,会导致文本中前后段落中信息之间的割裂,无法利用完整的文本信息,同时,文本中的信息损失严重。另外,目前的模型往往只能产出词语表示或者是整个文本表示,而对于中间的像句子,段落级别的表示就无法获取,然而,在处理文档及任务中,可以同时获取不同级别的表示是至关重要的。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种文档的向量化表示方法,通过两级语义模型,可以获取段落级别和文档级别的各个级别的信息,同时生成的用于指示文档主题的文档向量,获取了完整文本信息,减少了信息的损失。本申请的第二个目的在于提出一种文档的向量化表示装置。本申请的第三个目的在于提出一种计算机设备。本申请的第四个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本申请第一方面实施例提出了一种文档的向量化表示方法,包括:对文档切分得到多个文本片段;采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量;其中,所述第一级语义模型,学习得到各文本片段中的字符与片段向量之间的映射关系;所述片段向量,用于指示对应文本片段的语义;采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示所述文档主题的文档向量;其中,所述第二级语义模型,学习得到片段向量与文档向量之间的映射关系。为达上述目的,本申请第二方面实施例提出了一种文档的向量化表示装置,所述装置包括:切分模块,用于对文档切分得到多个文本片段;表示模块,用于采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量;其中,所述第一级语义模型,学习得到各文本片段中的字符与片段向量之间的映射关系;所述片段向量,用于指示对应文本片段的语义;识别模块,用于采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示所述文档主题的文档向量;其中,所述第二级语义模型,学习得到片段向量与文档向量之间的映射关系。为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如第一方面所述的文档的向量化表示方法。为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如第一方面所述的文档的向量化表示方法。本申请实施例所提供的技术方案可以包含如下的有益效果:通过对文档切分得到多个文本片段,采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量,其中,第一级语义模型,学习得到各文本片段中的字符与片段向量之间的映射关系,片段向量,用于指示对应文本片段的语义,进而,采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示文档主题的文档向量,其中,第二级语义模型,学习得到片段向量与文档向量之间的映射关系,通过两级语义模型,可以获取段落级别和文档级别的各个级别的信息,同时生成的用于指示文档主题的文档向量,获取了完整文本信息,减少了信息的损失。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请实施例所提供的一种文档的向量化表示方法的流程示意图;图2为本申请实施例提供的另一种文档的向量化表示方法的流程示意图;图3为本申请提供的模型的结构示意图;图4为本申请实施例提供的又一种文档的向量化表示方法的流程示意图;图5为本申请实施例提供的一种文档的向量化表示装置的结构示意图;以及图6为本申请实施例的文档的向量化表示方法的电子设备的框图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的文档的向量化表示方法、装置和计算机设备。现有技术中,对文档进行向量化表示,主要有以下两种做法:一种做法是利用google公司发布的BERT等模型通过在大规模语料上构建学习任务,其可以自然的产生句子和词语的向量表示,这些向量对于许多自然语言理解任务都是十分有益的特征。而这些模型的输入长度往往是有限的,当面对更长的文本其往往是鞭长莫及,事实上,通常的做法是将这些文本进行截断以适应模型的输入长度,但这往往是非常致命的,例如,对于文本摘要任务,当重要的信息出现在了规定长度之外,这个任务必然不可实现。事实上,研究者们为了将BERT等语言模型进一步应用的长文本上,设计了更加巧妙的模型结构,例如Tansformer-XL等改进模型,其相当于在上一步中计算上一段文本的表示,在当前步中利于上一段的表示前馈计算当前段的表示,这种方式会使得训练中的前馈和后馈阶段割裂。另一种做法是使用LSA等主题模型,将文档处理为词袋矩阵,矩阵的每一行表示一篇文章,每一列表示一个词语,每一个位置的值表示为对应文章中该词语出现的次数,通过对这个矩阵的非奇异值分解,得到文章对应的主题词,使用主题词来表示这篇文档。其实,对于使用LSA等主题模型存在着许多的问题:首先,LSA是通过矩阵分解得到,空间中维度的物理含义不明确,无法解释;另外,模型计算范式复杂,不易理解,主题数目的设置需要人工设定,可能导致不合理,且对文本中的信息损失严重。为了解决现有技术中,文档向量化表示时信息损失严重和无法获取文档中不同级别的向量化表示的技术问题,本申请提出了一种文档的向量化表示方法,通过对文档切分得到多个文本片段,采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量,其中,第一级语义模型,学习得到各文本片段中的字符与片段向量之间的映射关系,片段向量,用于指示对应文本片段的语义,进而,采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示文档主题的文档向量,其中,第二级语义模型,学习得到片段向量与文档向量之间的映射关系,本文档来自技高网...

【技术保护点】
1.一种文档的向量化表示方法,其特征在于,所述方法包括以下步骤:/n对文档切分得到多个文本片段;/n采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量;其中,所述第一级语义模型,学习得到各文本片段中的字符与片段向量之间的映射关系;所述片段向量,用于指示对应文本片段的语义;/n采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示所述文档主题的文档向量;其中,所述第二级语义模型,学习得到片段向量与文档向量之间的映射关系。/n

【技术特征摘要】
1.一种文档的向量化表示方法,其特征在于,所述方法包括以下步骤:
对文档切分得到多个文本片段;
采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量;其中,所述第一级语义模型,学习得到各文本片段中的字符与片段向量之间的映射关系;所述片段向量,用于指示对应文本片段的语义;
采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示所述文档主题的文档向量;其中,所述第二级语义模型,学习得到片段向量与文档向量之间的映射关系。


2.根据权利要求1所述的向量化表示方法,其特征在于,所述采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量,包括:
针对每一个文本片段在末尾加入结束字符后,输入第一语义模型,得到所述第一语义模型输出的相应文本片段中各字符的向量化表示;
将每一个文本片段中结束字符的向量化表示作为相应文本片段的片段向量。


3.根据权利要求1所述的向量化表示方法,其特征在于,所述采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示所述文档主题的文档向量,包括:
针对每一个文本片段的片段向量,在相应片段向量中增加位置元素,得到各文本片段的输入向量;其中,所述位置元素,用于指示相应文本片段在所述文档中的位置;
将各文本片段的输入向量,以及取值为初始值的参考向量,输入第二级语义模型,以使所述第二语义模型根据各输入向量,调整所述参考向量的取值;
将取值调整后的参考向量作为所述文档向量。


4.根据权利要求2所述的向量表示确定方法,其特征在于,所述对文档切分得到多个文本片段之前,还包括:
采用第一训练任务,对所述第一级语义模型和所述第二级语义模型训练;
其中,所述第一训练任务包括:
获取任一文本片段中一个字符的向量化表示;
根据所述一个字符的向量化表示和所述文档向量,预测得到预测字符;
根据所述预测字符和所述一个字符之间的差异,调整所述第一级语义模型和所述第二级语义模型的参数。


5.根据权利要求3所述的向量表示方法,其特征在于,所述对文档切分得到多个文本片段之前,还包括:
采用第二训练任务,对所述第一级语义模型和所述第二级语义模型训练;
其中,所述第二训练任务包括:
获取训练文档的文档向量;其中,所述训练文档是将训练正文与训练标题拼接得到的;
根据所述文档向量,预测所述训练样本中训练文档与训练标题语义是否匹配;
根据预测匹配结果与实际匹配结果之间的差异,调整所述第一级语义模型和所述第二级语义模型的参数。


6.根据权利要求5所述的向量表示确定方法,其特征在于,所述训练文档为多个,包括正例和反例;
其中,作为所述正例的训练文档,是将训练正文与对应的训练标题拼接得到的;
作为反例的训练文档,是将训练正文与其他训练正文对应的训练标题拼接得到的。


7.根据权利要求1-6任一项所述的向量表示确定方法,其特征在于,所述第一级语义模型为多个,每一个第一级语义模型用于将对应的一个文本片段向量化表示为相应的片段向量;
多个所述第一级语义模型之间共享参数。


8.一种文档的向量化表示装置,其特征在于,所述装置包括:
切分模块,用于对文档切分得到多个文本片段;
表示模块,...

【专利技术属性】
技术研发人员:庞超王硕寰孙宇李芝
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1