【技术实现步骤摘要】
文档的向量化表示方法、装置和计算机设备
本申请涉及人工智能
,尤其涉及自然语言处理
,具体涉及一种文档的向量化表示方法、装置和计算机设备。
技术介绍
在当今互联网应用中,如何解决大量的自然语言处理任务已经迫在眉睫。事实上,将不同级别的文本表示成语义向量已成为一种简单有效的方案,人们可以将字,词语,句子,段落乃至是文档表示成语义向量,并且可以将这些向量作为下游模型的特征。自从google公司发布BERT等模型以来,各种改进的模型不断出现,刷新着自然语言理解的水平,像BERT等模型通过在大规模语料上构建学习任务,其可以自然的产生句子和词语的向量表示,然而,目前的模型设置均不合理,会导致文本中前后段落中信息之间的割裂,无法利用完整的文本信息,同时,文本中的信息损失严重。另外,目前的模型往往只能产出词语表示或者是整个文本表示,而对于中间的像句子,段落级别的表示就无法获取,然而,在处理文档及任务中,可以同时获取不同级别的表示是至关重要的。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种文档的向量化表示方法,通过两级语义模型,可以获取段落级别和文档级别的各个级别的信息,同时生成的用于指示文档主题的文档向量,获取了完整文本信息,减少了信息的损失。本申请的第二个目的在于提出一种文档的向量化表示装置。本申请的第三个目的在于提出一种计算机设备。本申请的第四个目的在于提出一种非临时性计算机可读存储介质。为达上 ...
【技术保护点】
1.一种文档的向量化表示方法,其特征在于,所述方法包括以下步骤:/n对文档切分得到多个文本片段;/n采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量;其中,所述第一级语义模型,学习得到各文本片段中的字符与片段向量之间的映射关系;所述片段向量,用于指示对应文本片段的语义;/n采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示所述文档主题的文档向量;其中,所述第二级语义模型,学习得到片段向量与文档向量之间的映射关系。/n
【技术特征摘要】
1.一种文档的向量化表示方法,其特征在于,所述方法包括以下步骤:
对文档切分得到多个文本片段;
采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量;其中,所述第一级语义模型,学习得到各文本片段中的字符与片段向量之间的映射关系;所述片段向量,用于指示对应文本片段的语义;
采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示所述文档主题的文档向量;其中,所述第二级语义模型,学习得到片段向量与文档向量之间的映射关系。
2.根据权利要求1所述的向量化表示方法,其特征在于,所述采用第一级语义模型,将各文本片段向量化表示为对应文本片段的片段向量,包括:
针对每一个文本片段在末尾加入结束字符后,输入第一语义模型,得到所述第一语义模型输出的相应文本片段中各字符的向量化表示;
将每一个文本片段中结束字符的向量化表示作为相应文本片段的片段向量。
3.根据权利要求1所述的向量化表示方法,其特征在于,所述采用第二级语义模型,对各文本片段的片段向量,进行文档语义识别得到用于指示所述文档主题的文档向量,包括:
针对每一个文本片段的片段向量,在相应片段向量中增加位置元素,得到各文本片段的输入向量;其中,所述位置元素,用于指示相应文本片段在所述文档中的位置;
将各文本片段的输入向量,以及取值为初始值的参考向量,输入第二级语义模型,以使所述第二语义模型根据各输入向量,调整所述参考向量的取值;
将取值调整后的参考向量作为所述文档向量。
4.根据权利要求2所述的向量表示确定方法,其特征在于,所述对文档切分得到多个文本片段之前,还包括:
采用第一训练任务,对所述第一级语义模型和所述第二级语义模型训练;
其中,所述第一训练任务包括:
获取任一文本片段中一个字符的向量化表示;
根据所述一个字符的向量化表示和所述文档向量,预测得到预测字符;
根据所述预测字符和所述一个字符之间的差异,调整所述第一级语义模型和所述第二级语义模型的参数。
5.根据权利要求3所述的向量表示方法,其特征在于,所述对文档切分得到多个文本片段之前,还包括:
采用第二训练任务,对所述第一级语义模型和所述第二级语义模型训练;
其中,所述第二训练任务包括:
获取训练文档的文档向量;其中,所述训练文档是将训练正文与训练标题拼接得到的;
根据所述文档向量,预测所述训练样本中训练文档与训练标题语义是否匹配;
根据预测匹配结果与实际匹配结果之间的差异,调整所述第一级语义模型和所述第二级语义模型的参数。
6.根据权利要求5所述的向量表示确定方法,其特征在于,所述训练文档为多个,包括正例和反例;
其中,作为所述正例的训练文档,是将训练正文与对应的训练标题拼接得到的;
作为反例的训练文档,是将训练正文与其他训练正文对应的训练标题拼接得到的。
7.根据权利要求1-6任一项所述的向量表示确定方法,其特征在于,所述第一级语义模型为多个,每一个第一级语义模型用于将对应的一个文本片段向量化表示为相应的片段向量;
多个所述第一级语义模型之间共享参数。
8.一种文档的向量化表示装置,其特征在于,所述装置包括:
切分模块,用于对文档切分得到多个文本片段;
表示模块,...
【专利技术属性】
技术研发人员:庞超,王硕寰,孙宇,李芝,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。