文档向量化方法及装置、计算机可读存储介质、计算机设备制造方法及图纸

技术编号:38205571 阅读:9 留言:0更新日期:2023-07-21 16:52
一种文档向量化方法及装置、计算机可读存储介质、计算机设备,所述方法包括:将目标文档分割得到一个或多个句子;对每个句子进行分词,得到每个句子中的一个或多个词;生成每个句子对应的句子向量,每个句子向量由对应的句子包含的一个或多个词对应的词向量构建;将所述目标文档的所有句子向量输入神经主题模型中,得到所述目标文档的主题向量。由此,高效地训练和生成高质量的长文档表示,能够有效地改善文档分析、识别、分类的结果。分类的结果。分类的结果。

【技术实现步骤摘要】
文档向量化方法及装置、计算机可读存储介质、计算机设备


[0001]本专利技术涉及文档分析领域以及计算机
,尤其涉及一种文档向量化方法及装置、计算机可读存储介质、计算机设备。

技术介绍

[0002]在对多字节集合构成的文档进行识别、分析、分类等处理时,通常需要先将文档转化为计算机可识别的文档表示。
[0003]传统的文档表示方式包括基于词

向量转化(word to vector,简称Word2Vec)模型或全局向量(Global Vectors,简称GloVe)模型等工具,将文档转化为对应的向量。然而,使用传统的文档表示方法在后续的文档分析、识别、分类等场景中使用时,会导致文档分析、识别、分类的效果较差。在处理字节数较多的长文档时,这一问题尤为明显。
[0004]因此,如何高效地训练和生成高质量的长文档表示,能够有效地改善文档分析、识别、分类的结果,成为当前亟需解决的问题。

技术实现思路

[0005]本专利技术解决的技术问题是如何高效地训练和生成高质量的长文档表示,能够有效地改善文档分析、识别、分类的结果。
[0006]为解决上述问题,本专利技术实施例提供了一种文档向量化方法,所述方法包括:将目标文档分割得到一个或多个句子;对每个句子进行分词,得到每个句子中的一个或多个词;生成每个句子对应的句子向量,每个句子向量由对应的句子包含的一个或多个词对应的词向量构建;将所述目标文档的所有句子向量输入神经主题模型中,得到所述目标文档的主题向量。
[0007]可选的,所述神经主题模型包括句子主题层和文档主题层,所述句子主题层用于计算所述目标文档中各个句子向量对应的文档主题向量;所述文档主题层用于根据所述句子主题层得到的文档主题向量,生成所述目标文档的主题向量。
[0008]可选的,所述神经主题模型还包括:分类层,所述分类层是以样本文档及所述样本文档的分类结果作为训练样本训练得到的,并且在训练后得到参数集;所述句子主题层在所述参数集的控制下,计算输入的各个句子向量对应的文档主题向量。
[0009]可选的,所述分类层用于计算所述样本文档的所有句子向量对应的文档主题向量的均值,并根据计算得到的均值对所述样本文档进行分类得到所述样本文档的分类结果。
[0010]可选的,所述方法还包括:通过所述句子主题层计算所述目标文档中各个句子向量对应的文档主题向量;通过所述分类层计算所述目标文档的所有句子向量对应的文档主题向量的均值,记作目标文档的均值向量;获取查询内容,生成所述查询内容的向量;计算所述目标文档的均值向量与所述查询内容的向量之间的相似度。
[0011]可选的,所述训练样本的构建方式,包括:获取所述样本文档和所述样本文档的分类结果,生成所述样本文档包含的一个或多个句子的句子向量;确定所述样本文档中每个
句子的标签,所述样本文档中每个句子的标签通过以下公式表示:
[0012][0013]其中,表示所述样本文档的标签,为所述样本文档T
i
中第n个句子v
j
的标签,n为所述样本文档中包含的句子数量;其中,通过如下公式得到:
[0014][0015]将所述样本文档的所有句子向量、所有句子的标签和分类结果作为所述训练样本。
[0016]可选的,所述样本文档中的每个句子向量通过以下公式表示:
[0017][0018]其中,表示第l个句子中的第j个词的词向量,为第l个句子,v
j
为本句子中的第j个词;i为所述样本文档中的句子数量,l的取值为1,2

i;表示词v
j
在句子中的倒文本词频;通过以下公式得到:
[0019][0020]其中,表示词v
j
在句子中出现的次数,表示句子的总词数,N为样本文档的数量,为样本文档中包含词v
j
的文档数量。
[0021]可选的,所述方法还包括:获取查询内容,生成所述查询内容的向量;计算所述查询内容的向量与所述目标文档的主题向量之间的相似度。
[0022]本专利技术实施例还提供一种文档向量化装置,包括:句子分割模块,用于将目标文档分割得到一个或多个句子;分词模块,用于对每个句子进行分词,得到每个句子中的一个或多个词;句子向量生成模块,用于生成每个句子对应的句子向量,每个句子向量由对应的句子包含的一个或多个词对应的词向量构建;主题向量获取模块,用于将所述目标文档的所有句子向量输入神经主题模型中,得到所述目标文档的主题向量。
[0023]本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行任一项所述文档向量化方法的步骤。
[0024]本专利技术实施例还提供一种计算机设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行任一项所述文档向量化方法的步骤。
[0025]与现有技术相比,本申请实施例的技术方案具有以下有益效果:
[0026]较之现有技术,本专利技术实施例的提供的文档向量化,能够使神经主题模型(NTM)抓住输入的文档的不同片段(也即不同句子)之间的联系,能够修正生成的主题向量的调整范围,得到更满足分类需求或者说更具有针对性的目标文档的主题向量,从而能够为后续的文档分析、识别、分类场景提供高质量的文档表示。
[0027]并且,本方法采用的NTM属于轻量级模型,在处理字符串较多的长文档时,以该长文档作为目标文档,NTM会为每篇长文档生成对应的主题向量。这样既保证了长文档输入的完整性,又可以通过任务监督的方法迭代训练模型。由于使用了完整的文档信息,训练速度快,得到的文档表示(也即文档的主题向量)能够有效提高不同文档匹配时的准确率。
[0028]进一步,本专利技术实施例提供的NTM可以包括用于确定目标文档中各个句子的句子向量与目标文档的主题向量之间的关联关系的句子主题层,以及从目标文档提取的主题内容的向量的文档主题层。由此,能够通过各个句子向量对应的文档主题向量保留目标文档的各个片段与文档主题的关联关系,并通过目标文档的主题内容,简要表示目标文档的主要内容。由此,能够为后续的文档分析、识别、分类场景提供高质量的文档表示。
[0029]进一步,本专利技术实施例提供的NTM还可以包括分类层,在生成输入目标文档各个句子向量对应的文档主题向量时,受到分类层对文档进行分类的限制。分类层能够修正句子主题层生成的文档主题向量的调整范围,得到更满足分类需求或者说更具有针对性的文档主题向量,从而能够为后续的文档分析、识别、分类场景提供高质量的文档表示。
[0030]进一步,本专利技术实施例提供了两种短文档与长文档的相似度的计算方法,能够保留长文档各个片段(也即各个句子)之间的联系,得到更准确的相似度计算结果。并且本方案中选用的模型的参数量更少,减少了计算资源。
附图说明
[0031]图1是本专利技术实施例的一种文档向量化方法的流程示意图;
...

【技术保护点】

【技术特征摘要】
1.一种文档向量化方法,其特征在于,所述方法包括:将目标文档分割得到一个或多个句子;对每个句子进行分词,得到每个句子中的一个或多个词;生成每个句子对应的句子向量,每个句子向量由对应的句子包含的一个或多个词对应的词向量构建;将所述目标文档的所有句子向量输入神经主题模型中,得到所述目标文档的主题向量。2.根据权利要求1所述的方法,其特征在于,所述神经主题模型包括句子主题层和文档主题层,所述句子主题层用于计算所述目标文档中各个句子向量对应的文档主题向量;所述文档主题层用于根据所述句子主题层得到的文档主题向量,生成所述目标文档的主题向量。3.根据权利要求2所述的方法,其特征在于,所述神经主题模型还包括:分类层,所述分类层是以样本文档及所述样本文档的分类结果作为训练样本训练得到的,并且在训练后得到参数集;所述句子主题层在所述参数集的控制下,计算输入的各个句子向量对应的文档主题向量。4.根据权利要求3所述的方法,其特征在于,所述分类层用于计算所述样本文档的所有句子向量对应的文档主题向量的均值,并根据计算得到的均值对所述样本文档进行分类得到所述样本文档的分类结果。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:通过所述句子主题层计算所述目标文档中各个句子向量对应的文档主题向量;通过所述分类层计算所述目标文档的所有句子向量对应的文档主题向量的均值,记作目标文档的均值向量;获取查询内容,生成所述查询内容的向量;计算所述目标文档的均值向量与所述查询内容的向量之间的相似度。6.根据权利要求3或4所述的方法,其特征在于,所述训练样本的构建方式,包括:获取所述样本文档和所述样本文档的分类结果,生成所述样本文档包含的一个或多个句子的句子向量;确定所述样本文档中每个句子的标签,所述样本文档中每个句子的标签通过以下公式表示:其中,表示所述样本文档的标签,为所述样本文档T
i
中第n个句子v

【专利技术属性】
技术研发人员:郭顺陈成才
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1