文档量化方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:39296675 阅读:13 留言:0更新日期:2023-11-07 11:04
本申请实施例提供了一种文档量化方法、装置、设备及计算机存储介质。方法包括:获取文档集中文档的词和词的位置信息,基于文档的词和词的位置信息确定每个词在预设篇幅位置出现的频率,并进一步确定每个分段内词的最大出现概率。基于每个分段内词的最大出现概率确定文档的量化序列。根据本申请实施例的文档量化方法,能够仅根据文档中词的出现频率确定词的出现概率,并进一步确定文档的量化序列,提高了文档量化的效率。文档量化的效率。文档量化的效率。

【技术实现步骤摘要】
文档量化方法、装置、设备及计算机存储介质


[0001]本申请属于数据处理
,尤其涉及一种文档量化方法、装置、设备及计算机存储介质。

技术介绍

[0002]随着互联网技术的快速发展,各种文本信息井喷式产生,在向用户提供各种各样的信息的同时,也为用户的阅读带来了巨大的负担。为了快速处理海量文本内容,机器学习技术(Machine Learning,ML)成为了关键。通过机器学习技术可以对各种文本信息进行处理,得到文档中的关键信息。但是在利用机器学习技术处理文档时,需要将文档进行量化处理,得到连续的数据,才可以进行机器学习。
[0003]现有的文档量化方法是将所有文档包含的词语按顺序记录为一个有序列表,并根据每个文档中包含的词进行赋值,即一个文档中包含的词赋值为1,否则赋值为0。利用上述方法进行文档量化时,占用的存储空间较大,且处理后的量化数据中存在大量无意义的0值,使得文档量化的方法效率较低。

技术实现思路

[0004]本申请实施例提供一种文档量化方法、装置、设备及计算机存储介质,能够基于文档中的词和词的位置信息,通过对文档分段,减少了需要处理的数据和无关数据的影响,提高了文档量化的效率。
[0005]第一方面,本申请实施例提供一种文档量化方法,方法包括:
[0006]获取包括至少两个文档的文档集数据,文档集数据包括文档集中的词和词的位置信息;
[0007]基于文档集中的词和词的位置信息计算每个文档中每个词在预设篇幅位置出现的概率;
[0008]将文档集中的每个文档划分为预设数量的分段;
[0009]基于每个文档中每个词在预设篇幅位置出现的概率确定每个文档中每个分段内词的最大出现概率;
[0010]基于每个分段内词的最大出现概率和预设权重确定文档集中每个文档的量化序列。
[0011]第二方面,本申请实施例提供了一种文档量化装置,装置包括:
[0012]获取模块,用于获取包括至少两个文档的文档集数据,文档集数据包括所述文档集中的词和词的位置信息;
[0013]计算模块,用于基于文档集中的词和词的位置信息计算每个文档中每个词在预设篇幅位置出现的概率;
[0014]划分模块,用于将文档集中每个文档划分为预设数量的分段;
[0015]确定模块,用于基于每个文档中每个词在预设篇幅位置出现的概率确定每个文档
中每个分段内词的最大出现概率;
[0016]确定模块,还用于基于每个分段内词的最大出现概率和预设权重确定文档集中每个文档的量化序列。
[0017]第三方面,本申请实施例提供了一种文档量化设备,设备包括:处理器,以及存储有计算机程序指令的存储器;处理器读取并执行计算机程序指令,以实现第一方面的文档量化方法。
[0018]第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面的文档量化方法。
[0019]第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行第一方面的文档量化方法。
[0020]本申请实施例的文档量化方法、装置、设备及计算机存储介质,能够获取文档集中的词和词的位置信息,并基于词和词的位置信息计算词的出现概率。通过将文档分段,在每个分段内选择词的最大出现概率,能够减少数据计算量,并结合每个分段的预设权重计算得到文档的量化序列,提高了文档量化的效率。
附图说明
[0021]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本申请实施例提供的一种文档量化方法的流程示意图;
[0023]图2是本申请实施例提供的一种文档量化的流程图;
[0024]图3是本申请实施例提供的一种文档量化装置的结构示意图;
[0025]图4是本申请实施例提供的一种文档量化设备的结构示意图。
具体实施方式
[0026]下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
[0027]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0028]目前,在互联网
,为了快速处理大量文档的内容,需要通过机器学习处理技术来进行。而在利用机器学习算法处理之前,需要将大量文档内容转换成数字化的标识
的形式,以便于机器算法处理。现有的文档量化方法需要将所有文档中包含的词组成有序列表,通过判断每个文档中是否包含相应的词组成文档的包含0和1的量化序列。但其中大量的0值没有实际意义,占用大量存储空间,同时降低了文档量化效率。
[0029]为了解决现有技术问题,本申请实施例提供了一种文档量化方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的文档量化方法进行介绍。
[0030]图1示出了本申请一个实施例提供的文档量化方法的流程示意图。如图1所示,该方法可以包括以下步骤:
[0031]S110、获取包括至少两个文档的文档集数据,文档集数据包括文档集中的词和词的位置信息。
[0032]获取文档集的数据,文档集的数据包括文档集中所有文档包括的词和词的位置信息,其中,文档集包括至少两个文档。具体地,文档集D={d1,d2,

,di,

dn}(1≤i≤n),其中,di表示文档集D中的第i篇文档,di={vij,sij}(1≤j≤m),vij为第i篇文档中的第j个词,sij为第i篇文档中的第j个词到文档中特定篇幅位置T的距离,sij=(j

T)/m。其中,词的位置信息为词到特定篇幅位置T的距离。
[0033]S120、基于文档集中的词和词的位置信息计算每个文档中每个词在预设篇幅位置出现的概率。
[0034]根据获取的文档集中所有文档包括的词和词的位置信息,计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档量化方法,其特征在于,包括:获取包括至少两个文档的文档集数据,所述文档集数据包括所述文档集中的词和词的位置信息;基于所述文档集中的词和词的位置信息计算每个文档中每个词在预设篇幅位置出现的概率;将所述文档集中的每个文档划分为预设数量的分段;基于所述每个文档中每个词在预设篇幅位置出现的概率确定每个文档中每个分段内词的最大出现概率;基于所述每个分段内词的最大出现概率和预设权重确定所述文档集中每个文档的量化序列。2.根据权利要求1所述的方法,其特征在于,所述基于所述文档集中的词和词的位置信息计算每个文档中每个词在预设篇幅位置出现的概率,包括:基于所述文档集中的词和词的位置信息计算所述文档集中的词在所述文档集中的第一频率;基于所述文档集中的词和词的位置信息计算所述文档集中的词在所述文档集中预设位置的第二频率;基于所述第一频率和所述第二频率计算每个文档中每个词在预设位置出现的概率。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述每个分段内词的最大出现概率和预设权重确定所述文档集中文档的量化序列,包括:当所述每个分段内词的最大出现概率满足预设条件时,基于所述每个分段内词的最大出现概率和预设权重确定所述文档集中文档的量化序列。4.根据权利要求3所述的方法,其特征在于,所述按照预设分段数量将所述文档集中的文档分段之前,所述方法还包括:判断是否获取完所述文档集中的词和词的位置信息,得到第一结果;当所述第一结果为否时,继续获取文档集中的词和词的位置信息。5.根据权利要求1所述的方法,其特征在于,所述预设的每段文档的权重为基于历史文档数据,通过最小二乘法计算得到的权重。6.一种文档量化装置,其特征在于,所述装置包括:获取模块,用于获取包括至少两个文档的文档集数据,所述文档集数据包括所述文档集中的词和词的位置信息;计算模块,用于基于所述文档集中的词和词的位置信息计算每个文档中每个词在预设篇幅位置出现的概率;划分模块,用于将所述文档集中每个文档划分为预设数量的分段;确定模块,用于基于所述每个文档中每个词在预设篇幅位置出现的概率确定每个文档中每个分段内词的最大出...

【专利技术属性】
技术研发人员:彭公孚张韬孟晓莉
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1