一种基于智能加权分词技术的文本相似度计算方法和系统技术方案

技术编号:25551124 阅读:25 留言:0更新日期:2020-09-08 18:50
本申请提供了一种基于智能加权分词技术的文本相似度计算方法,其中该方法包括:获取第一文本和第二文本;根据所述第一文本和所述第二文本所在领域构建加权词库;对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表;将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本;将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。

【技术实现步骤摘要】
一种基于智能加权分词技术的文本相似度计算方法和系统
本申请涉及计算机
,具体而言,本申请涉及一种基于智能加权分词技术的文本相似度计算方法和系统。
技术介绍
文本相似度可以用来衡量文本间的共性或差异,数据挖掘、信息检索、摘要生成等多个领域具有重要应用。目前已经有大量计算文本相似度的研究,并且取得了显著的成果。最初的文本相似度由基于纯数学计算方法获取,如基于余弦相似性的相似度计算技术和基于词移距离的相似度计算技术。随着计算机技术的发展,文本相似度的计算方法转向基于空间向量模型的方法,此类方法中使用词权重计算方法如SmoothInverseFrequency、tfidf词频权重法、领域关联因子计算法、bootstarpping算法,计算每个词语的权重,但是对每个词嵌入赋予不同的权重,在基于词权重的文本相似度计算技术中,词语的权重越大,其在文本相似度分析中的重要性越大。目前已有文本相似度计算方法的技术方案归纳如下:基于余弦相似性的相似度计算技术:在平均词嵌入之间求余弦相似性的基准方法;基于词移距离的相似度计算技术:使用两文本间的词嵌入,测量其中一文本中的单词在语义空间中移动到另一文本单词所需要的最短距离;基于语料库相似度匹配算法:主要是基于神经网络的方法,经过有监督学习的算法得到训练分类器,利用此分类器计算短文本之间的相似度分数。基于词权重的相似度计算技术:目前在词权重的计算方法上已经提出了很多有效的方,如SmoothInverseFrequency、tfidf词频权重法、领域关联因子计算法、bootstarpping算法,计算每个词语的权重,但是对每个词嵌入赋予不同的权重。但是,针对特定领域,在每个文本中都会出现一些重复词语,相似度比较如果是对文本的全部内容进行,则这些大量存在的重复词语会导致文本相似度计算的准确率下降。而现有的文本相似度算法中,正是因为同时考虑了大量重复词语,导致了计算效率低、准确度低的技术问题。
技术实现思路
本申请提供了一种基于智能加权分词技术的文本相似度计算方法,对特定领域的待对比文本,通过剔除本领域中所有文本都会出现的重复词语,来获取文本核心内容并进行文本相似度计算,从而可提高文本相似度计算的准确率。本申请采用的技术方案如下:第一方面,提供了一种基于智能加权分词技术的文本相似度计算方法,该方法包括:获取第一文本和第二文本;根据所述第一文本和所述第二文本所在领域构建加权词库;对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表;将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本;将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。优选地,在上述基于智能加权分词技术的文本相似度计算方法中,还包括:根据所述第一文本和所述第二文本所在领域选取文本库;按照指定分词算法,基于标准词库对所述文本库中的文本分词,获取样本词库;计算所述样本词库各个词语的频率及概率密度函数;将各个所述词语的频率分别与预设的词频阈值比较,如果所述词语的频率大于预设的词频阈值,则将所述词语添加至加权词库。第二方面,提供了一种基于智能加权分词技术的文本相似度计算系统,所述基于智能加权分词技术的文本相似度计算系统包括:获取模块、加权词库模块、分词模块、核心文本模块,计算模块,其中:所述获取模块,用于获取第一文本和第二文本;所述加权词库模块,用于根据所述第一文本和所述第二文本所在领域构建加权词库;所述分词模块,用于对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表;所述核心文本模块,用于将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本;所述计算模块,用于将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。优选地,在上述基于智能加权分词技术的文本相似度计算系统中,所述基于智能加权分词技术的文本相似度计算系统还包括文本库模块、样本词库模块、样本词库计算模块、比较模块,其中:所述文本库模块,用于根据所述第一文本和所述第二文本所在领域选取文本库;所述样本词库模块,用于按照指定分词算法,基于标准词库对所述文本库中的文本分词,获取样本词库;所述样本词库计算模块,用于计算所述样本词库各个词语的频率及概率密度函数;所述比较模块,用于将各个所述词语的频率分别与预设的词频阈值比较,如果所述词语的频率大于预设的词频阈值,则将所述词语添加至加权词库。第三方面,提供了一种基于智能加权分词技术的文本相似度计算设备,其包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述服务模拟设备运行时,所述处理器与所述存储介质之间通过所述总线通信,所述处理器执行所述机器可读指令,以执行前述的基于智能加权分词技术的文本相似度计算方法的步骤。第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行前述的基于智能加权分词技术的文本相似度计算方法的步骤。本申请提供了一种基于智能加权分词技术的文本相似度计算方法和系统,与现有技术中,现有的文本相似度算法因为同时考虑了大量重复词语,导致了计算效率低、准确度低的技术问题相比,本申请中,提供了一种基于智能加权分词技术的文本相似度计算方法,对特定领域的待对比文本,通过剔除本领域中所有文本都会出现的重复词语,来获取文本核心内容并进行文本相似度计算,从而可提高文本相似度计算的准确率。本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请实施例的一种基于智能加权分词技术的文本相似度计算方法的业务流程图;图2为本申请实施例的一种基于智能加权分词技术的文本相似度计算方法系统的结构图。具体实施方式下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更本文档来自技高网
...

【技术保护点】
1.一种基于智能加权分词技术的文本相似度计算方法,其特征在于,包括:/n获取第一文本和第二文本;/n根据所述第一文本和所述第二文本所在领域构建加权词库;/n对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表;/n将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本;/n将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。/n

【技术特征摘要】
1.一种基于智能加权分词技术的文本相似度计算方法,其特征在于,包括:
获取第一文本和第二文本;
根据所述第一文本和所述第二文本所在领域构建加权词库;
对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表;
将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本;
将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。


2.根据权利要求1所述的一种基于智能加权分词技术的文本相似度计算方法,其特征在于,根据所述第一文本和所述第二文本所在领域构建加权词库的步骤中包括:
根据所述第一文本和所述第二文本所在领域选取文本库;
按照指定分词算法,基于标准词库对所述文本库中的文本分词,获取样本词库;
计算所述样本词库各个词语的频率及概率密度函数;
将各个所述词语的频率分别与预设的词频阈值比较,如果所述词语的频率大于预设的词频阈值,则将所述词语添加至加权词库。


3.一种基于智能加权分词技术的文本相似度计算系统,其特征在于,所述基于智能加权分词技术的文本相似度计算系统包括:获取模块、加权词库模块、分词模块、核心文本模块,计算模块,其中:
所述获取模块,用于获取第一文本和第二文本;
所述加权词库模块,用于根据所述第一文本和所述第二文本所在领域构建加权词库;
所述分词模块,用于对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表;
所述...

【专利技术属性】
技术研发人员:周丽娟王晓旭王乐
申请(专利权)人:中信银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1