System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于段落划分的长文本相似度比对方法技术_技高网

一种基于段落划分的长文本相似度比对方法技术

技术编号:40657072 阅读:10 留言:0更新日期:2024-03-13 21:34
本发明专利技术提供一种基于段落划分的长文本相似度比对方法,包括:用语义相似度和词频方法综合计算长文本中每一个段落的聚类结果;根据语义相似度和词频方法综合计算结果建立顺序层次聚类模型并进行段落划分;基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果;获取待比对的两个长文本的每一个段落的融合嵌入向量,进行段落相似度比对交叉计算,并基于最优比对结果进行相似度内容提取。该方法能够有效提升长文本语义对比计算效率和精度,实现长文本去重或相似文本提取等需求。

【技术实现步骤摘要】

本专利技术涉及人工智能和自然语言处理领域,更具体地,涉及一种基于段落划分的长文本相似度比对方法


技术介绍

1、在人工智能技术背景下,自然语言处理走向了智能化和规模化。随着自然语言处理被广泛应用信息检索、新闻分类、情感分析、垃圾邮件过滤等领域,文本相似度比对方法被不断深入研究。随着互联网的普及,文本数据的规模不断的扩增,已经步入了大数据时代,因此如何精准进行长文本信息的比对以及分类成为当代研究的焦点。其中,各种文本比对算法对输入文本的长度限制以及多段文本的顺序限制成为其核心问题,需要采取一定的算法打破这两种限制。

2、关于文本比对算法对文本长度的限制,bert等模型都有输入长度的限制,大模型算法似乎没有限制,其根本也是通过算法迭代解决,即将长文本变成多个短文本。显然,不能物理去切分长文本,而要根据自然意义或者说一定的合理段落去切分,问题的核心变成怎样识别长本文的自然段落,区别于作者往往根据主题或者写作要求划分的段落。


技术实现思路

1、本专利技术针对现有技术中存在的技术问题,提供一种基于段落划分的长文本相似度比对方法,包括:

2、基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果;

3、根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,基于顺序层次聚类进行段落划分,得到初步段落划分结果;

4、根据初步段落划分结果,基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果;>

5、获取待比对的两个长文本的段落划分结果,并获取每个长文本的每个段落的融合嵌入向量;

6、基于两个长文本的每个段落的融合嵌入向量,进行段落相似度比对交叉计算,得到两个长文本的段落匹配结果,并根据段落匹配结果从两个长文本中提取相似段落内容。

7、本专利技术提供的一种基于段落划分的长文本相似度比对方法,合理地对长文本进行段落划分,将长文本的比对转化为段落的比对,由此避免长文本相似度比对中的文本长度限制问题。本专利技术方案能够解决长文本分析比对中的居多限制问题,并通过聚类指标和输入向量的合理选择有效提升比对精度,由此为自然语言处理中长文本处理提供一种新的可选方案。

本文档来自技高网...

【技术保护点】

1.一种基于段落划分的长文本相似度比对方法,其特征在于,包括:

2.根据权利要求1所述的基于段落划分的长文本相似度比对方法,其特征在于,基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,包括:

3.根据权利要求2所述的基于段落划分的长文本相似度比对方法,其特征在于,所述根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,建立顺序层次聚类进行段落划分,得到初步段落划分结果,包括:

4.根据权利要求3所述的基于段落划分的长文本相似度比对方法,其特征在于,所述根据初步段落划分结果,基于信息熵最小化判断选取最合理的聚类层次作为最优段落划分结果,包括:

5.根据权利要求4所述的基于段落划分的长文本相似度比对方法,其特征在于,所述计算每一个特征词在对应句子中的信息熵和段外信息熵,包括:

6.根据权利要求4所述的基于段落划分的长文本相似度比对方法,其特征在于,对于每一个簇,穷尽计算所有的可能的句子划分组合的信息熵,找到目标函数计算结果最小的句子划分组合,包括:

【技术特征摘要】

1.一种基于段落划分的长文本相似度比对方法,其特征在于,包括:

2.根据权利要求1所述的基于段落划分的长文本相似度比对方法,其特征在于,基于语义相似度和词频方法获取长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,包括:

3.根据权利要求2所述的基于段落划分的长文本相似度比对方法,其特征在于,所述根据长文本中每个句子与其它句子的语义相似度计算结果和词频计算结果,建立顺序层次聚类进行段落划分,得到初步段落划分结果,包括:

4.根据权利要...

【专利技术属性】
技术研发人员:丁又华刘鑫程欣张刚方显强胡方磊王锋胡龙华童庆李聪颖陈永山刘朝阳
申请(专利权)人:中船凌久高科武汉有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1