本发明专利技术公开了一种文本差异识别方法和装置。该方法包括:获取待进行比对的文字集合,其中,文字集合的数量至少为两个,每个文字集合中包括多个文字;将文字集合输入到分类模型中,得到分类结果;将分类结果传入检索重排序层,得到基于重排序的分数;将基于重排序的分数进行LambdaMART训练,得到训练结果;基于训练结果,输出差异文本。通过本发明专利技术,达到了提高文本差异识别方法的准确率的效果。
Text difference recognition method and device
【技术实现步骤摘要】
文本差异识别方法和装置
本专利技术涉及电力领域,具体而言,涉及一种文本差异识别方法和装置。
技术介绍
文本匹配是自然语言理解中的一个核心问题。对文本匹配的研究可以应用到大量已知的自然语言处理任务中,例如信息检索、自动问答、机器翻译、对话系统、复述问题等等。这些自然语言处理的任务都可以在一定程度上抽象成文本匹配问题,这些匹配需要关注的特性具有很大不同,如何利用一个较好的文本匹配模型,针对不同任务找到最适合的匹配方式,成为研究文本匹配这个核心问题最大的挑战。目前,国内外参考文献中的特征筛选主要使用的三类特征为:传统统计自然语言处理特征、上下文特征和现代机器学习特征。建立文件差异性检验模型有两种解决方法:字面相似度模型和判别式算法。但是现有方案有以下缺陷:(a)差异性检索召回层仅仅考虑了句子之间的匹配程度,没有考虑到两篇文章的匹配应该作为整体来进行考虑;(b)检索结果往往无法明确的区分语义“完全一致”和“存在部分差异”之间的区别。针对相关技术中文本差异识别方法不准确的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种文本差异识别方法和装置,以解决文本差异识别方法不准确的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种文本差异识别方法,该方法包括:获取待进行比对的文字集合,其中,所述文字集合的数量至少为两个,每个文字集合中包括多个文字;将所述文字集合输入到分类模型中,得到分类结果;将所述分类结果传入检索重排序层,得到基于重排序的分数;将所述基于重排序的分数进行LambdaMART训练,得到训练结果;基于所述训练结果,输出差异文本。进一步地,在将所述文字集合输入到分类模型中,得到分类结果之前,所述方法还包括:对所述待进行比对的文字集合进行特征筛选,得到每个集合的特征数据,其中,在得到每个集合的特征数据之后,将每个集合的特征数据输入到分类模型中,得到分类结果。进一步地,将所述文字集合输入到分类模型中,得到分类结果包括:将所述文字集合输入到所述分类模型中,根据TF-IDF特征、编辑距离、TF-IDF加权word2vec特征和上下文特征对所述文字集合进行分类,得到分类结果。进一步地,在得到分类结果之后,所述方法还包括:将所述分类结果分为三种类型,其中,所述三种类型包括逻辑一样,逻辑不一样和完全不一样,其中,在逻辑一样时,确定结果指数为1,在逻辑不一样时,确定结果指数为0,在完全不一样时,确定结果指数为-1;将所述结果指数为1的分类结果确定为正样本;将所述结果指数为-1的分类结构确定为负样本。进一步地,在所述正样本和所述负样本确定完成之后,所述方法还包括:对所述正样本和所述负样本进行GBDT训练,得到GBDT训练结果;对所述GBDT训练结果进行LambdaMART训练,得到所述训练结果;根据所述训练结果输出所述文字集合中的差异文本。为了实现上述目的,根据本专利技术的另一方面,还提供了一种文本差异识别装置,该装置包括:获取单元,用于获取待进行比对的文字集合,其中,所述文字集合的数量至少为两个,每个文字集合中包括多个文字;输入单元,用于将所述文字集合输入到分类模型中,得到分类结果;排序单元,用于将所述分类结果传入检索重排序层,得到基于重排序的分数;训练单元,用于将所述基于重排序的分数进行LambdaMART训练,得到训练结果;输出单元,用于基于所述训练结果,输出差异文本。进一步地,所述装置还包括:筛选单元,用于在将所述文字集合输入到分类模型中,得到分类结果之前,对所述待进行比对的文字集合进行特征筛选,得到每个集合的特征数据,其中,在得到每个集合的特征数据之后,将每个集合的特征数据输入到分类模型中,得到分类结果。进一步地,所述输入单元用于:将所述文字集合输入到所述分类模型中,根据TF-IDF特征、编辑距离、TF-IDF加权word2vec特征和上下文特征对所述文字集合进行分类,得到分类结果。为了实现上述目的,根据本专利技术的另一方面,还提供了一种存储介质,包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行本专利技术所述的文本差异识别方法。为了实现上述目的,根据本专利技术的另一方面,还提供了一种设备,至少包括一个处理器,以及与所述处理器连接的至少一个存储器、总线,其中,所述处理器、所述存储器通过所述总线完成相互间的通信,所述处理器用于调用所述存储器中的程序指令,以执行本专利技术所述的文本差异识别方法。本专利技术通过获取待进行比对的文字集合,其中,文字集合的数量至少为两个,每个文字集合中包括多个文字;将文字集合输入到分类模型中,得到分类结果;将分类结果传入检索重排序层,得到基于重排序的分数;将基于重排序的分数进行LambdaMART训练,得到训练结果;基于训练结果,输出差异文本,解决了文本差异识别方法不准确的问题,进而达到了提高文本差异识别方法的准确率的效果。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的文本差异识别方法的流程图;图2是本实施例的处理流程示意图;以及图3是根据本专利技术实施例的文本差异识别装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例提供了一种文本差异识别方法。图1是根据本专利技术实施例的文本差异识别方法的流程图,如图1所示,该方法包括以下步骤:步骤S102:获取待进行比对的文字集合,其中,文字集合的数量至少为两个,每个文字集合中包括多个文字;步骤S104:将文字集合输入到分类模型中,得到分类结果;步骤S106:将分类结果传入检索重排序层,得到基于重排序的分数;步骤S108:将基于重排序的分数进行LambdaMART训练,得到训练结果;步骤S110:基于训练结果,输出差异文本文档来自技高网...
【技术保护点】
1.一种文本差异识别方法,其特征在于,包括:/n获取待进行比对的文字集合,其中,所述文字集合的数量至少为两个,每个文字集合中包括多个文字;/n将所述文字集合输入到分类模型中,得到分类结果;/n将所述分类结果传入检索重排序层,得到基于重排序的分数;/n将所述基于重排序的分数进行LambdaMART训练,得到训练结果;/n基于所述训练结果,输出差异文本。/n
【技术特征摘要】
1.一种文本差异识别方法,其特征在于,包括:
获取待进行比对的文字集合,其中,所述文字集合的数量至少为两个,每个文字集合中包括多个文字;
将所述文字集合输入到分类模型中,得到分类结果;
将所述分类结果传入检索重排序层,得到基于重排序的分数;
将所述基于重排序的分数进行LambdaMART训练,得到训练结果;
基于所述训练结果,输出差异文本。
2.根据权利要求1所述的方法,其特征在于,在将所述文字集合输入到分类模型中,得到分类结果之前,所述方法还包括:
对所述待进行比对的文字集合进行特征筛选,得到每个集合的特征数据,
其中,在得到每个集合的特征数据之后,将每个集合的特征数据输入到分类模型中,得到分类结果。
3.根据权利要求1所述的方法,其特征在于,将所述文字集合输入到分类模型中,得到分类结果包括:
将所述文字集合输入到所述分类模型中,根据TF-IDF特征、编辑距离、TF-IDF加权word2vec特征和上下文特征对所述文字集合进行分类,得到分类结果。
4.根据权利要求3所述的方法,其特征在于,在得到分类结果之后,所述方法还包括:
将所述分类结果分为三种类型,其中,所述三种类型包括逻辑一样,逻辑不一样和完全不一样,其中,在逻辑一样时,确定结果指数为1,在逻辑不一样时,确定结果指数为0,在完全不一样时,确定结果指数为-1;
将所述结果指数为1的分类结果确定为正样本;
将所述结果指数为-1的分类结构确定为负样本。
5.根据权利要求4所述的方法,其特征在于,在所述正样本和所述负样本确定完成之后,所述方法还包括:
对所述正样本和所述负样本进行GBDT训练,得到GBDT训练结果;
对所述GBDT训练结果进行...
【专利技术属性】
技术研发人员:钱梦迪,门业堃,于钊,滕景竹,赵雪骞,
申请(专利权)人:国网北京市电力公司,国家电网有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。