文本相似信息生成方法技术

技术编号:39663780 阅读:22 留言:0更新日期:2023-12-11 18:26
本公开的实施例公开了文本相似信息生成方法

【技术实现步骤摘要】
文本相似信息生成方法、装置、设备和计算机可读介质


[0001]本公开的实施例涉及计算机
,具体涉及文本相似信息生成方法

装置

设备和计算机可读介质


技术介绍

[0002]目前,在项目开展之前,常常通过投标的方式来选择项目处理者

对于投入文件(例如,所提交的投标文件)的相似度确定,通常采用的方式为:由相关专业人士人为识别的方法,来确定所提交的各个投入文件之间的相似度,以针对相似度较高的投入文件,进行投入取消操作(例如,取消投标操作)

[0003]然而,专利技术人发现,当采用上述方式,经常会存在如下技术问题:第一,效率不仅太低,且不能精准地确定两个投入文件之间的相似度,导致投入过程中常常存在围标和串标问题;第二,投入图像的图像特征提取存在偏差,且常需要较多的神经网络来进行特征信息的提取,导致计算内存占用较大,计算效率低下

[0004]该
技术介绍
部分中所公开的以上信息仅用于增强对本专利技术构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息


技术实现思路

[0005]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述

本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围

[0006]本公开的一些实施例提出了文本相似信息生成方法

装置

设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题中的一项或多项

[0007]第一方面,本公开的一些实施例提供了一种文本相似信息生成方法,包括:获取投入文件集和投放文件;对上述投入文件集和上述投放文件分别进行文件解析处理,生成投入文本集和投放文本;从上述投入文本集中的每个投入文本中去除与上述投放文本之间内容满足预设相似条件的文本内容,以生成去除后投入文本,作为投入文本;对于所得到的投入文件集中的每两个投入文件,执行以下生成步骤:确定上述两个投入文件之间的文件概述相似度;响应于确定上述文件概述相似度大于第一数值,确定上述两个投入文件对应两个投入文本之间的文本相似度;响应于确定上述文本相似度大于第二数值,生成针对上述两个投入文件的文件相似度;将上述文件相似度和上述两个投入文件对应的文件信息发送至审核端,以生成针对上述两个投入文件的文本相似信息

[0008]第二方面,本公开的一些实施例提供了一种文本相似信息生成装置,包括:获取单元,被配置成获取投入文件集和投放文件;解析处理单元,被配置成对上述投入文件集和上述投放文件分别进行文件解析处理,生成投入文本集和投放文本;去除单元,被配置成从上述投入文本集中的每个投入文本中去除与上述投放文本之间内容满足预设相似条件的文
本内容,以生成去除后投入文本,作为投入文本;执行单元,被配置成对于所得到的投入文件集中的每两个投入文件,执行以下生成步骤:确定上述两个投入文件之间的文件概述相似度;响应于确定上述文件概述相似度大于第一数值,确定上述两个投入文件对应两个投入文本之间的文本相似度;响应于确定上述文本相似度大于第二数值,生成针对上述两个投入文件的文件相似度;将上述文件相似度和上述两个投入文件对应的文件信息发送至审核端,以生成针对上述两个投入文件的文本相似信息

[0009]第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法

[0010]第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一实现方式描述的方法

[0011]本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的文本相似信息生成方法可以精准

高效地生成各个投放文件之间的文件相似度,保障了投放的有效性

具体来说,造成相关的文件相似度不够精确的原因在于:效率不仅太低,且不能精准地确定两个投入文件之间的相似度,导致投入过程中常常存在围标和串标问题

基于此,本公开的一些实施例的文本相似信息生成方法,首先,获取投入文件集和投放文件,以后续确定是否存在围标和串标情况的发生

然后,对上述投入文件集和上述投放文件分别进行文件解析处理,生成投入文本集和投放文本,以便于后续针对文本进行相似度分析

接着,从上述投入文本集中的每个投入文本中去除与上述投放文本之间内容满足预设相似条件的文本内容,以生成去除后投入文本,作为投入文本

在这里,通过去除满足预设相似条件的文本内容,以保障避免会影响两个投入文件之间的相似度确定

若不去除满足预设相似条件的文本内容,导致不能后续精准的确定出文件之间的相似程度

进而,对于所得到的投入文件集中的每两个投入文件,执行以下生成步骤:第一步,确定上述两个投入文件之间的文件概述相似度

在这里,在较小计算量的前提下,从文件概述的角度来初步确定文件之间的相似度,可以有效地确定文件之间的相似度

第二步,响应于确定上述文件概述相似度大于第一数值,确定上述两个投入文件对应两个投入文本之间的文本相似度

在这里,在文件概述相似度大于第一数值的前提下,才进一步地进行两个文件之间的文件相似度计算,以保障更精准地确定文件之间的相似度

第三步,响应于确定上述文本相似度大于第二数值,生成针对上述两个投入文件的文件相似度

在这里,在文本相似度大于第二数值的前提下,再进一步地进行两个文件之间的文件相似度计算,以保障更精准地确定文件之间的相似度

第四步,将上述文件相似度和上述两个投入文件对应的文件信息发送至审核端,以生成针对上述两个投入文件的相似信息

综上,通过多层次的逐步确定两个投入文件之间的相似度,来精准地

高效地生成各个投放文件之间的文件相似度,保障了投放的有效性

附图说明
[0012]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征

优点及方面将变得更加明显

贯穿附图中,相同或相似的附图标记表示相同或相似的元素

应当理解附图是示意性的,元件和元素不一定按照比例绘制

[0013]图1是根据本公开的文本相似信息生成方法的一些实施例的流程图;
图2是根据本公开的文本相似信息生成装置的一些实施例的结构示意图;图3是适于用来实现本公开的一些实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本相似信息生成方法,包括:获取投入文件集和投放文件;对所述投入文件集和所述投放文件分别进行文件解析处理,生成投入文本集和投放文本;从所述投入文本集中的每个投入文本中去除与所述投放文本之间内容满足预设相似条件的文本内容,以生成去除后投入文本,作为投入文本;对于所得到的投入文件集中的每两个投入文件,执行以下生成步骤:确定所述两个投入文件之间的文件概述相似度;响应于确定所述文件概述相似度大于第一数值,确定所述两个投入文件对应两个投入文本之间的文本相似度;响应于确定所述文本相似度大于第二数值,生成针对所述两个投入文件的文件相似度;将所述文件相似度和所述两个投入文件对应的文件信息发送至审核端,以生成针对所述两个投入文件的文本相似信息
。2.
根据权利要求1所述的方法,其中,所述确定所述两个投入文件对应两个投入文本之间的文本相似度,包括:对所述两个投入文本进行文本分词处理,分别得到第一词集和第二词集;对于所述第一词集中的每个词,执行以下第一处理步骤:确定所述词在所述第一词集中的词权重,作为第一词权重;生成针对所述词的词哈希签名值,作为第一词哈希签名值;将所述第一词哈希签名值和所述第一词权重进行相乘,得到第一相乘结果;将所得到第一相乘结果集中的各个第一相乘结果进行第一相乘结果相加,得到第一相加结果;对所述第一相加结果进行哈希签名处理,以生成第二词哈希签名值;对于所述第二词集中的每个词,执行以下第二处理步骤:确定所述词在所述第二词集中的词权重,作为第二词权重;生成针对所述词的词哈希签名值,作为第三词哈希签名值;将所述第二词哈希签名值和所述第二词权重进行相乘,得到第二相乘结果;将所得到第二相乘结果集中的各个第二相乘结果进行第二相乘结果相加,得到第二相加结果;对所述第二相加结果进行哈希签名处理,以生成第四词哈希签名值;确定所述第二词哈希签名值和所述第四词哈希签名值之间的差异,得到差异结果;将所述差异结果除以所述第一相加结果对应的二进制位数,得到相除结果;将目标数值减去所述相除结果,得到相减结果,作为文本相似度
。3.
根据权利要求2所述的方法,其中,所述两个投入文本包括:第一投入文本和第二投入文本;以及所述确定所述两个投入文件对应两个投入文本之间的文本相似度,包括:根据文件标题信息,对所述第一投入文本和所述第二投入文本进行标题分段,分别得到第一投入文本分段序列和第二投入文本分段序列;
确定所述第一投入文本分段序列中的每个第一投入文本分段对应的第一投入文本向量,以及确定所述第二投入文本分段序列中的每个第二投入文本分段对应的第二投入文本向量;将所得到的第一投入文本向量序列中的各个第一投入文本向量输入至多层串联连接的第一循环神经网络模型,以生成第一文本特征信息序列;将所得到的第二投入文本向量序列中的各个第二投入文本向量输入至多层串联连接的第二循环神经网络模型,以生成第二文本特征信息序列;确定所述第一文本特征信息序列中的各个第一文本特征信息与所述第二文本特征信息序列中的各个第二文本特征信息之间的特征相似度,得到特征相似度集;根据所述特征相似度集,生成至少一个特征信息组,其中,特征信息组包括的第一文本特征信息和第二文本特征信息之间的特征相似度大于第三数值;对于所述至少一个特征信息组中的每个特征信息组,执行以下信息生成步骤:将所述特征信息组包括的第一文本特征信息和第二文本特征信息输入至语义信息生成模型,以生成第一文本语义信息和第二文本语义信息;确定所述第一文本语义信息和所述第二文本语义...

【专利技术属性】
技术研发人员:代鲁峰王显岭任志鹏董亮王丽君陈曦张晓枫隋志巍王志波陈恩光宋峰旭银天伟王娟张小睦柳雁毛硕张硕
申请(专利权)人:国网信息通信产业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1