文本相似信息生成方法技术

技术编号：39663780 阅读：22 留言：0更新日期：2023-12-11 18:26

本公开的实施例公开了文本相似信息生成方法

全部详细技术资料下载

【技术实现步骤摘要】
文本相似信息生成方法、装置、设备和计算机可读介质

[0001]本公开的实施例涉及计算机
，具体涉及文本相似信息生成方法
、
装置
、
设备和计算机可读介质
。

技术介绍

[0002]目前，在项目开展之前，常常通过投标的方式来选择项目处理者
。
对于投入文件（例如，所提交的投标文件）的相似度确定，通常采用的方式为：由相关专业人士人为识别的方法，来确定所提交的各个投入文件之间的相似度，以针对相似度较高的投入文件，进行投入取消操作（例如，取消投标操作）
。
[0003]然而，专利技术人发现，当采用上述方式，经常会存在如下技术问题：第一，效率不仅太低，且不能精准地确定两个投入文件之间的相似度，导致投入过程中常常存在围标和串标问题；第二，投入图像的图像特征提取存在偏差，且常需要较多的神经网络来进行特征信息的提取，导致计算内存占用较大，计算效率低下
。
[0004]该
技术介绍
部分中所公开的以上信息仅用于增强对本专利技术构思的背景的理解，并因此，其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息
。

技术实现思路

[0005]本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述
。
本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围
。
[0006]本公开的一些实施例提出了文本相...

【技术保护点】

【技术特征摘要】
1.
一种文本相似信息生成方法，包括：获取投入文件集和投放文件；对所述投入文件集和所述投放文件分别进行文件解析处理，生成投入文本集和投放文本；从所述投入文本集中的每个投入文本中去除与所述投放文本之间内容满足预设相似条件的文本内容，以生成去除后投入文本，作为投入文本；对于所得到的投入文件集中的每两个投入文件，执行以下生成步骤：确定所述两个投入文件之间的文件概述相似度；响应于确定所述文件概述相似度大于第一数值，确定所述两个投入文件对应两个投入文本之间的文本相似度；响应于确定所述文本相似度大于第二数值，生成针对所述两个投入文件的文件相似度；将所述文件相似度和所述两个投入文件对应的文件信息发送至审核端，以生成针对所述两个投入文件的文本相似信息
。2.
根据权利要求1所述的方法，其中，所述确定所述两个投入文件对应两个投入文本之间的文本相似度，包括：对所述两个投入文本进行文本分词处理，分别得到第一词集和第二词集；对于所述第一词集中的每个词，执行以下第一处理步骤：确定所述词在所述第一词集中的词权重，作为第一词权重；生成针对所述词的词哈希签名值，作为第一词哈希签名值；将所述第一词哈希签名值和所述第一词权重进行相乘，得到第一相乘结果；将所得到第一相乘结果集中的各个第一相乘结果进行第一相乘结果相加，得到第一相加结果；对所述第一相加结果进行哈希签名处理，以生成第二词哈希签名值；对于所述第二词集中的每个词，执行以下第二处理步骤：确定所述词在所述第二词集中的词权重，作为第二词权重；生成针对所述词的词哈希签名值，作为第三词哈希签名值；将所述第二词哈希签名值和所述第二词权重进行相乘，得到第二相乘结果；将所得到第二相乘结果集中的各个第二相乘结果进行第二相乘结果相加，得到第二相加结果；对所述第二相加结果进行哈希签名处理，以生成第四词哈希签名值；确定所述第二词哈希签名值和所述第四词哈希签名值之间的差异，得到差异结果；将所述差异结果除以所述第一相加结果对应的二进制位数，得到相除结果；将目标数值减去所述相除结果，得到相减结果，作为文本相似度
。3.
根据权利要求2所述的方法，其中，所述两个投入文本包括：第一投入文本和第二投入文本；以及所述确定所述两个投入文件对应两个投入文本之间的文本相似度，包括：根据文件标题信息，对所述第一投入文本和所述第二投入文本进行标题分段，分别得到第一投入文本分段序列和第二投入文本分段序列；
确定所述第一投入文本分段序列中的每个第一投入文本分段对应的第一投入文本向量，以及确定所述第二投入文本分段序列中的每个第二投入文本分段对应的第二投入文本向量；将所得到的第一投入文本向量序列中的各个第一投入文本向量输入至多层串联连接的第一循环神经网络模型，以生成第一文本特征信息序列；将所得到的第二投入文本向量序列中的各个第二投入文本向量输入至多层串联连接的第二循环神经网络模型，以生成第二文本特征信息序列；确定所述第一文本特征信息序列中的各个第一文本特征信息与所述第二文本特征信息序列中的各个第二文本特征信息之间的特征相似度，得到特征相似度集；根据所述特征相似度集，生成至少一个特征信息组，其中，特征信息组包括的第一文本特征信息和第二文本特征信息之间的特征相似度大于第三数值；对于所述至少一个特征信息组中的每个特征信息组，执行以下信息生成步骤：将所述特征信息组包括的第一文本特征信息和第二文本特征信息输入至语义信息生成模型，以生成第一文本语义信息和第二文本语义信息；确定所述第一文本语义信息和所述第二文本语义...

【专利技术属性】
技术研发人员：代鲁峰，王显岭，任志鹏，董亮，王丽君，陈曦，张晓枫，隋志巍，王志波，陈恩光，宋峰旭，银天伟，王娟，张小睦，柳雁，毛硕，张硕，
申请(专利权)人：国网信息通信产业集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人