【技术实现步骤摘要】
一种相似文档检索方法、装置、电子设备及存储介质
[0001]本专利技术涉及文档检索
,尤其涉及一种相似文档检索方法、装置、电子设备及存储介质。
技术介绍
[0002]随着信息社会的推进,越来越多的文档(如学术论文、小说、新闻等)以二进制的形式存储到计算机硬盘之类的存储介质上,即使文档数量增长的很快,但是通过数据库相关技术,计算机依然可以从庞大的文档库中快速地检索出符合特定条件(比如出现了特定标题或特定关键词)的文档。然而,仅仅检索标题或者关键词是不足以支撑所有应用场景的,有时候需要检索出目标文档的相似文档集合,比如论文查重系统需要快速检测出和目标论文语义上相似的论文集合,自媒体发布审核系统需要检测一篇标注原创的文章是否真的是原创,语料库构建的过程中需要剔除相似的文档。而如何从庞大的文档库中快速检索出目标文档的相似文档集合却是一个难题,要解决这个难题首先需要有可以量化文档相似度的计算方法。
[0003]早期的文档相似度计算方法使用词袋模型作为特征提取方法,将文档转换成一个数字组成的向量,一般该向量会使用逆文档频率 ...
【技术保护点】
【技术特征摘要】
1.一种相似文档检索方法,其特征在于,包括:获取训练文档库;所述训练文档库包括多篇文档,每篇文档具有对应的文档ID;根据所述文档构建训练数据集;采用所述训练数据集训练神经网络,得到目标神经网络;接收目标文档,采用所述目标文档生成目标训练数据集;将所述目标训练数据集输入所述目标神经网络,得到所述目标文档的目标向量;计算所述目标向量与预设数据库中的对比向量之间的差值,并将差值小于预设阈值的对比向量对应的文档作为相似文档。2.根据权利要求1所述的方法,其特征在于,所述根据所述文档构建训练数据集的步骤,包括:将每篇所述文档划分为多个分词;每个分词具有对应的分词ID;采用所有所述文档及每个所述文档对应的分词构建训练数据集。3.根据权利要求2所述的方法,其特征在于,所述将每篇所述文档划分为多个分词的步骤,包括:将每篇所述文档中的连续空格合并为单一空格,得到预处理文档;将所述预处理文档划分为多个分词。4.根据权利要求2所述的方法,其特征在于,所述采用所有所述文档及每个所述文档对应的分词构建训练数据集的步骤,包括:通过预设的滑动窗口,根据所述文档中分词的排列顺序,从所述文档的分词中提取出多个第一分词;以所述滑动窗口中最后一个第一分词的分词ID为输出,以所述滑动窗口中除最后一个第一分词外的第一分词的分词ID及对应的文档ID为输入,生成训练数据;按照所述文档中分词的排列顺序移动所述滑动窗口,并返回通过预设的滑动窗口,根据所述文档中分词的排列顺序,从所述文档中提出多个第一分词的步骤,直至遍历完所述文档中的所有分词;采用得到的所有训练数据生成训练数据集。5.根据权利要求4所述的方法,其特征在于,所述神经网络包括嵌入层、拼接层、全连接层和Soft层;所述采用所述训练数据集训练神经网络,得到目标神经网络的步骤,包括:将作为输入的第一分词的分词ID对应的分词向量拼接成为分词矩阵;将所述分词矩阵与预设第一参数矩阵相乘,得到所述嵌入层的第一分支输出;将所述第一分词对应的文档ID对应的文档向量与预设第二参数矩阵相乘,得到所述嵌入层的第二分支输出;通过所述拼接层将所述第一分支输出和所述第二分支输出进行拼接,得到所述拼接成的拼接输出向量;将所述全连接层的第三参数矩阵与所述拼接输出向量相乘,得到全连接层输出;通过Softmax层对所述全连接层输出进行Softmax变换,得到所述神经网络的目标输出向量;以作为输出的第一分词的分词ID构建目标向量;计算所述目标输出向量和所述目标向量之间的损失值;
采用所述...
【专利技术属性】
技术研发人员:杨珉,孙立奋,毛绍嵘,
申请(专利权)人:天翼数字生活科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。