一种基于自然语言处理的文档相似度识别方法及相关设备技术

技术编号:22308422 阅读:28 留言:0更新日期:2019-10-16 08:30
本发明专利技术实施例公开了一种基于自然语言处理的文档相似度识别方法及相关设备,其特征在于,包括:分别以字和词为单位对第一文档进行拆分以获得第一文档包含的多个字和多个词;通过TF‑IDF算法计算第一语言元素库中每一个语言元素的TF‑IDF值,其中,第一语言元素库为根据第一文档包含的多个字和第一文档包含的多个词获得;同理计算第二文档对应的第二语言元素库中每一个语言元素的TF‑IDF值;在根据第一语言元素库中每一个语言元素的TF‑IDF值和第二语言元素库中每一个语言元素的TF‑IDF值确定第一文档与第二文档的相似度。采用本发明专利技术实施例,能够更准确地得出第一文档与第二文档之间的相似度关系。

A method of document similarity recognition based on natural language processing and related equipment

【技术实现步骤摘要】
一种基于自然语言处理的文档相似度识别方法及相关设备
本专利技术涉及计算机
,尤其涉及一种基于自然语言处理的文档相似度识别方法及相关设备。
技术介绍
目前很多招聘都存在笔试环节,一直以来笔试环节作弊的行为屡见不鲜,目前很多企业都是通过人工筛查比对的方式甄别作弊行为,然而针对应聘数量较少的情况可以人工甄别,针对应聘数量较多的情况则无法人工甄别。随着人工智能的发展,已经有一些企业尝试通过计算机识别作弊行为,目前计算机识别的原理是直接将两个文档进行对比,如果两个文档的内容一样则存在作弊,如果不一样则不存在作弊,针对这种确定作弊的方式,作弊者是很容易避免被发现的,例如,作弊者对答案稍作关键词改动,如同义词替换;再如,作弊者对文档的语句顺序稍作改动,等等。关键词改动和句子顺序调整之后,计算机就不认为存在作弊行为,而实际作弊是客观存在的。如何通过计算机更精准高效地甄别作弊行为是本领域的技术人员正在研究的技术问题。
技术实现思路
本专利技术实施例公开了一种基于自然语言处理的文档相似度识别方法及相关设备,能够更准确地获知文档之间的相似度关系。第一方面,本专利技术实施例提供了一种基于自然语言处理的文档相似度识别方法,该方法包括:以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字;以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词;通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值,其中,所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得;以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字;以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词;通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值,其中,所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得;根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。通过执行上述方法,将第一文档和第二文档都进行了字级别的拆分,因此保留了这两个文档最基础的原始信息,能够对冲词级别拆分时出现的误差,例如,对“不需要购买社保”进行拆分时,有些分词算法会拆出“需要”、“购买”、“社保”,而实际上这种拆分结果已经偏离了句子的原意。也即是说,本申请采用字级别拆分和词级别拆分进行组合的方式,让拆分后的词充分表达语义,让拆分后的字对冲语义误差,因此拆分得到的语义元素能够更准确地反映文档的语义,因此在此基础上确定出的第一文档和第二文档的相似度结果更准确。结合第一方面,在第一方面的第一种可能的实现方式中,所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度,包括:根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量;根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量;计算所述第一词向量与所述第二词向量的余弦值,其中,所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。结合第一方面,或者第一方面的上述任一可能的实现方式,在第一方面的第二种可能的实现方式中,所述计算所述第一词向量与所述第二词向量的余弦值之后,还包括:若所述余弦值大于预设阈值,则确定存在作弊行为。结合第一方面,或者第一方面的上述任一可能的实现方式,在第一方面的第三种可能的实现方式中:所述第一语言元素库不包含所述第一文档的多个字中的预设字,且不包含所述第一文档的多个词中的预设词;所述第二语言元素库不包含所述第二文档的多个字中的预设字,且不包含所述第二文档的多个词中的预设词。结合第一方面,或者第一方面的上述任一可能的实现方式,在第一方面的第四种可能的实现方式中,所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前,还包括:对所述第一语言元素库和所述第二语言元素库进行同义词替换,并将替换前的语言元素的TF-IDF值赋予替换后的语言元素,以实现对所述第一语言元素库和所述第二语言元素库的更新,其中,同义词替换用于将同样含义的语言元素进行统一描述。第二方面,本申请实施例提供一种基于自然语言处理的文档相似度识别设备,该设备包括:第一拆分单元,用于以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字;第二拆分单元,用于以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词;第一计算单元,用于通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值,其中,所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得;第三拆分单元,用于以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字;第四拆分单元,用于以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词;第二计算单元,用于通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值,其中,所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得;对比单元,用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。通过运行上述单元,将第一文档和第二文档都进行了字级别的拆分,因此保留了这两个文档最基础的原始信息,能够对冲词级别拆分时出现的误差,例如,对“不需要购买社保”进行拆分时,有些分词算法会拆出“需要”、“购买”、“社保”,而实际上这种拆分结果已经偏离了句子的原意。也即是说,本申请采用字级别拆分和词级别拆分进行组合的方式,让拆分后的词充分表达语义,让拆分后的字对冲语义误差,因此拆分得到的语义元素能够更准确地反映文档的语义,因此在此基础上确定出的第一文档和第二文档的相似度结果更准确。结合第二方面,在第二方面的第一种可能的实现方式中,所述对比单元,用于根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度,具体为:根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量;根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量;计算所述第一词向量与所述第二词向量的余弦值,其中,所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。结合第二方面,或者第二方面的上述任一可能的实现方式,在第二方面的第二种可能的实现方式中,所述对比单元,还用于在计算所述第一词向量与所述第二词向量的余弦值之后,若所述余弦值大于预设阈值,则确定存在作弊行为。结合第二方面,或者第二方面的上述任一可能的实现方式,在第二方面的第三种可能的实现方式中:所述第一语言元素库不包含所述第一文档的多个字中的预设字,且不包含所述第一文档的多个词中的预设词;所述第二语言元素库不包含所述第二文档的多个字中的预设字,且不包含所述第二文档的多个词中的预设词。结合第二方面,或者第二方面的上述任一可能的实现方式,在第二本文档来自技高网...

【技术保护点】
1.一种基于自然语言处理技术的文档相似度识别方法,其特征在于,包括:以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字;以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词;通过TF‑IDF算法计算第一语言元素库中每一个语言元素的TF‑IDF值,其中,所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得;以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字;以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词;通过所述TF‑IDF算法计算第二语言元素库中每一个语言元素的TF‑IDF值,其中,所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得;根据所述第一语言元素库中每一个语言元素的TF‑IDF值和第二语言元素库中每一个语言元素的TF‑IDF值确定所述第一文档与所述第二文档的相似度。

【技术特征摘要】
1.一种基于自然语言处理技术的文档相似度识别方法,其特征在于,包括:以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字;以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词;通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值,其中,所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得;以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字;以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词;通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值,其中,所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得;根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度,包括:根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量;根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量;计算所述第一词向量与所述第二词向量的余弦值,其中,所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。3.根据权利要求2所述的方法,其特征在于,所述计算所述第一词向量与所述第二词向量的余弦值之后,还包括:若所述余弦值大于预设阈值,则确定存在作弊行为。4.根据权利要求1-3任一项所述的方法,其特征在于:所述第一语言元素库不包含所述第一文档的多个字中的预设字,且不包含所述第一文档的多个词中的预设词;所述第二语言元素库不包含所述第二文档的多个字中的预设字,且不包含所述第二文档的多个词中的预设词。5.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前,还包括:对所述第一语言元素库和所述第二语言元素库进行同义词替换,并将替换前的语言元素的TF-IDF值赋予替换后的语言元素,以实现对所述第一语言元素库和所述第二语言元素库的更新,其中,同义词替换用于将同样含义的语言元素进行统一描述。6.一种基于自然语言处理技术的文档相似度识别设备,其特征在于,包括:第一拆分单元,...

【专利技术属性】
技术研发人员:王小鹏苏宇沈越
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1