一种基于自然语言处理的文档相似度识别方法及相关设备技术

技术编号：22308422 阅读：28 留言：0更新日期：2019-10-16 08:30

本发明专利技术实施例公开了一种基于自然语言处理的文档相似度识别方法及相关设备，其特征在于，包括：分别以字和词为单位对第一文档进行拆分以获得第一文档包含的多个字和多个词；通过TF‑IDF算法计算第一语言元素库中每一个语言元素的TF‑IDF值，其中，第一语言元素库为根据第一文档包含的多个字和第一文档包含的多个词获得；同理计算第二文档对应的第二语言元素库中每一个语言元素的TF‑IDF值；在根据第一语言元素库中每一个语言元素的TF‑IDF值和第二语言元素库中每一个语言元素的TF‑IDF值确定第一文档与第二文档的相似度。采用本发明专利技术实施例，能够更准确地得出第一文档与第二文档之间的相似度关系。

A method of document similarity recognition based on natural language processing and related equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言处理的文档相似度识别方法及相关设备
本专利技术涉及计算机
，尤其涉及一种基于自然语言处理的文档相似度识别方法及相关设备。
技术介绍
目前很多招聘都存在笔试环节，一直以来笔试环节作弊的行为屡见不鲜，目前很多企业都是通过人工筛查比对的方式甄别作弊行为，然而针对应聘数量较少的情况可以人工甄别，针对应聘数量较多的情况则无法人工甄别。随着人工智能的发展，已经有一些企业尝试通过计算机识别作弊行为，目前计算机识别的原理是直接将两个文档进行对比，如果两个文档的内容一样则存在作弊，如果不一样则不存在作弊，针对这种确定作弊的方式，作弊者是很容易避免被发现的，例如，作弊者对答案稍作关键词改动，如同义词替换；再如，作弊者对文档的语句顺序稍作改动，等等。关键词改动和句子顺序调整之后，计算机就不认为存在作弊行为，而实际作弊是客观存在的。如何通过计算机更精准高效地甄别作弊行为是本领域的技术人员正在研究的技术问题。
技术实现思路
本专利技术实施例公开了一种基于自然语言处理的文档相似度识别方法及相关设备，能够更准确地获知文档之间的相似度关系。第一方面，本专利技术实施例提供了一种基于自然语言处理的文档相似度识别方法，该方法包括：以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字；以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词；通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值，其中，所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得；以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字；以词为单位...

【技术保护点】
1.一种基于自然语言处理技术的文档相似度识别方法，其特征在于，包括：以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字；以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词；通过TF‑IDF算法计算第一语言元素库中每一个语言元素的TF‑IDF值，其中，所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得；以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字；以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词；通过所述TF‑IDF算法计算第二语言元素库中每一个语言元素的TF‑IDF值，其中，所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得；根据所述第一语言元素库中每一个语言元素的TF‑IDF值和第二语言元素库中每一个语言元素的TF‑IDF值确定所述第一文档与所述第二文档的相似度。

【技术特征摘要】
1.一种基于自然语言处理技术的文档相似度识别方法，其特征在于，包括：以字为单位对第一文档进行拆分以获得所述第一文档包含的多个字；以词为单位对所述第一文档进行拆分以获得所述第一文档包含的多个词；通过TF-IDF算法计算第一语言元素库中每一个语言元素的TF-IDF值，其中，所述第一语言元素库为根据所述第一文档包含的多个字和所述第一文档包含的多个词获得；以字为单位对第二文档进行拆分以获得所述第二文档包含的多个字；以词为单位对所述第二文档进行拆分以获得所述第二文档包含的多个词；通过所述TF-IDF算法计算第二语言元素库中每一个语言元素的TF-IDF值，其中，所述第二语言元素库为根据所述第二文档包含的多个字和所述第二文档包含的多个词获得；根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度，包括：根据所述第一语言元素库中每一个语言元素的TF-IDF值确定第一词向量；根据所述第二语言元素库中每一个语言元素的TF-IDF值确定第二词向量；计算所述第一词向量与所述第二词向量的余弦值，其中，所述第一文档与所述第二文档的相似度与所述余弦值的大小呈正相关。3.根据权利要求2所述的方法，其特征在于，所述计算所述第一词向量与所述第二词向量的余弦值之后，还包括：若所述余弦值大于预设阈值，则确定存在作弊行为。4.根据权利要求1-3任一项所述的方法，其特征在于：所述第一语言元素库不包含所述第一文档的多个字中的预设字，且不包含所述第一文档的多个词中的预设词；所述第二语言元素库不包含所述第二文档的多个字中的预设字，且不包含所述第二文档的多个词中的预设词。5.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述第一语言元素库中每一个语言元素的TF-IDF值和第二语言元素库中每一个语言元素的TF-IDF值确定所述第一文档与所述第二文档的相似度之前，还包括：对所述第一语言元素库和所述第二语言元素库进行同义词替换，并将替换前的语言元素的TF-IDF值赋予替换后的语言元素，以实现对所述第一语言元素库和所述第二语言元素库的更新，其中，同义词替换用于将同样含义的语言元素进行统一描述。6.一种基于自然语言处理技术的文档相似度识别设备，其特征在于，包括：第一拆分单元，...

【专利技术属性】
技术研发人员：王小鹏，苏宇，沈越，
申请(专利权)人：平安普惠企业管理有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人