一种基于事理图谱的预测方法、装置和系统制造方法及图纸

技术编号:20566678 阅读:33 留言:0更新日期:2019-03-14 09:28
本发明专利技术提供了一种基于事理图谱的预测方法、装置和系统,其中方法包括:获取简历数据库;对数据库中的简历数据进行数据解析;对解析后的数据进行事件提取,形成简历事件网络;根据接收到的待预测信息,在所述简历事件网络中进行预测,并将预测的信息进行展示。利用本发明专利技术的技术方案可进行进行人才职业规划,向用人机构进行简历推荐,向人才进行意向工作推荐等提供参考,提高了用户操作体验和面试成功率,在提供客观、全面的信息的同时,减少了筛选和分析的时间和人工阅读信息所花费的时间。

A Prediction Method, Device and System Based on Principle Map

The invention provides a prediction method, device and system based on the principle atlas, which includes: acquiring the resume database; analyzing the resume data in the database; extracting the parsed data to form a resume event network; predicting the resume event network according to the received predicted information, and putting the predicted information into the resume event network. Line display. The technical scheme of the invention can provide reference for personnel career planning, resume recommendation to employing institutions, job recommendation to talents, etc. It improves user experience and interview success rate, and reduces the time spent in screening and analysis and manual reading information while providing objective and comprehensive information.

【技术实现步骤摘要】
一种基于事理图谱的预测方法、装置和系统
本专利技术涉及数据处理
,具体而言,涉及一种基于事理图谱的预测方法、装置和系统。
技术介绍
当前的知识图谱以属性、关系为主要研究对象,属性和关系可以归结为主谓宾(SPO)三元组关系。简历知识图谱也不例外。即简历知识图谱以概念和概念之间的关系为研究对象。事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的,简历也不例外。事件之间在时间顺序上顺承发生、在前后之间的因果关系、在选择下一个事件时多事件的概率性特点、在多事件组成一个事件链的时候形成一个整体事件、以及整体事件与整体事件之间的演化规律和模式等等,是一种十分有价值的知识。事理图谱(Eventevolutionarygraph)是一个事理逻辑知识库,描述事件之间的演化规律和模式。事理图谱定义多种事件间关系,如:顺承关系,因果关系等等。本质上事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式,可以应用在生活中的很多方面,比如事件预测,常识推理,消费意图挖掘,对话生成等等。然而,现有大多数知识图谱都没有对事件进行提取,尤其是在特定领域知识图谱上,如简历知识图谱。现有部分简历知识图谱通过关键词、模板匹配的方法,在形式上形成了某种程度的简历事件图谱。上述现有技术中,简历知识图谱通过关键词、模板匹配的方法进行简历事件图谱构建,存在明显的缺陷。其构造方法通常是学者手工编码、人工构造的方式完成。这种方法比较机械化,需要构造者具有特定领域的知识、需要构造大量的关键字、大量的人工模板,一旦用词不同、表达方式不一样,现有的关键词、模板将不再适用,而且长期维护关键词、模板的人工成本很高。
技术实现思路
本专利技术的目的在于通过对简历数据库进行数据提取,自动化提取简历数据时间信息,并利用深度神经网络学习、训练出一个事件演化规律的简历事件网络——简历事件图谱,再根据简历事件网络进行事件预测等操作。利用本专利技术的技术方案可进行进行人才职业规划,向用人机构进行简历推荐,向人才进行意向工作推荐等提供参考,提高了用户操作体验和面试成功率,也减少了筛选和分析的时间。为了实现上述目的,本专利技术的技术方案提供了一种基于事理图谱的预测方法,包括:获取简历数据库;对数据库中的简历数据进行数据解析;对解析后的数据进行事件提取,形成简历事件网络;根据接收到的待预测信息,在所述简历事件网络中进行预测,并将预测的信息进行展示。具体地,通过获取简历数据库,才能更好的获取简历的数据,才能生成更准确的简历事件网络。简历获取的方式有很多,首先可以在一些招聘网、GitHub、论坛、高校网站等利用网络爬取技术进行数据获取。其次可以与猎头公司进行合作,获取文档、JSON、数据库备份格式的简历。最后是直接与招聘网站如智联招聘、前程无忧等网站进行合作,在后台直接获取简历数据。这些平台的简历数据一般存储在关系型数据库中,属于半结构化数据,可以将这些原始数据复制一份供后续部分使用。具体地,针对数据库中的简历数据进行数据解析,用于提取简历数据中的信息。其中,一般简历有如下几个模块信息:基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力等。其中已知的有事件可以提取的模块是工作经历、项目经验、自我评价三个模块。所以,需要把这三个模块的信息分割出来。如果是招聘网上获取的简历,这三个模块分割比较简单,在这些网站的后台已经分好了模块,可以直接提取这些模块的信息或者将几个小模块拼凑起来。如果是文档形式的简历,需要按照模板匹配如正则表达式或者通过在线的一些简历解析器进行分割。本方案中,所述对解析后的数据进行事件提取,形成简历事件网络,包括:对解析后的数据进行句子分割,形成小句子单元;针对所述小句子单元进行依存句法分析,得到事件信息,形成简历事件网络。具体地,不同邻域事件句子分割方法不同,可以按照逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。也可以只以句号、冒号、换行符进行大句子划分。简历事件句子划分以逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。上述的分割方式并不能限制本专利技术的保护范围,本领域技术人员应该明了任何能够实现句子分割的方法均应当落入本专利技术保护范围内。本方案中,所述针对所述小句子单元进行依存句法分析,得到事件信息,包括:基于最大熵模型和最大生成树模型进行依存句法分析或基于条件随机场模型进行依存句法分析,得到事件信息。本方案中,所述形成简历事件网络,包括:通过分词技术对事件信息进行分词处理,然后根据训练好的word2vec模型将分词转为向量;将所有分词的向量合并为一个向量;基于门控图神经网络GGNN算法,生成简历事件网络。本方案中,所述将所有分词的向量合并为一个向量,包括:基于平均值算法、线性转换算法、拼接算法中的一种或几种,将所有分词的向量合并为一个向量。本专利技术第二方面还提供一种基于事理图谱的预测装置,包括:获取单元,用于获取简历数据库;解析单元,用于对数据库中的简历数据进行数据解析;构建单元,用于对解析后的数据进行事件提取,形成简历事件网络;预测单元,根据接收到的待预测信息,在所述简历事件网络中进行预测,并将预测的信息进行展示。具体地,通过获取简历数据库,才能更好的获取简历的数据,才能生成更准确的简历事件网络。简历获取的方式有很多,首先可以在一些招聘网、GitHub、论坛、高校网站等利用网络爬取技术进行数据获取。其次可以与猎头公司进行合作,获取文档、JSON、数据库备份格式的简历。最后是直接与招聘网站如智联招聘、前程无忧等网站进行合作,在后台直接获取简历数据。这些平台的简历数据一般存储在关系型数据库中,属于半结构化数据,可以将这些原始数据复制一份供后续部分使用。具体地,针对数据库中的简历数据进行数据解析,用于提取简历数据中的信息。其中,一般简历有如下几个模块信息:基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力等。其中已知的有事件可以提取的模块是工作经历、项目经验、自我评价三个模块。所以,需要把这三个模块的信息分割出来。如果是招聘网、GitHub、论坛、高校网站、招聘网上获取的简历,这三个模块分割比较简单,在这些网站的后台已经分好了模块,可以直接提取这些模块的信息或者将几个小模块拼凑起来。如果是文档形式的简历,需要按照模板匹配如正则表达式或者通过在线的一些简历解析器进行分割。本方案中,所述构建单元,包括:分割单元,用于对解析后的数据进行句子分割,形成小句子单元;分析单元,用于针对所述小句子单元进行依存句法分析,得到事件信息,形成简历事件网络。具体地,不同邻域事件句子分割方法不同,可以按照逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。也可以只以句号、冒号、换行符进行大句子划分。简历事件句子划分以逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。上述的分割方式并不能限制本专利技术的保护范围,本领域技术人员应该明了任何能够实现句子分割的方法均应当落入本专利技术保护范围内。本方案中,所述分析单元,包括:基于最大熵模型和最大生成树模型进行依本文档来自技高网
...

【技术保护点】
1.一种基于事理图谱的预测方法,其特征在于,包括:获取简历数据库;对数据库中的简历数据进行数据解析;对解析后的数据进行事件提取,形成简历事件网络;根据接收到的待预测信息,在所述简历事件网络中进行预测,并将预测的信息进行展示。

【技术特征摘要】
1.一种基于事理图谱的预测方法,其特征在于,包括:获取简历数据库;对数据库中的简历数据进行数据解析;对解析后的数据进行事件提取,形成简历事件网络;根据接收到的待预测信息,在所述简历事件网络中进行预测,并将预测的信息进行展示。2.根据权利要求1所述的基于事理图谱的预测方法,其特征在于,所述对解析后的数据进行事件提取,形成简历事件网络,包括:对解析后的数据进行句子分割,形成小句子单元;针对所述小句子单元进行依存句法分析,得到事件信息,形成简历事件网络。3.根据权利要求2所述的基于事理图谱的预测方法,其特征在于,所述针对所述小句子单元进行依存句法分析,得到事件信息,包括:基于最大熵模型和最大生成树模型进行依存句法分析或基于条件随机场模型进行依存句法分析,得到事件信息。4.根据权利要求1至3中任一项所述的基于事理图谱的预测方法,其特征在于,所述形成简历事件网络,包括:通过分词技术对事件信息进行分词处理,然后根据训练好的word2vec模型将分词转为向量;将所有分词的向量合并为一个向量;基于门控图神经网络GGNN算法,生成简历事件网络。5.根据权利要求4所述的基于事理图谱的预测方法,其特征在于,所述将所有分词的向量合并为一个向量,包括:基于平均值算法、线性转换算法、拼接算法中的一种或几种,将所有分词的向量合并为一个向量。6.一种基于事理图谱的预测装置,其特征在于,包括:获取单...

【专利技术属性】
技术研发人员:黄海苗
申请(专利权)人:广州合摩计算机科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1