实体挖掘系统和方法技术方案

技术编号:18165541 阅读:39 留言:0更新日期:2018-06-09 11:28
本发明专利技术提供一种实体挖掘系统和方法,该系统包括:标注单元,配置用于获取当前领域的第一组知识信息和若干实体,根据该若干实体对第一组知识信息进行标注;规则挖掘单元,配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选若干高频词汇中共现频率最高的若干词组以生成有序关联规则;实体挖掘单元,配置用于获取当前领域的第二组知识信息,根据有序关联规则对第二组知识信息进行挖掘,得到若干实体候选;过滤单元,配置用于根据预定的过滤规则对各实体候选进行过滤,生成实体挖掘结果并输出。本发明专利技术利用有序关联规则进行实体挖掘,提高了实体挖掘的准确率,并对挖掘结果进行有效过滤,保障了挖掘结果的准确性。

Entity mining system and method

The invention provides an entity mining system and method, which includes an annotation unit, configured to obtain the first set of knowledge information and a number of entities in the current field, and annotate the first group of knowledge information according to the entities; the rule mining unit is configured for screening the first set of knowledge information from the labeled entity. Several high frequency words are associated, and several phrases with the highest frequency of high frequency vocabulary are screened to generate orderly association rules. The entity mining unit is used to obtain second sets of knowledge information in the current field, and the second groups of knowledge information are excavated according to the orderly association rules, and some entity candidates are obtained. The unit is configured to filter the candidate entities according to the predetermined filtering rules, and generate entity mining results and output. This invention uses the orderly association rules to carry out the entity mining, improves the accuracy of the entity mining, and filters the mining results effectively, so as to ensure the accuracy of the mining results.

【技术实现步骤摘要】
实体挖掘系统和方法
本申请涉及数据挖掘
,具体涉及一种实体挖掘系统和方法。
技术介绍
目前,在部分领域中,系统中存储的实体数据不够全面和完善,难以满足用户搜索查询信息的需求,导致用户需要耗费大量的时间进行信息的查找、阅读和判断分析。例如,在医疗领域中,患者在得知自己患有某种疾病或者推测自己可能有某种疾病时,通常会借助搜索来查找相应的疾病信息,而当系统中没有存储该疾病的名称,或者只存储有该疾病的学名,而没有存储其别名或简称时,就会导致搜索结果难以满足用户的需求,用户需要在搜索时耗费大量的时间和精力进行查找和判断。现有的实体挖掘的解决方案通常在结构化数据页面内挖掘实体标签和属性,通过预定的无序规则获取实体,挖掘的准确率有待提升。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种通过挖掘有序关联规则对实体进行挖掘以提高挖掘准确率的实体挖掘系统和方法。第一方面,本专利技术提供一种实体挖掘系统,该系统包括标注单元、规则挖掘单元、实体挖掘单元和过滤单元。标注单元配置用于获取当前领域的第一组知识信息和若干实体,根据该若干实体对第一组知识信息进行标注。规则挖掘单元配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选若干高频词汇中共现频率最高的若干词组以生成有序关联规则。实体挖掘单元配置用于获取当前领域的第二组知识信息,根据有序关联规则对第二组知识信息进行挖掘,得到若干实体候选。过滤单元配置用于根据预定的过滤规则对各实体候选进行过滤,生成实体挖掘结果并输出。第二方面,本专利技术提供一种实体挖掘方法,该方法包括:获取当前领域的第一组知识信息和若干实体,根据该若干实体对第一组知识信息进行标注;从标注实体的第一组知识信息中筛选若干高频词汇,并筛选若干关联的高频词汇中共现频率最高的若干词组以生成有序关联规则;获取当前领域的第二组知识信息,根据有序关联规则对第二组知识信息进行挖掘,得到若干实体候选;根据预定的过滤规则对各实体候选进行过滤,生成实体挖掘结果并输出。第三方面,本专利技术还提供一种设备,包括一个或多个处理器和存储器,其中存储器包含可由该一个或多个处理器执行的指令以使得该一个或多个处理器执行根据本专利技术各实施例提供的实体挖掘方法。第四方面,本专利技术还提供一种存储有计算机程序的计算机可读存储介质,该计算机程序使计算机执行根据本专利技术各实施例提供的实体挖掘方法。本专利技术诸多实施例提供的实体挖掘系统和方法通过从标注实体的结构化知识信息中筛选关联的高频词汇,并进一步筛选其中共现频率最高的若干词组以生成有序关联规则,再利用该有序关联规则进行实体挖掘,提高了实体挖掘的准确率;并且对挖掘结果进行有效过滤,保障了挖掘结果的准确性;本专利技术一些实施例提供的实体挖掘系统和方法进一步通过确认待挖掘实体的属性,进行定向挖掘,以提高具有明确挖掘对象时的挖掘效率;并通过加入相关联属性的实体标注,提高了有序关联规则的分泛化能力;本专利技术一些实施例提供的实体挖掘系统和方法进一步通过进行人工过滤进一步保障了医疗等敏感领域的实体挖掘结果准确性;本专利技术一些实施例提供的实体挖掘系统和方法进一步通过采用描述多样性的问答数据作为挖掘对象,进一步提高挖掘的准确率和效率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本专利技术一实施例中实体挖掘系统的结构示意图;图2为图1所示系统的一种优选实施方式的结构示意图;图3为本专利技术一实施例中实体挖掘方法的流程图;图4为图3所示方法的一种优选实施方式中步骤S40的流程图;图5为图3所示方法的一种优选实施方式中步骤S60的流程图;图6为图3所示方法的一种优选实施方式中步骤S20的流程图;图7为图3所示方法的一种优选实施方式中步骤S80的流程图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1为本专利技术一实施例中实体挖掘系统的结构示意图。如图1所示,在本实施例中,本专利技术提供的实体挖掘系统包括标注单元10、规则挖掘单元30、实体挖掘单元50和过滤单元70。在本实施例中,本专利技术提供的实体挖掘系统配置为服务器中的软件程序,在另一实施例中配置为专用于挖掘并输出实体的硬件装置,在更多实施例中,还可根据实际需求配置为本领域技术人员可以理解的各单元之间通信连接的软硬件组合的形式,可实现相同的技术效果。标注单元10配置用于获取当前领域的第一组知识信息和若干实体,根据该若干实体对第一组知识信息进行标注。具体地,以下以当前领域为医疗领域、知识信息为医疗问答数据为例进行详细阐述,在更多实施例中,还可根据实际需求将当前领域配置为生物领域、保健领域、广告领域、体育领域等各类不同的领域,以及将知识信息配置为文献、科普科教等不同类型的知识数据。标注单元10分别从预定的数据库中获取若干医疗问答数据作为第一组知识信息,并获取若干医疗领域的实体,例如若干手术名称实体、若干疾病名称实体,等,并根据获取的各实体对第一组知识信息进行标注。图2为图1所示系统的一种优选实施方式的结构示意图。如图2所示,在一优选实施例中,系统还包括知识信息存储单元50,配置用于存储至少一个领域的知识信息。在本实施例中,标注单元10可直接从知识信息存储单元50中获取第一组知识信息。在一优选实施例中,系统还包括实体存储单元60,配置用于存储至少一个领域的实体字典。在本实施例中,标注单元10可直接从实体存储单元60的实体字典中获取当前领域的若干实体。在一优选实施例中,系统还包括输入单元70,配置用于输入实体。在本实施例中,标注单元10可获取人工输入的当前领域的若干实体。在一优选实施例中,系统还包括知识爬取单元80,配置用于从互联网爬取知识信息。具体地,当系统同时包括知识信息存储单元50时,知识爬取单元80可以定时对知识信息存储单元50存储的各领域的知识信息进行更新,标注单元10可通过知识信息存储单元50获取第一组知识信息;当系统不包括知识信息存储单元50时,标注单元10可以直接通过知识爬取单元80获取实时爬取的若干知识信息作为第一组知识信息。在一优选实施例中,标注单元10进一步配置用于确认待挖掘实体的属性。上述若干实体的属性与待挖掘实体相同或相关联。具体地,例如,当标注单元10确认待挖掘实体的属性为消化科手术时,可以获取所有属性同样为消化科手术的实体来进行标注;标注单元10还可以进一步获取属性与消化科手术相关联的实体来进行标注,例如属性为消化科疾病/消化科药物的实体等。上述优选实施例通过确认待挖掘实体的属性,进行定向挖掘,以提高具有明确挖掘对象时的挖掘效率;并通过加入相关联属性的实体标注,提高了后续生成的有序关联规则的分泛化能力。规则挖掘单元30配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选若干高频词汇中共现频率最高的若干词组以生成有序关联规则。具体地,对于一篇标注了医疗领域实体的医疗问答数据,规则挖掘单元30对其进行分词并去本文档来自技高网...
实体挖掘系统和方法

【技术保护点】
一种实体挖掘系统,其特征在于,所述系统包括:标注单元,配置用于获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注;规则挖掘单元,配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选所述若干高频词汇中共现频率最高的若干词组以生成有序关联规则;实体挖掘单元,配置用于获取当前领域的第二组知识信息,根据所述有序关联规则对所述第二组知识信息进行挖掘,得到若干实体候选;过滤单元,配置用于根据预定的过滤规则对所述若干实体候选进行过滤,生成实体挖掘结果并输出。

【技术特征摘要】
1.一种实体挖掘系统,其特征在于,所述系统包括:标注单元,配置用于获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注;规则挖掘单元,配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选所述若干高频词汇中共现频率最高的若干词组以生成有序关联规则;实体挖掘单元,配置用于获取当前领域的第二组知识信息,根据所述有序关联规则对所述第二组知识信息进行挖掘,得到若干实体候选;过滤单元,配置用于根据预定的过滤规则对所述若干实体候选进行过滤,生成实体挖掘结果并输出。2.根据权利要求1所述的实体挖掘系统,其特征在于,所述规则挖掘单元进一步配置用于对标注实体的第一组知识信息进行分词筛选,得到一阶频繁项集,在所述一阶频繁项集中筛选出现频率最高的若干高频词汇,得到高频项集,对所述高频项集进行排列组合,并筛选共现频率最高的若干词组,根据筛选出的词组生成有序关联规则。3.根据权利要求1所述的实体挖掘系统,其特征在于,所述实体挖掘单元进一步配置用于根据所述高频词汇对所述第二组知识信息进行标注,根据所述有序关联规则的正则表达式对标注高频词汇的第二组知识信息进行挖掘。4.根据权利要求1所述的实体挖掘系统,其特征在于,所述标注单元进一步配置用于确认待挖掘实体的属性,所述若干实体的属性与所述待挖掘实体相同或相关联。5.根据权利要求1所述的实体挖掘系统,其特征在于,所述过滤规则包括以下至少一项:长度过滤、标点过滤、前缀过滤、后缀过滤和已知实体过滤。6.根据权利要求1所述的实体挖掘系统,其特征在于,所述过滤单元进一步配置用于输出实体候选以供人工评估过滤,并接收人工过滤结果。7.根据权利要求1-6任一项所述的实体挖掘系统,其特征在于,还包括以下至少一项:知识信息存储单元,配置用于存储至少一个领域的知识信息;实体存储单元,配置用于存储至少一个领域的实体字典;输入单元,配置用于输入实体;知识爬取单元,配置用于从互联网爬取知识信息。8.根据权利要求1-6任一项所述的实体挖掘系统,其特征在于,所述当前领域为医疗领域,所述知识信息为医疗问答数据。9.一种实体挖掘方法,其特征在于,所述方法包括:获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注;从标注实体的第一组知识信息中筛选若干关联的高...

【专利技术属性】
技术研发人员:张喜媛曾刚何戬
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1