The invention provides an entity mining system and method, which includes an annotation unit, configured to obtain the first set of knowledge information and a number of entities in the current field, and annotate the first group of knowledge information according to the entities; the rule mining unit is configured for screening the first set of knowledge information from the labeled entity. Several high frequency words are associated, and several phrases with the highest frequency of high frequency vocabulary are screened to generate orderly association rules. The entity mining unit is used to obtain second sets of knowledge information in the current field, and the second groups of knowledge information are excavated according to the orderly association rules, and some entity candidates are obtained. The unit is configured to filter the candidate entities according to the predetermined filtering rules, and generate entity mining results and output. This invention uses the orderly association rules to carry out the entity mining, improves the accuracy of the entity mining, and filters the mining results effectively, so as to ensure the accuracy of the mining results.
【技术实现步骤摘要】
实体挖掘系统和方法
本申请涉及数据挖掘
,具体涉及一种实体挖掘系统和方法。
技术介绍
目前,在部分领域中,系统中存储的实体数据不够全面和完善,难以满足用户搜索查询信息的需求,导致用户需要耗费大量的时间进行信息的查找、阅读和判断分析。例如,在医疗领域中,患者在得知自己患有某种疾病或者推测自己可能有某种疾病时,通常会借助搜索来查找相应的疾病信息,而当系统中没有存储该疾病的名称,或者只存储有该疾病的学名,而没有存储其别名或简称时,就会导致搜索结果难以满足用户的需求,用户需要在搜索时耗费大量的时间和精力进行查找和判断。现有的实体挖掘的解决方案通常在结构化数据页面内挖掘实体标签和属性,通过预定的无序规则获取实体,挖掘的准确率有待提升。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种通过挖掘有序关联规则对实体进行挖掘以提高挖掘准确率的实体挖掘系统和方法。第一方面,本专利技术提供一种实体挖掘系统,该系统包括标注单元、规则挖掘单元、实体挖掘单元和过滤单元。标注单元配置用于获取当前领域的第一组知识信息和若干实体,根据该若干实体对第一组知识信息进行标注。规则挖掘单元配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选若干高频词汇中共现频率最高的若干词组以生成有序关联规则。实体挖掘单元配置用于获取当前领域的第二组知识信息,根据有序关联规则对第二组知识信息进行挖掘,得到若干实体候选。过滤单元配置用于根据预定的过滤规则对各实体候选进行过滤,生成实体挖掘结果并输出。第二方面,本专利技术提供一种实体挖掘方法,该方法包括:获取当前领域的第一组知识信息和若干实体 ...
【技术保护点】
一种实体挖掘系统,其特征在于,所述系统包括:标注单元,配置用于获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注;规则挖掘单元,配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选所述若干高频词汇中共现频率最高的若干词组以生成有序关联规则;实体挖掘单元,配置用于获取当前领域的第二组知识信息,根据所述有序关联规则对所述第二组知识信息进行挖掘,得到若干实体候选;过滤单元,配置用于根据预定的过滤规则对所述若干实体候选进行过滤,生成实体挖掘结果并输出。
【技术特征摘要】
1.一种实体挖掘系统,其特征在于,所述系统包括:标注单元,配置用于获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注;规则挖掘单元,配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选所述若干高频词汇中共现频率最高的若干词组以生成有序关联规则;实体挖掘单元,配置用于获取当前领域的第二组知识信息,根据所述有序关联规则对所述第二组知识信息进行挖掘,得到若干实体候选;过滤单元,配置用于根据预定的过滤规则对所述若干实体候选进行过滤,生成实体挖掘结果并输出。2.根据权利要求1所述的实体挖掘系统,其特征在于,所述规则挖掘单元进一步配置用于对标注实体的第一组知识信息进行分词筛选,得到一阶频繁项集,在所述一阶频繁项集中筛选出现频率最高的若干高频词汇,得到高频项集,对所述高频项集进行排列组合,并筛选共现频率最高的若干词组,根据筛选出的词组生成有序关联规则。3.根据权利要求1所述的实体挖掘系统,其特征在于,所述实体挖掘单元进一步配置用于根据所述高频词汇对所述第二组知识信息进行标注,根据所述有序关联规则的正则表达式对标注高频词汇的第二组知识信息进行挖掘。4.根据权利要求1所述的实体挖掘系统,其特征在于,所述标注单元进一步配置用于确认待挖掘实体的属性,所述若干实体的属性与所述待挖掘实体相同或相关联。5.根据权利要求1所述的实体挖掘系统,其特征在于,所述过滤规则包括以下至少一项:长度过滤、标点过滤、前缀过滤、后缀过滤和已知实体过滤。6.根据权利要求1所述的实体挖掘系统,其特征在于,所述过滤单元进一步配置用于输出实体候选以供人工评估过滤,并接收人工过滤结果。7.根据权利要求1-6任一项所述的实体挖掘系统,其特征在于,还包括以下至少一项:知识信息存储单元,配置用于存储至少一个领域的知识信息;实体存储单元,配置用于存储至少一个领域的实体字典;输入单元,配置用于输入实体;知识爬取单元,配置用于从互联网爬取知识信息。8.根据权利要求1-6任一项所述的实体挖掘系统,其特征在于,所述当前领域为医疗领域,所述知识信息为医疗问答数据。9.一种实体挖掘方法,其特征在于,所述方法包括:获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注;从标注实体的第一组知识信息中筛选若干关联的高...
【专利技术属性】
技术研发人员:张喜媛,曾刚,何戬,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。