The invention discloses a Deepdive extraction method based on domain knowledge, including: (1) construction of the original text of the required system access to knowledge, and carries on the pretreatment; (2) the text after pretreatment of the physical connection, and find the specific relationship of the preset target entity, and generate meet the three tuple entity relationship entity, entity relationship of composition of candidate set; (3) using the method of weak supervision of multiple candidate entities of relationship learning and annotation, generating Deepdive tool training samples; (4) the training samples are input to the Deepdive tools, the training of Deepdive, and the output probability value greater than the threshold of candidate relations entity extraction, knowledge base. The invention can be used to complete the construction of a domain knowledge base, and has strong expansibility, and has good practical value for the utilization and extraction of unstructured data.
【技术实现步骤摘要】
一种基于Deepdive的领域文本知识抽取方法
本专利技术涉及计算机自然语言处理技术,具体设计了一种基于Deepdive的领域文本知识抽取方法。
技术介绍
知识库构建在现实中非常具有现实意义和应用前景。苹果的Siri、微软的Cortana的日常运行都建立在大型的知识库基础上,并针对用户的问题,快速的返回正确的答复。而在一些垂直领域,如客服、金融、聊天机器人等,缺乏一些针对特定关系的知识库,或是缺乏信息完备、内容更新及时的知识库。如果能够针对某个特定的领域和某些特定的关系,进行知识库的自动化构建,并达到较高的准确度,能够有效减少在知识库构建上的人力、时间成本,并且为下游应用提供更好的服务。目前大多数知识库的构建方法很多还是基于半结构化的数据源或者基于众包的方式进行抽取。例如YAGO通过从维基百科的infobox中抽取事实,构建了大规模的多源知识库;google的freebase通过众包的方式构建了一个大规模高质量的知识库辅助其搜索引擎进行更好的搜索服务。对于非结构化文本的知识抽取方法相对工作较少,而且集中在英文的开放域文本,例如Reverb通过对整个Web的开放信息进行抽取自动化构建知识库,但是由于其只按照动词的划分方法来提取关系,所以提取的三元组实体和关系非常粗糙,致使最后的提取结果也不能应用到各个领域中。目前随着垂直领域数据的不断积累和对智能化需求的不管提高,垂直领域的知识库已经扮演着非常重要的作用。对于结构化和半结构化的数据,已经有非常多的工具能够帮助我们转化为知识库中的知识,但是目前大多数数据来源都是非结构化的,包括资料数据、对话数据等等,针对这一类 ...
【技术保护点】
一种基于Deepdive的领域文本知识抽取方法,包括以下步骤:(1)获取知识库构建系统所需的原始文本,并且采用jieba工具对原始文本分词,并采用斯坦福的core NLP工具对分词后的文本进行词性标注、命名实体标注以及语法依赖处理,得到预处理后的文本数据;(2)对预处理后的文本数据进行实体连接,找到与预设特定关系对应的目标实体,并生成满足实体‑关系‑实体的三元组,组成候选关系实体对集;(3)采用弱监督的方法对候选关系实体对集中的多个候选关系实体对进行学习和标注,生成大量的候选关系实体对作为Deepdive工具的训练样本,并将训练样本中候选关系实体对对应的关系组成的关系集作为真值标签;(4)将训练样本和真值标签输入至Deepdive工具中,以目标函数y最大为目标,对Deepdive进行训练,并输出概率值大于阈值的候选关系实体对,组成提取的知识库。
【技术特征摘要】
1.一种基于Deepdive的领域文本知识抽取方法,包括以下步骤:(1)获取知识库构建系统所需的原始文本,并且采用jieba工具对原始文本分词,并采用斯坦福的coreNLP工具对分词后的文本进行词性标注、命名实体标注以及语法依赖处理,得到预处理后的文本数据;(2)对预处理后的文本数据进行实体连接,找到与预设特定关系对应的目标实体,并生成满足实体-关系-实体的三元组,组成候选关系实体对集;(3)采用弱监督的方法对候选关系实体对集中的多个候选关系实体对进行学习和标注,生成大量的候选关系实体对作为Deepdive工具的训练样本,并将训练样本中候选关系实体对对应的关系组成的关系集作为真值标签;(4)将训练样本和真值标签输入至Deepdive工具中,以目标函数y最大为目标,对Deepdive进行训练,并输出概率值大于阈值的候选关系实体对,组成提取的知识库。2.如权利要求1所述的Deepdive的领域文本知识抽取方法,其特征在于,所述的采用弱监督方法对候选关系实体对进行学习与标注的具体步骤包括:(a)候选关系实体对集中的候选关系实体对标注为正例,采用负抽样方法获得反例;(b)利用相似的语法结构来制定相应的规则,检测某些语句是否表达某一特定关系,并且将这些数据标注为正例;(c)不断迭代步骤(b),直到满足迭代次数或获得足够多的候选关系实体为止,输出最后得到的所有候选关系实体。3.如权利要求1所述的Dee...
【专利技术属性】
技术研发人员:陈华钧,陈曦,张宁豫,吴朝晖,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。