一种本体构建方法及装置制造方法及图纸

技术编号:23161719 阅读:17 留言:0更新日期:2020-01-21 21:59
本发明专利技术实施例提供了一种本体构建方法,该方法包括:获取待处理文本数据;从所述待处理文本数据中抽取实体数据和事件数据;基于所述待处理文本数据,预测所述实体数据之间的实体关系;对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。可见,本方案中构建的本体包括实体数据、事件数据、实体关系及事件体系网络,相比于现有方案构建的本体更加完善。

An ontology construction method and device

【技术实现步骤摘要】
一种本体构建方法及装置
本专利技术涉及计算机应用
,特别是涉及一种本体构建方法及装置。
技术介绍
在数据处理领域中,为了把现实世界中的具体事物抽象并组织为某一数据库支持的数据模型,通常需要把现实世界中的客观对象抽象为某一种信息结构,这种信息结构并不依赖于具体的计算机系统,不是某一个数据库支持的数据模型,而是概念级的模型,称为概念模型。被用户之间共同认可的概念模型则被称为共享概念模型。本体是共享概念模型的明确形式化规范说明,简单来说,本体是对某些概念模型的一种精确的数学描述,而这种描述可以作为用户之间的共识,从而为用户提供更智能化的知识图谱。本体中可以包括实体、事件和关系,其中,实体是指一些具备公认意义的概念,比如人名、地名等;事件通常包括事件参与对象、发生时间、发生手段、发生地点等;关系是指实体与实体之间的关联,比如说人与人之间的雇佣关系。现有方案构建的本体包括实体、事件、实体与实体之间的关系。
技术实现思路
本专利技术实施例的目的在于提供一种本体构建方法,使得构建得到的本体更加完善。具体技术方案如下:本专利技术实施例提供了一种本体构建方法,所述方法包括:获取待处理文本数据;从所述待处理文本数据中抽取实体数据和事件数据;基于所述待处理文本数据,预测所述实体数据之间的实体关系;对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。r>可选的,所述从所述待处理文本数据中抽取实体数据,包括:针对所述待处理文本数据中的每个词语,通过对该词语进行语料标注,确定该词语的词性;筛选出词性为名词、且具有语义信息的词语,作为待处理词语;从所述待处理词语中,筛选出不存在于预设词典中的词语,作为候选实体数据;根据预设的实体抽取规则,对所述候选实体数据进行抽取,得到实体数据。可选的,所述针对每个词语,通过对该词语进行语料标注,确定该词语的词性,包括:针对每个词语,从预先获取的特征模板库中,获取该词语的转移概率、状态概率和特征权重;根据所述转移概率、状态概率和特征权重,分别计算该词语为不同词性的概率;将满足预设第一概率条件的词性作为该词语的词性。可选的,所述从所述待处理文本数据中抽取事件数据,包括:从所述待处理文本数据中识别出候选事件数据;其中,所述候选事件数据包括以下一项或多项:事件的发生时间、参与方、事件演变状态、事件发生环境和事件发生条件;根据预设的事件抽取规则,对识别出的候选事件数据进行筛选,将筛选出的候选事件数据作为事件数据。可选的,所述基于所述待处理文本数据,预测所述实体数据之间的实体关系,包括:利用预先训练得到的句法结构模型,标注每个词语在所述待处理文本数据中的句法成分;根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色;根据所预测的每个词语的语义角色,确定所抽取的实体数据的语义角色,分析所述实体数据之间的实体关系。可选的,采用如下步骤,训练得到所述句法结构模型:获取第一样本数据;将所述第一样本数据输入预设的第一训练模型,得到的输出结果中包括所述第一样本数据中每个词语的句法成分的初始概率向量、转移矩阵和状态矩阵;判断输出结果是否满足预设条件,如果不满足,对所述预设的第一训练模型进行迭代调整,直至输出结果满足预设条件,得到所述句法结构模型;所述利用预先训练得到的句法结构模型,标注每个词语在所述待处理文本数据中的句法成分,包括:将所述待处理文本数据输入所述句法结构模型,得到每个词语的初始概率向量、转移矩阵和状态矩阵;根据每个词语的初始概率向量、转移矩阵和状态矩阵,标注每个词语在所述待处理文本数据中的句法成分。可选的,在根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色之前,所述方法还包括:消除所标注的每个词语的句法成分在所述待处理文本数据中的歧义,得到每个词语的校正句法成分;所述根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色,包括:根据所述每个实体数据的校正句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色。可选的,所述根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色,包括:将句法成分标注后的待处理文本数据输入预先训练得到的语义角色标注模型,计算每个句法成分被标注为谓语的词语与其它词语之间存在的多种语义角色的概率;将满足预设第二概率条件的语义角色作为该句法成分被标注为谓语的词语与其它词语之间的语义角色。可选的,采用如下步骤,训练得到所述语义角色标注模型:获取第二样本数据;对所获取的第二样本数据进行分析处理;其中,所述分析处理包括以下一项或多项:分词处理、词性标注处理和句法分析处理;根据预设的删除规则,删除经过分析处理的第二样本数据中不会作为语义角色的数据,得到训练数据;利用所述训练数据,对预设的第二训练模型进行训练,得到语义角色标注模型。可选的,所述对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,包括:对所述事件数据进行语义分析,基于分析结果,构建事件发生序列;基于所述事件发生序列,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络;其中,所述事件关系包括以下一项或多项:因果关系、伴随关系和顺承关系。可选的,所述对所述事件数据进行语义分析,基于分析结果,构建事件发生序列,包括:针对每个事件数据,对该事件数据进行语义指代消解,确定该事件数据的语义;根据每个事件数据的语义,确定每个事件数据的发生顺序,根据所述发生顺序,构建事件发生序列。可选的,所述基于所述事件发生序列,确定各个事件数据之间的语义关系,生成由所述事件数据之间的事件关系组成的事件体系网络,包括:根据所述事件发生序列,构建有向无环图;基于所述有向无环图,计算得到各个事件数据之间的事件转移概率;根据所述各个事件数据之间的事件转移概率,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络。可选的,所述方法还包括:利用预先设定的评价规则,对所述本体进行评价,得到评价结果;根据所述评价结果,判断所述本体是否满足预设期望条件;若满足所述期望条件,则对所述本体进行展示。可选的,所述得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体,包括:获取本体模板;将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述本体模板中,得到本本文档来自技高网...

【技术保护点】
1.一种本体构建方法,其特征在于,所述方法包括:/n获取待处理文本数据;/n从所述待处理文本数据中抽取实体数据和事件数据;/n基于所述待处理文本数据,预测所述实体数据之间的实体关系;/n对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。/n

【技术特征摘要】
1.一种本体构建方法,其特征在于,所述方法包括:
获取待处理文本数据;
从所述待处理文本数据中抽取实体数据和事件数据;
基于所述待处理文本数据,预测所述实体数据之间的实体关系;
对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。


2.根据权利要求1所述的方法,其特征在于,所述从所述待处理文本数据中抽取实体数据,包括:
针对所述待处理文本数据中的每个词语,通过对该词语进行语料标注,确定该词语的词性;
筛选出词性为名词、且具有语义信息的词语,作为待处理词语;
从所述待处理词语中,筛选出不存在于预设词典中的词语,作为候选实体数据;
根据预设的实体抽取规则,对所述候选实体数据进行抽取,得到实体数据。


3.根据权利要求2所述的方法,其特征在于,所述针对每个词语,通过对该词语进行语料标注,确定该词语的词性,包括:
针对每个词语,从预先获取的特征模板库中,获取该词语的转移概率、状态概率和特征权重;根据所述转移概率、状态概率和特征权重,分别计算该词语为不同词性的概率;将满足预设第一概率条件的词性作为该词语的词性。


4.根据权利要求1所述的方法,其特征在于,所述从所述待处理文本数据中抽取事件数据,包括:
从所述待处理文本数据中识别出候选事件数据;其中,所述候选事件数据包括以下一项或多项:事件的发生时间、参与方、事件演变状态、事件发生环境和事件发生条件;
根据预设的事件抽取规则,对识别出的候选事件数据进行筛选,将筛选出的候选事件数据作为事件数据。


5.根据权利要求1所述的方法,其特征在于,所述基于所述待处理文本数据,预测所述实体数据之间的实体关系,包括:
利用预先训练得到的句法结构模型,标注每个词语在所述待处理文本数据中的句法成分;
根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色;
根据所预测的每个词语的语义角色,确定所抽取的实体数据的语义角色,分析所述实体数据之间的实体关系。


6.根据权利要求5所述的方法,其特征在于,采用如下步骤,训练得到所述句法结构模型:
获取第一样本数据;
将所述第一样本数据输入预设的第一训练模型,得到的输出结果中包括所述第一样本数据中每个词语的句法成分的初始概率向量、转移矩阵和状态矩阵;
判断输出结果是否满足预设条件,如果不满足,对所述预设的第一训练模型进行迭代调整,直至输出结果满足预设条件,得到所述句法结构模型;
所述利用预先训练得到的句法结构模型,标注每个词语在所述待处理文本数据中的句法成分,包括:
将所述待处理文本数据输入所述句法结构模型,得到每个词语的初始概率向量、转移矩阵和状态矩阵;
根据每个词语的初始概率向量、转移矩阵和状态矩阵,标注每个词语在所述待处理文本数据中的句法成分。


7.根据权利要求5所述的方法,其特征在于,在根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色之前,所述方法还包括:
消除所标注的每个词语的句法成分在所述待处理文本数据中的歧义,得到每个词语的校正句法成分;
所述根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色,包括:
根据所述每个实体数据的校正句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色。


8.根据权利要求5所述的方法,其特征在于,所述根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色,包括:
将句法成分标注后的待处理文本数据输入预先训练得到的语义角色标注模型,计算每个句法成分被标注为谓语的词语与其它词语之间存在的多种语义角色的概率;将满足预设第二概率条件的语义角色作为该句法成分被标注为谓语的词语与其它词语之间的语义角色。


9.根据权利要求5所述的方法,其特征在于,采用如下步骤,训练得到所述语义角色标注模型:
获取第二样本数据;
对所获取的第二样本数据进行分析处理;其中,所述分析处理包括以下一项或多项:分词处理、词性标注处理和句法分析处理;
根据预设的删除规则,删除经过分析处理的第二样本数据中不会作为语义角色的数据,得到训练数据;
利用所述训练数据,对预设的第二训练模型进行训练,得到语义角色标注模型。


10.根据权利要求1所述的方法,其特征在于,所述对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,包括:
对所述事件数据进行语义分析,基于分析结果,构建事件发生序列;
基于所述事件发生序列,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络;其中,所述事件关系包括以下一项或多项:因果关系、伴随关系和顺承关系。


11.根据权利要求10所述的方法,其特征在于,所述对所述事件数据进行语义分析,基于分析结果,构建事件发生序列,包括:
针对每个事件数据,对该事件数据进行语义指代消解,确定该事件数据的语义;
根据每个事件数据的语义,确定每个事件数据的发生顺序,根据所述发生顺序,构建事件发生序列。


12.根据权利要求10所述的方法,其特征在于,所述基于所述事件发生序列,确定各个事件数据之间的语义关系,生成由所述事件数据之间的事件关系组成的事件体系网络,包括:
根据所述事件发生序列,构建有向无环图;
基于所述有向无环图,计算得到各个事件数据之间的事件转移概率;
根据所述各个事件数据之间的事件转移概率,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络。


13.根据权利要1所述的方法,其特征在于,所述方法还包括:
利用预先设定的评价规则,对所述本体进行评价,得到评价结果;
根据所述评价结果,判断所述本体是否满足预设期望条件;
若满足所述期望条件,则对所述本体进行展示。


14.根据权利要求1所述的方法,其特征在于,所述得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体,包括:
获取本体模板;
将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述本体模板中,得到本体。


15.根据权利要求14所述的方法,其特征在于,在所述将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至原始本体模板中,得到本体之后,所述方法还...

【专利技术属性】
技术研发人员:展丽霞邵勇王圣
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1