【技术实现步骤摘要】
一种信息抽取方法、装置、及存储介质
本文涉及计算机技术,尤指一种信息抽取方法、装置、及存储介质。
技术介绍
信息抽取(IE)是将嵌入在文本中的非结构化信息自动提取转换为结构化数据的过程。信息抽取在互联网产品和企业服务领域有着广泛的应用。例如在构建搜索或者推荐引擎的过程中,首先需要对网页或者推荐品的文本内容进行信息提取。信息抽取的结果可以用于对文档去重,并且更精确地构建搜索索引和推荐特征:从而,不仅节约了存储成本,还提高了搜索和推荐的质量。现有方法对实体抽取环节的建模使用命名实体识别技术进行识别,需要预先对特定领域的语料进行标注,此环节费时耗力,限制了信息抽取技术的应用范围。对于有方法的抽取结果无法还原原文中未提及的概念,缺少领域知识引导,导致抽取得到的三元组稀疏、语义连贯性不足。
技术实现思路
本申请提供了一种信息抽取方法、装置、及存储介质,能够达到节约标注成本和增强了系统模型的鲁棒性的目的。本申请提供了一种信息抽取方法,包括:对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标 ...
【技术保护点】
1.一种信息抽取方法,其特征在于,包括:/n对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;根据每个分词的词性标注结果进行依存树解析,得到所述目标文本所有分词的依存关系树;/n根据所述依存关系树抽取所述目标文本中实体关系的三元组,包括:对于每一个分词得到的动词分别进行如下操作:将该动词确定为三元组的谓词,以该动词为根节点,遍历所述依存关系树中与该动词有关的名词,将与该动词的依存关系为主体的实体确定为所述三元组的主体,将与该动词的依存关系为客体的实体确定为所述三元组的客体。/n
【技术特征摘要】
1.一种信息抽取方法,其特征在于,包括:
对目标文本进行分词;对每个分词进行词性标注得到每个分词的词性标注结果;根据每个分词的词性标注结果进行依存树解析,得到所述目标文本所有分词的依存关系树;
根据所述依存关系树抽取所述目标文本中实体关系的三元组,包括:对于每一个分词得到的动词分别进行如下操作:将该动词确定为三元组的谓词,以该动词为根节点,遍历所述依存关系树中与该动词有关的名词,将与该动词的依存关系为主体的实体确定为所述三元组的主体,将与该动词的依存关系为客体的实体确定为所述三元组的客体。
2.根据权利要求1所述的方法,其特征在于,所述对目标文本进行分词之前,还包括:移除所述目标文本中的特殊字符。
3.根据权利要求1所述的方法,其特征在于,所述根据依存关系树抽取所述目标文本中实体关系的三元组前,还包括:
将所得到的依存关系树中名词词性的分词采用预定规则进行组块合并,获得组块合并后的依存关系树;所述名词词性的分词包括专有名词和非专有名词;所述采用预定规则进行组块合并包括以下方式至少之一:
将连续的两个或两个以上的专有名词进行组块合并;
将专有名词和该专有名词后连接的非专有名词进行组块合并;
将之间以一个标点或连词间隔的名词词性的分词进行组块合并。
4.根据权利要求3所述的方法,其特征在于,所述将所得到的依存关系树中名词词性的分词采用预定规则进行组块合并,获得组块合并后的依存关系树,还包括:
将组块合并后得到的词作为名词词性的分词,按照所述预定规则进行组块合并,直到不存在能进行合并的名词词性的分词为止,获得最终的组块合并后的依存关系树。
5.根据权利要求3所述的方法,其特征在于,所述根据依存关系树抽取所述目标文本中实体关系的三元组前还包括:
采用共指消解模型,将所述组块合并后的依存关系树中的指定...
【专利技术属性】
技术研发人员:付骁弈,张杰,吴信东,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。