【技术实现步骤摘要】
一种文本数据的信息抽取方法及装置
本专利技术涉及条件知识抽取技术,尤其涉及一种文本数据的信息抽取方法、装置及计算机可读存储介质。
技术介绍
由于互联网拥有数量巨大的用户,使其成为目前可用的规模最大、内容最丰富的信息源。但是由于互联网数据缺乏语义相关的信息,使得这些丰富的数据资源仅为人类所理解,而机器或程序则无法自动理解数据的含义。虽然语义互联网理论为解决该问题提供了契机,但语义互联网远景尚未实现,其主要障碍仍然是对现有互联网数据的语义识别,尤其是对无结构的自然语言文档的语义识别。知识抽取研究如何根据给定本体从物寓意标注的信息中识别并抽取与本体匹配的事实知识。该技术既可以抽取出事实知识用于构建基于知识的服务,也能够为语义互联网的实现提供必要的语义内容。但是,在知识抽取体系中,如何构建一个大规模文本中的条件知识抽取系统成为了一个亟待解决的技术难题。传统的知识抽取方法需要预先定义实体关系类型体系,针对预先定义好的每一类实体关系人工标注训练预料,然后利用机器学习的方法训练分类器进行新的关系实例识别和关系元组抽取。然而,预先定义一个全面实体关系类型体系是很困难的,并且人工构 ...
【技术保护点】
1.一种文本数据的信息抽取方法,其特征在于,所述方法包括:根据获取的文本数据中字符的上下文字符数据,对文本数据所包含的字符的词性进行标注,确定出包含有字符词性标注的文本数据;基于字符词性标注抽取所述文本数据中的关系短语,生成短语种子模板;将所述包含有字符词性标注的文本数据与所述短语种子模板进行匹配,确定出文本数据中与所述短语种子模板匹配的短语,生成包含有所述匹配的短语与所述短语种子模板对应关系的结构数据;计算所述结构数据中短语种子模板的可信度,将可信度大于等于设定可信度阈值的短语种子模板输出。
【技术特征摘要】
1.一种文本数据的信息抽取方法,其特征在于,所述方法包括:根据获取的文本数据中字符的上下文字符数据,对文本数据所包含的字符的词性进行标注,确定出包含有字符词性标注的文本数据;基于字符词性标注抽取所述文本数据中的关系短语,生成短语种子模板;将所述包含有字符词性标注的文本数据与所述短语种子模板进行匹配,确定出文本数据中与所述短语种子模板匹配的短语,生成包含有所述匹配的短语与所述短语种子模板对应关系的结构数据;计算所述结构数据中短语种子模板的可信度,将可信度大于等于设定可信度阈值的短语种子模板输出。2.根据权利要求1所述的方法,其特征在于,所述根据文本数据中字符的上下文字符数据,对文本数据所包含的字符的词性进行标注,确定出包含有字符词性标注的文本数据,包括:根据文本数据中字符的上下文字符数据,确定出所述文本数据中兼类词字符的词性,并标注所述兼类词字符的词性。3.根据权利要求1所述的方法,其特征在于,所述抽取所述包含有字符词性标注的文本数据中的关系短语,生成短语种子模板,包括:将所述文本数据中满足V|VP|VW*P语法关系式的短语确定为关系短语,其中,V=verbparticle?adv?;其中,?表示条件运算符,verbparticle表示动词小品词,adv表示副词;W=(noun|adj|adv|pron|det);其中,|表示或运算,noun表示名词,adj表示形容词,adv表示副词,pron表示代词,det表示限定词;P=(prep|particle|inf.marker);其中,prep表示介词,particle表示小品词,inf.marker表示不定词标注;统计所述确定出的关系短语在所述文本数据中的数量,保留所述关系短语数量大于等于预设阈值的关系短语,滤除所述关系短语数量小于预设阈值的关系短语;将所述保留的关系短语以及所述保留的关系短语上文和下文最近的两个名词短语组成三元组关系短语;根据预设的权重模型对所述组成的三元组关系短语进行分类,确定出分类后的三元组关系短语;根据预设的连词特征,对所述确分类后的三元组关系短语进行筛选,筛选出符合预设的连词特征的三元组关系短语,生成短语种子模板。4.根据权利要求1所述的方法,其特征在于,所述将所述包含有字符词性标注的文本数据与所述短语种子模板进行匹配,确定出文本数据中与所述短语种子模板匹配的短语,生成包含有所述匹配的短语与所述短语种子模板对应关系的结构数据,包括:对所述短语种子模板的每一个数据位进行递归匹配运算;其中,当所述短语种子模板的数据位为普通数据位时,则将所述文本数据与短语种子模板进行匹配;当所述短语种子模板的数据位为特殊数据位时,则根据所述特数据位的数据类型,枚举所述特殊数据位的每一个数据位,将所述特殊数据位的每一个数据位与所述文本数据进行匹配;当匹配成功后,记录所述短语种子模板与所述文本数据中短语的对应关系。5.根据权利要求1所述的方法,其特征在于,所述计算所述结构数据中短语种子模板的可信度,包括:根据下述公式计算所述结构数据中短语种子模板的可信度:Confidence(Pattern)=SeedMatch[Pattern]/log(1+CorpusMatch[Pattern]);其中,Confidence(Pattern)表示可信度的数值,SeedMatch[Pattern]表示种子模板所对应的所有短语中匹配于该短语种子模板的短语的数量,CorpusMatch[Pattern]表示所述文本数据中匹配于该短语种子模板的短语的数量。6.一种文本数据的信息抽取装置,其特征在于,所述装置包括:确定模块,标注模块,生成模块,匹配模块,可信度计算...
【专利技术属性】
技术研发人员:李小文,李晟,房耘耘,杨东,王伟,邢荣荣,
申请(专利权)人:中国移动通信集团公司,中移苏州软件技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。