【技术实现步骤摘要】
非命名实体对象抽取方法、装置、电子设备及存储介质
本申请涉及对象抽取
,具体而言,涉及一种非命名实体对象抽取方法、装置、电子设备及存储介质。
技术介绍
在现在大数据技术和计算机基础得到高速提升的背景下,人工智能(ArtificialIntelligence,AI)被推上了技术顶峰,而AI中桂冠则是自然语言处理(naturallanguageprocessing,NLP),在NLP任务有一项特别的任务称作命名实体识别(NamedEntityRecognition,NER),主要是从一段句子中抽取涉及命名实体,如:人名、地名、组织机构名等。这些命名实体之所以可以抽取出来,终其原因是由于这些名词有很高的内聚性,而和上下文的关联性并不是太强。目前在工业界针对抽取非命名实体的抽取,只是将命名实体抽取的方法直接借鉴过来,无论其模型是通过统计学判定、词性标注还是通过神经网络,共同原始依然是根据互信息来判断当前词是否为待抽取的实体。这种非命名实体抽取的方式抽取结果不够准确。
技术实现思路
本申请实施例的目的 ...
【技术保护点】
1.一种非命名实体对象抽取方法,其特征在于,包括:/n获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;/n对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;/n对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;/n利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;/n根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。/n
【技术特征摘要】 【专利技术属性】
1.一种非命名实体对象抽取方法,其特征在于,包括:
获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;
对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;
对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;
利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;
根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行分词处理,包括:
利用分词模型对所述待处理文本进行分词处理;其中,所述分词模型为通过已经分词的文本对隐马尔可夫模型进行训练获得。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息,包括:
从训练语料中获得每个特征词对应的至少一个词性信息;其中,所述训练语料中包括多个语料,以及每个语料中语料词对应的词性信息,以及所述语料词被标记为所述词性信息的次数;
根据多个特征词分别对应的词性信息构建多条路径,其中,每条路径包括每个特征词的一个词性信息;
根据每条路径中对应的每个特征词的词性信息,以及所述特征词被标记为所述词性的次数,计算所述路径的概率;
将概率值最大的路径作为目标路径;其中,所述目标路径中每个特征词对应的词性信息为目标词性信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述多个特征词进行依存句法分析,包括:
利用StanfordcoreNLP对所述多个特征词进行依存句法分析。
5.根据权利要求1所述的方法,其特征在于,在利用命名实体识别模型对多个特征词进行分析之前,所述方法还包括:
获取训练集,所述训练集包括多个属于命名实体的特征词和多个属于非命名实体的特征词;
利用属于命名实体的特征词和属于非命名实体的特征词对神经网络模型进行训练,获得所述命名实体识别模型。
技术研发人员:齐云飞,梁秀钦,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。