【技术实现步骤摘要】
词性标注方法、装置、设备及存储介质
本专利技术实施例涉及人工智能
,尤其涉及一种词性标注方法、装置、设备及存储介质。
技术介绍
自然语言处理中的词性标注是一种获取句子句法语义结构信息的重要分析手段。而汉语是一种缺乏形态变化的语言,高质量的词性分析结果能够有效地提升句法语义分析的水平。但是,汉语词的兼类性强,这为自动的词性标注带来了极大的挑战。目前主要基于词性标注模型来实现汉语词性的标注,其中,词性标注模型的构建需要高质量的词性标注语料。而获取高质量的词性标注语料对标注者的专业知识要求较高,同时也是一项耗时耗力的工程,很难在短时间内累积大量的语料;且现有的词性标注模型所输出的原始语句中词语的词性标注结果不准确。
技术实现思路
本专利技术实施例提供了一种词性标注方法、装置、终端及存储介质,提高了词语的词性标注准确度。第一方面,本专利技术实施例提供了一种词性标注方法,该方法包括:获取原始语句;将所述原始语句作为词性标注模型的输入,得到所述原始语句中各词语的词性;其中,所述词 ...
【技术保护点】
1.一种词性标注方法,其特征在于,包括:/n获取原始语句;/n将所述原始语句作为词性标注模型的输入,得到所述原始语句中各词语的词性;其中,所述词性标注模型是基于虚词词性语料库和通用词语词性语料库,对神经网络模型进行训练得到的。/n
【技术特征摘要】
1.一种词性标注方法,其特征在于,包括:
获取原始语句;
将所述原始语句作为词性标注模型的输入,得到所述原始语句中各词语的词性;其中,所述词性标注模型是基于虚词词性语料库和通用词语词性语料库,对神经网络模型进行训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述虚词词性语料库中样本虚词的词性通过如下方式确定:
确定样本语句中的样本虚词;
将所述样本虚词及样本语句作为语义依存模型的输入,得到与所述样本虚词相关联的候选词语;
依据所述候选词语及所述样本虚词的语义信息,确定所述样本虚词的词性。
3.根据权利要求2所述的方法,其特征在于,依据所述候选词语及所述样本虚词的语义信息,确定所述样本虚词的词性,包括:
依据所述样本虚词的语义信息,从所述候选词语中选择与所述样本虚词存在直接依赖关系的依赖候选词语;
依据所选择的依赖候选词语的词性信息,确定所述样本虚词的词性。
4.根据权利要求2所述的方法,其特征在于,所述语义依存模型通过如下方式确定:
基于样本虚词及样本语句,采用词语提取规范,对基础语义依存模型进行训练,得到语义依存模型。
5.根据权利要求1所述的方法,其特征在于,所述词性标注模型是基于虚词词性语料库和通用词语词性语料库,对神经网络模型进行训练得到的,包括:
采用通用词语词性语料库对神经网络模型进行训练,得到基础词性标注模型;
基于所述基础词性标注模型的参数,确定虚词词性语料库中样本虚词的词性的后验概率;
以所述样本虚词的词性的后验概率作为优化目标,对所述基础词性标注模型进行优化,得到所述词性...
【专利技术属性】
技术研发人员:孙薇薇,汉斯·乌思克尔特,艾人龙,
申请(专利权)人:北京深知无限人工智能研究院有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。