【技术实现步骤摘要】
语料筛选方法和装置
本申请涉及自然语言处理技术,尤其涉及一种语料筛选方法和装置。
技术介绍
自然语言处理(naturallanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。因此,自然语言处理是一门融语言学、计算机科学、数学于一体的科学。当前自然语言处理的研究方向包括词法分析、句法分析和语义分析。词法分析的作用是从句子中划分出目标词,句法分析的作用是了解这些词之间的关系,因此句法分析的输入是一个词串(可能含词性等属性),输出是句子的句法结构。语义分析是在词法分析和句法分析基础上完成更为贴近语义的形式化表达。现有技术大多聚焦于语料的句长、关键词、实义词等特征上,在深度学习发展的基础上,渴望使用一劳永逸的监督学习模型,使用词向量等黑盒方法自动表达文本特征。但黑盒特征很难给出合理解释,且一般不符合中文语言习惯。 ...
【技术保护点】
1.一种语料筛选方法,其特征在于,包括:/n获取N个语料,每个所述语料为一个自然句,N为正整数;/n对第一语料进行自然语言处理得到M个标签,所述第一语料为所述N个语料中的任意一个,所述自然语言处理包括词法分析、句法分析和语义分析中的一个或多个,所述M个标签包括词性标签、句法角色标签和语义角色标签中的一个或多个,M为正整数;/n根据所述M个标签计算所述第一语料的语义特征,所述语义特征用于表示所述第一语料的文本语义特征;/n根据所述第一语料的语义特征计算所述第一语料的贡献度,所述第一语料的贡献度用于表示所述第一语料在所述N个语料中的语义权重;/n根据所述N个语料的贡献度对所述N ...
【技术特征摘要】
1.一种语料筛选方法,其特征在于,包括:
获取N个语料,每个所述语料为一个自然句,N为正整数;
对第一语料进行自然语言处理得到M个标签,所述第一语料为所述N个语料中的任意一个,所述自然语言处理包括词法分析、句法分析和语义分析中的一个或多个,所述M个标签包括词性标签、句法角色标签和语义角色标签中的一个或多个,M为正整数;
根据所述M个标签计算所述第一语料的语义特征,所述语义特征用于表示所述第一语料的文本语义特征;
根据所述第一语料的语义特征计算所述第一语料的贡献度,所述第一语料的贡献度用于表示所述第一语料在所述N个语料中的语义权重;
根据所述N个语料的贡献度对所述N个语料进行筛选得到语料库。
2.根据权利要求1所述的方法,其特征在于,所述对第一语料进行自然语言处理得到M个标签之前,还包括:
对所述第一语料进行分词处理得到K个目标词;
所述对第一语料进行自然语言处理得到M个标签,包括以下一种或多种方法:
对所述K个目标词进行词性标注得到K个词性标签,每个所述目标词对应一个所述词性标签;
对所述K个目标词进行依存句法分析得到K个句法角色标签,每个所述目标词对应一个所述句法角色标签;以及,
对所述K个目标词进行语义角色标注得到L个语义角色标签,每个所述语义角色标签对应一个短语,所述短语包括一个或多个所述目标词,L为正整数。
3.根据权利要求2所述的方法,其特征在于,所述语义特征包括所述第一语料的语义角色内句法角色特征和语义角色内词性特征;所述根据所述M个标签计算所述第一语料的语义特征,包括:
根据所述K个句法角色标签和所述L个语义角色标签计算所述语义角色内句法角色特征;
根据所述K个词性标签和所述L个语义角色标签计算所述语义角色内词性特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一语料的语义特征计算所述第一语料的贡献度,包括:
根据所述语义角色内句法角色特征和所述语义角色内词性特征计算第一目标词的贡献度,所述第一目标词为所述K个目标词中与第一句法角色标签对应的目标词,所述第一句法角色标签为所述K个句法角色标签中的任意一个;
根据所述第一目标词的贡献度计算第一短语的贡献度,所述第一短语包括所述第一目标词且为所述第一语料中与第一语义角色标签对应的短语,所述第一语义角色标签为所述L个语义角色标签的其中之一;
根据所述第一短语的贡献度计算所述第一语料的贡献度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述N个语料的贡献度对所述N个语料进行筛选得到语料库,包括:
按照贡献度从高到低的顺序对所述N个语料进行排序,取前n个语料组成所述语料库,n为预先设定值。
6.根据权利要求4所述的方法,其特征在于,所述根据所述N个语料的贡献度对所述N个语料进行筛选得到语料库,包括:
获取所有第二目标词的权重,所述第二目标词为所述N个语料中被标注为设定谓词的目标词;
针对每个所述第二目标词,按照贡献度从高到低的顺序对包括所述第二目标词的所有第二语料进行排序,所述N个语料包括所述所有第二语料;根据所述第二目标词的权重从所述包括所述第二目标词的所有第二语料中提取相关数量的所述第二语料加入所述语料库。
7.根据权利要求4所述的方法,其特征在于,所述根据所述N个语料的贡献度对所述N个语料进行筛选得到语料库,包括:
获取所有第二短语的权重,所述第二短语为所述N个语料中被标注为设定语义角色标签的短语;
针对每个所述第二短语,按照贡献度从高到低的顺序对包括所述第二短语的所有第三语料进行排序,所述N个语料包括所述所有第三语料;根据所述第二短语的权重从所述包括所述第二短语的所有第三语料中提取相关数量的所述第三语料加入所述语料库。
8.根据权利要求3-7中任一项所述的方法,其特征在于,所述语义特征还包括谓词数量特征;所述根据所述M个标签计算所述第一语料的语义特征,还包括:
计算第四目标词集合包括的目标词数量在第五目标词集合包括的目标词数量中的第三占比作为所述谓词数量特征,所述第四目标词集合包括所述N个语料中的且被标注为第一谓词的所有目标词,所述第五目标词集合包括所述N个语料中的且被标注为任意一种谓词的所有目标词,所述第一谓词为所述谓词中的任意一种;
所述根据所述N个语料的贡献度对所述N个语料进行筛选得到语料库之前,还包括:
根据所述谓词数量特征和所述N个语料的贡献度计算所述N个语料中的且被标注为任意一种谓词的所有目标词的贡献度;
所述根据所述N个语料的贡献度对所述N个语料进行筛选得到语料库,包括:
按照贡献度从高到低的顺序对所述N个语料中的且被标注为任意一种谓词的所有目标词进行排序,取包括前n个所述目标词的语料组成所述语料库。
9.根据权利要求3-7中任一项所述的方法,其特征在于,所述语义特征还包括语义角色特征;所述根据所述M个标签计算所述第一语料的语义特征,还包括:
计算所述N个语料中的第一语义角色标签的数量在所述N个语料中的所有语义角色标签的数量中的第四占比作为所述语义角色特征,所述第一语义角色标签为所述所有语义角色标签中的任意一个;
所述根据所述N个语料的贡献度对所述N个语料进行筛选得到语料库之前,还包括:
根据所述语义角色特征和所述N个语料的贡献度计算所述N个语料中的任意一个语义角色标签对应的短语的贡献度;
所述根据所述N个语料的贡献度对所述N个语料进行筛选得到语料库,包括:
按照贡献度从高到低的...
【专利技术属性】
技术研发人员:廉昊,聂为然,李宏广,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。