一种处理语料的方法技术

技术编号:23161702 阅读:86 留言:0更新日期:2020-01-21 21:59
本申请公开了一种处理语料的方法,涉及人工智能领域,用于提高语义识别的准确性和有效性。所述方法包括:对需要进行语义识别的目标文本进行分词处理以获得目标文本包括的多个词语,并对每个词语进行词向量处理,以获得目标文本对应的词向量序列;将词向量序列输入预先训练的语义识别模型,以通过语义识别模型确定目标文本对应的目标语义特征;其中,语义识别模型是根据多个标注了语义标签的文本训练样本训练得到的,多个文本训练样本中包括第一类文本训练样本和第二类文本训练样本,第一类文本训练样本根据文本自身包括的语义关键词确定对应的语义标签,第二类文本训练样本根据文本关联的注释信息确定对应的语义标签。

【技术实现步骤摘要】
一种处理语料的方法
本申请涉及人工智能
,尤其涉及一种处理语料的方法。
技术介绍
近年来,在越来越多的领域中融入了人工智能(ArtificialIntelligence,AI)技术。在人机交互的过程中,人们希望计算机能够准确地理解人类的语言,以更好地帮助用户完成各种日常工作,因此人工智能中的自然语言处理(naturallanguageprocessing,NLP)技术成为了近年来的研究热点。而在自然语言处理中,语义识别有着广泛地应用,例如在语音控制场景下,正确地理解用户说出的控制语音,能够准确地对设备进行控制,所以如何提高语义识别的准确性是值得思考的问题。
技术实现思路
本申请实施例提供一种处理语料的方法,用于提高语义识别的准确性。一方面,提供一种处理语料的方法,所述方法包括:确定需进行语义识别的目标文本;对所述目标文本进行分词处理,以获得所述目标文本包括的多个词语;对每个词语进行词向量处理,以获得所述目标文本对应的词向量序列;将所述词向量序列输入预先训练的语义识别模型,以通过所本文档来自技高网...

【技术保护点】
1.一种处理语料的方法,其特征在于,所述方法包括:/n确定需进行语义识别的目标文本;/n对所述目标文本进行分词处理,以获得所述目标文本包括的多个词语;/n对每个词语进行词向量处理,以获得所述目标文本对应的词向量序列;/n将所述词向量序列输入预先训练的语义识别模型,以通过所述语义识别模型确定所述目标文本对应的目标语义特征;其中,所述语义识别模型是根据多个标注了语义标签的文本训练样本训练得到的,多个文本训练样本中包括第一类文本训练样本和第二类文本训练样本,所述第一类文本训练样本根据文本自身包括的语义关键词确定对应的语义标签,所述第二类文本训练样本根据文本关联的注释信息确定对应的语义标签。/n

【技术特征摘要】
1.一种处理语料的方法,其特征在于,所述方法包括:
确定需进行语义识别的目标文本;
对所述目标文本进行分词处理,以获得所述目标文本包括的多个词语;
对每个词语进行词向量处理,以获得所述目标文本对应的词向量序列;
将所述词向量序列输入预先训练的语义识别模型,以通过所述语义识别模型确定所述目标文本对应的目标语义特征;其中,所述语义识别模型是根据多个标注了语义标签的文本训练样本训练得到的,多个文本训练样本中包括第一类文本训练样本和第二类文本训练样本,所述第一类文本训练样本根据文本自身包括的语义关键词确定对应的语义标签,所述第二类文本训练样本根据文本关联的注释信息确定对应的语义标签。


2.如权利要求1所述的方法,其特征在于,所述语义识别模型通过以下方式训练得到:
获得多个第一类文本训练样本,以及获得多个第二类文本训练样本和每个第二类文本训练样本对应关联的注释信息;
根据第一类文本训练样本包括的语义关键词或者语义关键词对应的同义关键词确定对应的语义标签,以及根据第二类文本训练样本对应的注释信息包括的语义关键词或者语义关键词对应的同义关键词确定对应的语义标签;
对每个第一类文本训练样本和第二类文本训练样本进行词向量处理,以得到每个文本训练样本对应的词向量序列;
根据每个训练样本对应的词向量序列和语义标签,对初始的语义识别模型进行训练,以得到训练后的语义识别模型。


3.如权利要求1所述的方法,其特征在于,所述第二类文本训练样本包括不一致样本和模糊型样本;其中,所述不一致样本为文本自身包括的语义关键词和对应的注释信息中包括的语义关键词所表达的语义不一致的文本训练样本;所述模糊型样本为文本自身和对应的注释信息中均不包括用于表达预定语义的语义关键词的文本训练样本。


4.如权利要求1-3任一所述的方法,其特征在于,所述方法还包括:
确定与所述目标语义特征满足预设关联关系的关联语义特征;
从语料推荐池中确定具有所述关联语义特征的文本作为候选推荐文本;其中,所述语料推荐池中的每条语料的语义特征是通过所述语义识别模型确定的;
根据所述候选推荐文本进行与所述目标文本对应关联的文本推荐。


5.如权利要求4所述的方法,其特征在于,确定与所述目标语义特征满足预设关联关系的关联语义特征,包括:
将所述目标语义特征、与所述目标语义特征语义相同或相近的语义特征确定为所述关联语义特征;或者,
将与所述目标语义特征语义相反的语义特征确定为所述关联语义特征。


6.如权利要求4所述的方法,其特征在于,根据所述候选推荐文本进行与所述目标文本对应关联的文本推荐,包括:
从所述候选推荐文本中确定满足预设推荐条件的目标推荐文本;
调整所述目标推荐文本所包括的词语的排列顺序,得到重组后的目标推荐文本,其中,重组后的目标推荐文本与重组前的目标推荐文本的语义一致;
将重组后的目标推荐文本进行推荐。


7.如权利要求6所述的方法,其特征在于,调整所述目标推荐文本所包括的词语的排列顺序,包括:
确定所述目标文本的句式结构;
按照所述目标文本的句式结构调整所述目标推荐文本所包括的词语...

【专利技术属性】
技术研发人员:胡隽雯曹川
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1