一种语义训练方法、短文本中多语义词消歧方法技术

技术编号:19903399 阅读:22 留言:0更新日期:2018-12-26 02:54
本发明专利技术涉及自然语言处理技术领域,提供了一种语义训练方法,具体包含步骤:确定包含目标分词的训练语料;分别对所述训练语料进行分词处理,并基于第一预设算法确定各所述训练语料分词的第一词向量;基于第二预设算法确定各所述训练语料的句向量;基于所述第一词向量及各所述训练语料的所述句向量,计算获得各所述训练语料中所述目标分词对应的第二词向量;对所述目标分词对应的各所述第二词向量进行聚类,获得至少一个类别;基于所述至少一个类别确定所述目标分词对应的至少一个语义及语义向量。基于本发明专利技术所提供的语义训练方法可快速、准确对多语义词进行语义训练。

【技术实现步骤摘要】
一种语义训练方法、短文本中多语义词消歧方法
本专利技术涉及自然语言处理技术,尤其是关于一种语义训练方法、短文本中多语义词消歧方法。
技术介绍
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。传统的语料库主要应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。随着互联网大数据及人工智能技术的发展,语料库也被广泛的应用。语料库有三点特征,语料库中存放的是在语言的实际使用中真实出现过的语言材料,例如直接从网页上获取的用户留言、客服对话等;语料库是承载语言知识的基础资源,但并不等于语言知识;真实语料需要经过加工(分析和处理),才能成为有用的资源,对真实语料的加工可包含除脏数据、语义标注、词性标记等。在实际的语言场景中,一个词在不同的语句中,所表达的语义可能会不同,例如“苹果”这一词语,在语句“我想吃苹果”中,指代的是一种水果,而在语句“我的苹果拿去修了”中,指代的是一种数码产品。这类词汇可称为多语义词,针对多语义词的语义获取是语料库训练技术中一直在研究的主题。
技术实现思路
本专利技术的实施例,提供了一种语义训练方法,具体包含步骤:确定包含目本文档来自技高网...

【技术保护点】
1.一种语义训练方法,其特征在于,所述方法包含步骤:确定包含目标分词的训练语料;分别对所述训练语料进行分词处理,并基于第一预设算法确定各所述训练语料分词的第一词向量;基于第二预设算法确定各所述训练语料的句向量;基于所述第一词向量及各所述训练语料的所述句向量,计算获得各所述训练语料中所述目标分词对应的第二词向量;对所述目标分词对应的各所述第二词向量进行聚类,获得至少一个类别;基于所述至少一个类别确定所述目标分词对应的至少一个语义及语义向量。

【技术特征摘要】
1.一种语义训练方法,其特征在于,所述方法包含步骤:确定包含目标分词的训练语料;分别对所述训练语料进行分词处理,并基于第一预设算法确定各所述训练语料分词的第一词向量;基于第二预设算法确定各所述训练语料的句向量;基于所述第一词向量及各所述训练语料的所述句向量,计算获得各所述训练语料中所述目标分词对应的第二词向量;对所述目标分词对应的各所述第二词向量进行聚类,获得至少一个类别;基于所述至少一个类别确定所述目标分词对应的至少一个语义及语义向量。2.根据权利要求1所述的语义训练方法,其特征在于,所述基于第一预设算法确定各所述训练语料分词的第一向量具体包含:基于word2vec中的skip-gram模型算法对所述训练语料进行训练得到各所述训练语料分词的第一词向量。3.根据权利要求1所述的语义训练方法,其特征在于,所述基于第二预设算法确定各所述训练语料的句向量具体包含:基于textRank算法筛选出各所述训练语料的关键分词;分别将各所述训练语料的各关键分词对应的第一词向量进行加权求和再平均,分别得到各所述训练语料的句向量。4.根据权利要求1所述的语义训练方法,其特征在于,所述基于所述第一词向量及各所述训练语料的所述句向量,计算获得各所述训练语料中所述目标分词对应的第二词向量具体包含:分别选取各所述训练语料中,位置前后邻近所述目标分词的5个邻近分词;分别对各所述训练语料中的所述邻近分词的词向量进行求和再平均,得到中间向量;分别将各所述中间向量与各所述训练语料的句向量进行拼接,得到所述目标分词分别在各所述训练语料中的所述第二词向量。5.根据权利要求1所述的语义训练方法,其特征在于,所述对所述目标分词对应的各所述第二词向量进行聚类,获得至少一个类别具体包含:基于K-means算法对所述目标分词对应的各所述第二词向量进行聚...

【专利技术属性】
技术研发人员:邹辉肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1