一种中文分词方法、装置及存储介质制造方法及图纸

技术编号:24331646 阅读:73 留言:0更新日期:2020-05-29 19:52
本发明专利技术提供了一种中文分词方法、装置及存储介质,其中,方法包括:获取文本对应的每一个字的字向量;将每一个字向量输入到长短期记忆网络模型的投射层,得到投射层输出的所述字向量隶属于每一个目标类别的初始概率;获取目标领域词库对应的文本向量;将字向量隶属于每一个目标类别的初始概率和文本向量输入到长短期记忆网络模型的条件随机场层;根据文本向量,对字向量隶属于每一个目标类别的初始概率进行调整,得到标签序列;根据标签序列,得到文本的分词序列。通过实施本发明专利技术,利用长短期记忆网络模型和目标领域词库对字向量隶属于每一个目标类别的初始概率进行计算与调整,得到中文分词序列,提高了分词结果的准确性。

A Chinese word segmentation method, device and storage medium

【技术实现步骤摘要】
一种中文分词方法、装置及存储介质
本专利技术涉及自然语言处理领域,具体涉及一种中文分词方法、装置及存储介质。
技术介绍
中文分词是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独对词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。相关技术中,分词方法为基于传统的统计学习的分词方法,但需要人工设计规则模板,而且面临严重的数据稀疏问题,导致分词结果的准确率低。
技术实现思路
因此,本专利技术要解决的技术问题在于克服现有技术中的分词结果的准确率低缺陷,从而提供一种中文分词方法、装置及存储介质。根据第一方面,本专利技术实施例提供一种中文分词方法,包括如下步骤:获取文本对应的每一个字的字向量;将每一个字向量输入到长短期记忆网络模型的投射层,得到所述投射层输出的所述字向量隶属于每一个目标类别的初始概率;获取目标领域词库对应的文本向量;将所本文档来自技高网...

【技术保护点】
1.一种中文分词方法,其特征在于,包括如下步骤:/n获取文本对应的每一个字的字向量;/n将每一个字向量输入到长短期记忆网络模型的投射层,得到所述投射层输出的所述字向量隶属于每一个目标类别的初始概率;/n获取目标领域词库对应的文本向量;/n将所述字向量隶属于每一个目标类别的初始概率和所述文本向量输入到所述长短期记忆网络模型的条件随机场层;/n根据所述文本向量,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到标签序列;/n根据每一个所述标签序列,得到所述文本的分词序列。/n

【技术特征摘要】
1.一种中文分词方法,其特征在于,包括如下步骤:
获取文本对应的每一个字的字向量;
将每一个字向量输入到长短期记忆网络模型的投射层,得到所述投射层输出的所述字向量隶属于每一个目标类别的初始概率;
获取目标领域词库对应的文本向量;
将所述字向量隶属于每一个目标类别的初始概率和所述文本向量输入到所述长短期记忆网络模型的条件随机场层;
根据所述文本向量,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到标签序列;
根据每一个所述标签序列,得到所述文本的分词序列。


2.根据权利要求1所述的方法,其特征在于,所述获取文本对应的每一个字的字向量,包括:
将所述文本输入到所述长短期记忆网络模型的第一编码层,得到所述文本对应的每一个字的初始字向量;
将所述对应的每一个字的初始字向量输入到第二编码层,得到表征上下文关系的字向量,将所述表征上下文关系的字向量作为所述文本对应的每一个字的字向量。


3.根据权利要求1所述的方法,其特征在于,所述目标类别包括多字词语的首位、多字词语的中间位、多字词语的尾位和单字词语。


4.根据权利要求1所述的方法,其特征在于,根据所述文本向量,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到所述字向量的标签,包括:
获取转移概率矩阵;
根据所述转移概率矩阵,对所述字向量隶属于每一个目标类别的初始概率进行调整,得到所述字向量的标签。


5.一种中文分词装置,其特征在于,包括:
字向量获取模块,用于获取文本对应的每一个字的字向量;
初始概率获取模块,用于将每一个字向量输入到长短期记忆网络模型的投射层,得到所述投射层输出的所述字向量隶属于每一个目标...

【专利技术属性】
技术研发人员:宋博川张强柴博贾全烨戴铁潮
申请(专利权)人:全球能源互联网研究院有限公司国家电网有限公司国网浙江省电力有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1