基于专业领域知识的分词方法、装置、设备及存储介质制造方法及图纸

技术编号:35135151 阅读:22 留言:0更新日期:2022-10-05 10:09
本发明专利技术涉及人工智能技术领域,提供一种基于专业领域知识的分词方法、装置、设备及存储介质,用于解决现有的文本分词方法无法满足在专业领域内提升精度且满足速度性能的需求问题。基于专业领域知识的分词方法包括:通过语言表征模型结构对待处理文本进行基于上下文信息的特征融合得到预融合文本特征;通过双向门控循环单元模型结构对预融合文本特征进行双向的语义信息融合得到目标文本编码向量;通过预置的专业领域分词词典和条件随机场模型结构对目标文本编码向量进行词性识别得到最优分词信息;通过最优分词信息对待处理文本进行分词得到目标分词。此外,本发明专利技术还涉及区块链技术,目标分词可存储于区块链中。目标分词可存储于区块链中。目标分词可存储于区块链中。

【技术实现步骤摘要】
基于专业领域知识的分词方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能的分词模型领域,尤其涉及一种基于专业领域知识的分词方法、装置、设备及存储介质。

技术介绍

[0002]分词任务在自然语言处理中始终占据重要且基础的位置。其主要作用在于对文本按照词性完成拆分,其对于文本分类、信息抽取、知识图谱等众多自然语言下游任务都有着重要的影响。
[0003]目前主流的分词算法主要有基于规则、机器学习(如:隐马尔可夫模型(Hidden Markov Model,HMM))或深度预训练模型BERT的方法。这些方法中基于规则的方法在速度上能满足业务需求,但是精度无法满足要求:机器学习方法在速度上基本也能满足需求,但是精度上依然无法满足;深度预训练模型则在精度上能满足但是在速度上和分词稳定性上却有待提升,例如,结巴jieba分词在速度上能达到深度模型的5

10倍,然而精度上却相差甚远。因此,现有的文本分词方法存在无法满足专业领域内提升精度且满足速度性能的需求的缺陷。

技术实现思路

[0004]本专利技术提供一种基于专业领域知识的分词方法、装置、设备及存储介质,用于解决现有的文本分词方法无法满足在专业领域内提升精度且满足速度性能的需求问题。
[0005]本专利技术第一方面提供了一种基于专业领域知识的分词方法,包括:
[0006]获取待处理文本,通过预置的目标分词模型中的语言表征模型结构,对所述待处理文本进行基于上下文信息的特征融合,得到预融合文本特征,所述目标分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构;
[0007]通过所述双向门控循环单元模型结构,对所述预融合文本特征进行双向的语义信息融合,得到目标文本编码向量;
[0008]通过预置的专业领域分词词典和所述条件随机场模型结构,对所述目标文本编码向量进行词性识别,得到最优分词信息;
[0009]通过所述最优分词信息,对所述待处理文本进行分词,得到目标分词。
[0010]可选的,在本专利技术第一方面的第一种实现方式中,所述通过预置的专业领域分词词典和所述条件随机场模型结构,对所述目标文本编码向量进行词性识别,得到最优分词信息,包括:
[0011]通过预置的专业领域分词词典,对所述目标文本编码向量进行分词的词性匹配,得到未匹配分词;
[0012]通过所述条件随机场模型结构,对所述未匹配分词进行全局最优分词路径检索,得到最优分词信息。
[0013]可选的,在本专利技术第一方面的第二种实现方式中,所述通过所述条件随机场模型
结构,对所述未匹配分词进行全局最优分词路径检索,得到最优分词信息,包括:
[0014]通过所述条件随机场模型结构,基于预置的词性转换得分矩阵,计算所述未匹配分词的全局得分最大值,所述词性转换得分矩阵用于指示词性到词性的转换得分矩阵;
[0015]基于文本序列中词的顺序,获取所述目标文本编码向量中与所述全局得分最大值对应的词性解,得到最优分词信息。
[0016]可选的,在本专利技术第一方面的第三种实现方式中,所述通过预置的专业领域分词词典,对所述目标文本编码向量进行分词的词性匹配,得到未匹配分词,包括:
[0017]通过预置的专业领域分词词典,基于预置双向最大匹配算法,对所述目标文本编码向量进行切分并进行专业领域词典前缀树的词性匹配,得到分词结果,所述分词结果用于指示目标文本编码向量切分后的各词与专业领域分词词典中的词是否未能匹配;
[0018]根据所述分词结果从目标文本编码向量切分后的各词中获取未匹配分词。
[0019]可选的,在本专利技术第一方面的第四种实现方式中,所述获取待处理文本,通过预置的目标分词模型中的语言表征模型结构,对所述待处理文本进行基于上下文信息的特征融合,得到预融合文本特征之前,还包括:
[0020]获取经过逐字标注的专业领域文本样本集,并构建初始分词模型,所述初始分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构;
[0021]通过所述语言表征模型结构和所述双向门控循环单元模型结构,对所述专业领域文本样本集进行语义信息特征融合,得到融合文本样本集;
[0022]通过所述条件随机场模型结构,对所述融合文本样本集进行全局最优分词路径搜索,得到词性预测结果;
[0023]基于所述词性预测结果对所述专业领域文本样本集进行分词,得到分词信息;
[0024]基于所述分词信息获取损失值,通过所述损失值对所述初始分词模型进行调整优化,得到目标分词模型。
[0025]可选的,在本专利技术第一方面的第五种实现方式中,所述获取待处理文本,通过预置的目标分词模型中的语言表征模型结构,对所述待处理文本进行基于上下文信息的特征融合,得到预融合文本特征之前,还包括:
[0026]获取专业领域文本数据,通过所述目标分词模型对所述专业领域文本数据进行分词,得到待处理分词;
[0027]按照词频顺序将所述待处理分词进行词典存储,得到初始词典;
[0028]根据预设清除词对所述初始词典进行筛选和删除,得到处理后的词典;
[0029]通过预置的前缀树模型,对所述处理后的词典进行保存,得到专业领域分词词典。
[0030]可选的,在本专利技术第一方面的第六种实现方式中,所述通过所述词性识别结果,对所述待处理文本进行分词,得到目标分词之后,还包括:
[0031]获取基于所述目标分词的校验信息,基于所述校验信息,对所述专业领域分词词典进行词汇扩充,并对所述目标分词模型进行优化。
[0032]本专利技术第二方面提供了一种基于专业领域知识的分词装置,包括:
[0033]第一融合模块,用于获取待处理文本,通过预置的目标分词模型中的语言表征模型结构,对所述待处理文本进行基于上下文信息的特征融合,得到预融合文本特征,所述目标分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构;
[0034]第二融合模块,用于通过所述双向门控循环单元模型结构,对所述预融合文本特征进行双向的语义信息融合,得到目标文本编码向量;
[0035]识别模块,用于通过预置的专业领域分词词典和所述条件随机场模型结构,对所述目标文本编码向量进行词性识别,得到最优分词信息;
[0036]第一分词模块,用于通过所述最优分词信息,对所述待处理文本进行分词,得到目标分词。
[0037]可选的,在本专利技术第二方面的第一种实现方式中,所述识别模块包括:
[0038]匹配单元,用于通过预置的专业领域分词词典,对所述目标文本编码向量进行分词的词性匹配,得到未匹配分词;
[0039]检索单元,用于通过所述条件随机场模型结构,对所述未匹配分词进行全局最优分词路径检索,得到最优分词信息。
[0040]可选的,在本专利技术第二方面的第二种实现方式中,所述检索单元具体用于:
[0041]通过所述条件随机场模型结构,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于专业领域知识的分词方法,其特征在于,所述基于专业领域知识的分词方法包括:获取待处理文本,通过预置的目标分词模型中的语言表征模型结构,对所述待处理文本进行基于上下文信息的特征融合,得到预融合文本特征,所述目标分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构;通过所述双向门控循环单元模型结构,对所述预融合文本特征进行双向的语义信息融合,得到目标文本编码向量;通过预置的专业领域分词词典和所述条件随机场模型结构,对所述目标文本编码向量进行词性识别,得到最优分词信息;通过所述最优分词信息,对所述待处理文本进行分词,得到目标分词。2.根据权利要求1所述的基于专业领域知识的分词方法,其特征在于,所述通过预置的专业领域分词词典和所述条件随机场模型结构,对所述目标文本编码向量进行词性识别,得到最优分词信息,包括:通过预置的专业领域分词词典,对所述目标文本编码向量进行分词的词性匹配,得到未匹配分词;通过所述条件随机场模型结构,对所述未匹配分词进行全局最优分词路径检索,得到最优分词信息。3.根据权利要求2所述的基于专业领域知识的分词方法,其特征在于,所述通过所述条件随机场模型结构,对所述未匹配分词进行全局最优分词路径检索,得到最优分词信息,包括:通过所述条件随机场模型结构,基于预置的词性转换得分矩阵,计算所述未匹配分词的全局得分最大值,所述词性转换得分矩阵用于指示词性到词性的转换得分矩阵;基于文本序列中词的顺序,获取所述目标文本编码向量中与所述全局得分最大值对应的词性解,得到最优分词信息。4.根据权利要求2所述的基于专业领域知识的分词方法,其特征在于,所述通过预置的专业领域分词词典,对所述目标文本编码向量进行分词的词性匹配,得到未匹配分词,包括:通过预置的专业领域分词词典,基于预置双向最大匹配算法,对所述目标文本编码向量进行切分并进行专业领域词典前缀树的词性匹配,得到分词结果,所述分词结果用于指示目标文本编码向量切分后的各词与专业领域分词词典中的词是否未能匹配;根据所述分词结果从目标文本编码向量切分后的各词中获取未匹配分词。5.根据权利要求1所述的基于专业领域知识的分词方法,其特征在于,所述获取待处理文本,通过预置的目标分词模型中的语言表征模型结构,对所述待处理文本进行基于上下文信息的特征融合,得到预融合文本特征之前,还包括:获取经过逐字标注的专业领域文本样本集,并构建初始分词模型,所述初始分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构;通过所述语言表征模型结构和所述双向门控循环单元模型结构,对所述专业领域文本样本集进行语义信息特征融合,得到融...

【专利技术属性】
技术研发人员:欧阳升王健宗李志韬程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1