基于专业领域知识的分词方法、装置、设备及存储介质制造方法及图纸

技术编号：35135151 阅读：22 留言：0更新日期：2022-10-05 10:09

本发明专利技术涉及人工智能技术领域，提供一种基于专业领域知识的分词方法、装置、设备及存储介质，用于解决现有的文本分词方法无法满足在专业领域内提升精度且满足速度性能的需求问题。基于专业领域知识的分词方法包括：通过语言表征模型结构对待处理文本进行基于上下文信息的特征融合得到预融合文本特征；通过双向门控循环单元模型结构对预融合文本特征进行双向的语义信息融合得到目标文本编码向量；通过预置的专业领域分词词典和条件随机场模型结构对目标文本编码向量进行词性识别得到最优分词信息；通过最优分词信息对待处理文本进行分词得到目标分词。此外，本发明专利技术还涉及区块链技术，目标分词可存储于区块链中。目标分词可存储于区块链中。目标分词可存储于区块链中。

全部详细技术资料下载

【技术实现步骤摘要】
基于专业领域知识的分词方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能的分词模型领域，尤其涉及一种基于专业领域知识的分词方法、装置、设备及存储介质。

技术介绍

[0002]分词任务在自然语言处理中始终占据重要且基础的位置。其主要作用在于对文本按照词性完成拆分，其对于文本分类、信息抽取、知识图谱等众多自然语言下游任务都有着重要的影响。
[0003]目前主流的分词算法主要有基于规则、机器学习(如：隐马尔可夫模型(Hidden Markov Model，HMM))或深度预训练模型BERT的方法。这些方法中基于规则的方法在速度上能满足业务需求，但是精度无法满足要求：机器学习方法在速度上基本也能满足需求，但是精度上依然无法满足；深度预训练模型则在精度上能满足但是在速度上和分词稳定性上却有待提升，例如，结巴jieba分词在速度上能达到深度模型的5
‑
10倍，然而精度上却相差甚远。因此，现有的文本分词方法存在无法满足专业领域内提升精度且满足速度性能的需求的缺陷。

技术实现思路

[0004]本专利技术提供一种基于专业领域知识的分词方法、装置、设备及存储介质，用于解决现有的文本分词方法无法满足在专业领域内提升精度且满足速度性能的需求问题。
[0005]本专利技术第一方面提供了一种基于专业领域知识的分词方法，包括：
[0006]获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对所述待处理文本进行基于上下文信息的特征融合，得到预融合文本特征，所述目标分词模...

【技术保护点】

【技术特征摘要】
1.一种基于专业领域知识的分词方法，其特征在于，所述基于专业领域知识的分词方法包括：获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对所述待处理文本进行基于上下文信息的特征融合，得到预融合文本特征，所述目标分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构；通过所述双向门控循环单元模型结构，对所述预融合文本特征进行双向的语义信息融合，得到目标文本编码向量；通过预置的专业领域分词词典和所述条件随机场模型结构，对所述目标文本编码向量进行词性识别，得到最优分词信息；通过所述最优分词信息，对所述待处理文本进行分词，得到目标分词。2.根据权利要求1所述的基于专业领域知识的分词方法，其特征在于，所述通过预置的专业领域分词词典和所述条件随机场模型结构，对所述目标文本编码向量进行词性识别，得到最优分词信息，包括：通过预置的专业领域分词词典，对所述目标文本编码向量进行分词的词性匹配，得到未匹配分词；通过所述条件随机场模型结构，对所述未匹配分词进行全局最优分词路径检索，得到最优分词信息。3.根据权利要求2所述的基于专业领域知识的分词方法，其特征在于，所述通过所述条件随机场模型结构，对所述未匹配分词进行全局最优分词路径检索，得到最优分词信息，包括：通过所述条件随机场模型结构，基于预置的词性转换得分矩阵，计算所述未匹配分词的全局得分最大值，所述词性转换得分矩阵用于指示词性到词性的转换得分矩阵；基于文本序列中词的顺序，获取所述目标文本编码向量中与所述全局得分最大值对应的词性解，得到最优分词信息。4.根据权利要求2所述的基于专业领域知识的分词方法，其特征在于，所述通过预置的专业领域分词词典，对所述目标文本编码向量进行分词的词性匹配，得到未匹配分词，包括：通过预置的专业领域分词词典，基于预置双向最大匹配算法，对所述目标文本编码向量进行切分并进行专业领域词典前缀树的词性匹配，得到分词结果，所述分词结果用于指示目标文本编码向量切分后的各词与专业领域分词词典中的词是否未能匹配；根据所述分词结果从目标文本编码向量切分后的各词中获取未匹配分词。5.根据权利要求1所述的基于专业领域知识的分词方法，其特征在于，所述获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对所述待处理文本进行基于上下文信息的特征融合，得到预融合文本特征之前，还包括：获取经过逐字标注的专业领域文本样本集，并构建初始分词模型，所述初始分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构；通过所述语言表征模型结构和所述双向门控循环单元模型结构，对所述专业领域文本样本集进行语义信息特征融合，得到融...

【专利技术属性】
技术研发人员：欧阳升，王健宗，李志韬，程宁，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人