多源信息融合的分词方法、装置和设备制造方法及图纸

技术编号：30367053 阅读：21 留言：0更新日期：2021-10-16 17:38

本申请公开了一种多源信息融合的分词方法、装置和设备。一种多源信息融合的分词方法，包括：生成所述待识别语句的一元信息特征向量、二元信息特征向量和依存句法信息特征向量；在多源融合模型的融合层中，将所述一元信息特征向量，二元信息特征向量和依存句法信息特征向量进行融合；多源融合模型的输出层输出所述待识别语句的分词结果。本申请采用多源信息融合的分词方法，将一元信息、二元信息和依存句法信息融合，有效地学习上下文信息和外部资源信息，给出分词结果，提高分词的准确率和召回率。召回率。

全部详细技术资料下载

【技术实现步骤摘要】
多源信息融合的分词方法、装置和设备

[0001]本申请涉及分词处理
，具体而言，涉及一种多源信息融合的分词方法、装置和设备。

技术介绍

[0002]现有技术中，分词方法主要是面向通用的数据集的，分词利用的特征比较单一，一般只是采用一元信息，或者二元信息进行分词，此类信息无法满足特定的某一个场景的需求，比如，法律场景需求。法律领域中存在着大量的法律实体，通用的分词模型无法准确对于此类法律实体进行切分，如“中华人民共和国刑法”中，“中华人民共和国”和“刑法”存在依存关系：定中关系，表明两个词语分别是修饰语和中心语，在法律领域中，这两个词应该连在一起作为一个短语。但是如果采用现有的分词方法，就会被误分为“中华人民共和国”和“刑法”两个词语。因为现有的分词方法没有考虑到依存句法信息，所以分词往往不够准确，分词结果对于法律认识阅读会产生障碍，带来不好的体验度。

技术实现思路

[0003]本申请的主要目的在于提供一种多源信息融合的分词方法、装置和设备，以解决上述问题。
[0004]为了实现上述目的，根据本申...

【技术保护点】

【技术特征摘要】
1.一种多源信息融合的分词方法，其特征在于，包括：生成待识别语句的一元信息特征向量、二元信息特征向量和依存句法信息特征向量；在多源融合模型的融合层中，将所述一元信息特征向量，二元信息特征向量和依存句法信息特征向量进行融合；多源融合模型的输出层输出所述待识别语句的分词结果。2.如权利要求1所述的多源信息融合的分词方法，其特征在于，生成所述待识别语句的一元信息特征向量，包括：生成所述待识别语句的一元字符序列；设置所述待识别语句的分词粒度标签；根据所述分词粒度标签，使用BERT模型对所述待识别语句进行识别编码输出，得到所述待识别语句的一元信息向量。3.如权利要求1所述的多源信息融合的分词方法，其特征在于，生成所述待识别语句的二元信息特征向量，包括：生成所述待识别语句的二元字符序列；查询静态词向量表得到所述二元字符序列的二元信息向量。4.如权利要求1所述的多源信息融合的分词方法，其特征在于，生成所述待识别语句的依存句法信息特征向量，包括：对于任意的一个字符，获取所述字符的上下文特征集合和句法特征集合；对所述上下文特征集合和句法特征集合进行编码得到上下文特征向量和句法特征向量；根据所述句法特征输出向量和上下文特征输出向量得到所述字符的依存句法信息特征向量；对每个字符的依存句法信息特征向量进行求和得到所述待识别语句的依存句法信息特征向量。5.根据权利要求1所述的多源信息融合的分词方法，其特征在于，在多源融合模型的输出层输出所述待识别语句的分词结果之后，所述方法还包括：采用预先设定的自定义词表对所述分词结果进行修正。6.根据权利要求5所述的多源信息融合的分词方法，其特征在于，采用预先设定的自定义词表对所述分词结果进行修正，包括：...

【专利技术属性】
技术研发人员：顾敏，杜向阳，徐芳，
申请(专利权)人：上海艾爵斯信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人