System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 中文分词方法、中文分词装置、电子设备及存储介质制造方法及图纸_技高网

中文分词方法、中文分词装置、电子设备及存储介质制造方法及图纸

技术编号:40301158 阅读:6 留言:0更新日期:2024-02-07 20:48
本申请提供了一种中文分词方法、中文分词装置、电子设备及存储介质,属于人工智能和金融科技技术领域,通过获取中文文本,对中文文本进行文本编码,得到文本编码向量,对文本编码向量进行全局特征提取,得到第一文本特征,对文本编码向量进行局部特征提取,得到第二文本特征,对第一文本特征和第二文本特征进行特征融合,得到融合特征,通过条件随机场对融合特征进行特征判别,得到字符位置标签,根据字符位置标签对中文文本进行文本分词,得到分词数据,提高了中文文本分词的准确性。

【技术实现步骤摘要】

本申请涉及人工智能和金融科技,尤其涉及一种中文分词方法、中文分词装置、电子设备及存储介质


技术介绍

1、银行网点是银行获取用户需求的直接途径,传统银行网点业务因业务量大,需要用户排队等待,无法及时响应用户需求。随着移动互联、大数据和人工智能的发展,银行推出了银行智能问答系统以一问一答的方式解决用户需求,来为用户提供个性化的信息服务,这极大提升了银行服务质量和服务效率。

2、以保险业务为例,用户在银行智能问答系统设置的输入框中输入关于保险种类的需求,银行智能问答系统在接收到用户需求的文本,首先会对问题文本进行分词得到保险、种类等多个词语,然后通过这些词语定位与数据库中与保险、种类等关键字相关的问题文本,根据问题文本匹配答案文本,最后将答案文本反馈给用户。但是,现有的中文分词模型大多数是基于循环神经网络构建,这些中文分词模型往往只能捕获问题文本的整体特征,会使得文本特征缺失,导致分词结果不准确。银行智能问答系统根据不准确的分词结果会定位到数据库中错误的问题文本,从而降低了银行智能问答系统回答的准确性。


技术实现思路

1、本申请实施例的主要目的在于提出一种中文分词方法、中文分词装置、电子设备及存储介质,旨在提高中文分词的准确性,从而提高银行智能问答系统回答的准确性。

2、为实现上述目的,本申请实施例的第一方面提出了一种中文分词方法,所述中文分词方法包括:

3、获取中文文本;

4、对所述中文文本进行文本编码,得到文本编码向量;

5、对所述文本编码向量进行全局特征提取,得到第一文本特征;

6、对所述文本编码向量进行局部特征提取,得到第二文本特征;

7、对所述第一文本特征和所述第二文本特征进行特征融合,得到融合特征;

8、通过条件随机场对所述融合特征进行特征判别,得到字符位置标签;

9、根据所述字符位置标签对所述中文文本进行文本分词,得到分词数据。

10、在一些实施例,所述对所述文本编码向量进行全局特征提取,得到第一文本特征,包括:

11、对所述文本编码进行位置编码,得到位置编码向量;

12、对所述文本编码向量和所述位置编码向量进行向量相加,得到合成向量;

13、对所述合成向量进行向量编码,得到文本向量编码;

14、对所述文本向量编码进行向量解码,得到所述第一文本特征。

15、在一些实施例,所述对所述合成向量进行向量编码,得到文本向量编码,包括:

16、对所述合成向量进行第一多头注意力编码,得到注意力向量;

17、对所述注意力向量进行第二多头注意力编码,得到所述文本向量编码。

18、在一些实施例,所述对所述文本向量编码进行向量解码,得到所述第一文本特征,包括:

19、对所述文本向量编码进行第一解码,得到文本解码向量;

20、对所述文本向量编码和所述文本解码向量进行向量拼接,得到文本拼接向量;

21、对所述文本拼接向量进行第二解码,得到所述第一文本特征。

22、在一些实施例,所述对所述文本编码向量进行局部特征提取,得到第二文本特征,包括:

23、对所述文本编码向量进行节点构建,得到节点;

24、对所述文本编码向量进行关系特征提取,得到节点关系特征;

25、根据所述节点和所述节点关系特征进行图构建,生成图结构数据;

26、对所述图结构数据进行图卷积处理,得到所述第二文本特征。

27、在一些实施例,所述对所述图结构数据进行图卷积处理,得到所述第二文本特征,包括:

28、对所述图结构数据进行图卷积处理,得到图卷积特征;

29、对所述图卷积特征进行批归一化,得到归一化特征;

30、对所述归一化特征进行激活处理,得到所述第二文本特征。

31、在一些实施例,所述对所述中文文本进行文本编码,得到文本编码向量,包括:

32、对所述中文文本进行排列,得到字符序列;

33、对所述字符序列进行文本内容注意流编码,得到文本内容编码向量;

34、对所述字符序列进行查询注意流编码,得到查询编码向量;

35、根据所述文本内容编码向量和所述查询编码向量进行文本预测,得到所述文本编码向量。

36、为实现上述目的,本申请实施例的第二方面提出了一种中文分词装置,所述中文分词装置包括:

37、获取模块,用于获取中文文本;

38、文本编码模块,用于对所述中文文本进行文本编码,得到文本编码向量;

39、第一特征提取模块,用于对所述文本编码向量进行全局特征提取,得到第一文本特征;

40、第二特征提取模块,用于对所述文本编码向量进行局部特征提取,得到第二文本特征;

41、特征融合模块,用于对所述第一文本特征和所述第二文本特征进行特征融合,得到融合特征;

42、特征判别模块,用于通过条件随机场对所述融合特征进行特征判别,得到字符位置标签;

43、文本分词模块,用于根据所述字符位置标签对所述中文文本进行文本分词,得到分词数据。

44、为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的中文分词方法。

45、为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的中文分词方法。

46、本申请提出的中文分词方法、中文分词装置、电子设备及计算机可读存储介质,其通过对中文文本进行文本编码,以将文本转换为向量,得到文本编码向量。为了提取中文文本的整体特征,对文本编码向量进行全局特征提取,得到第一文本特征。为避免文本特征表达不完全,提取文本的局部特征,对文本编码向量进行局部特征提取,得到第二文本特征。通过对第一文本特征和第二文本特征进行特征融合,得到融合特征,使得融合特征不仅包括文本整体特征,还包括文本局部特征,增强了文本特征的特征表达能力。通过条件随机场对融合特征进行特征判别,得到字符位置标签,根据字符位置标签对中文文本进行文本分词,得到分词数据,提高了对中文文本进行分词的准确性,进而提高了银行智能问答系统对问题文本的分词准确性,并提高了生成的与问题文本匹配的答案文本的准确性,有利于改善银行智能问答系统的问答匹配精度。

本文档来自技高网...

【技术保护点】

1.中文分词方法,其特征在于,所述方法包括:

2.根据权利要求1所述的中文分词方法,其特征在于,所述对所述文本编码向量进行全局特征提取,得到第一文本特征,包括:

3.根据权利要求2所述的中文分词方法,其特征在于,所述对所述合成向量进行向量编码,得到文本向量编码,包括:

4.根据权利要求2所述的中文分词方法,其特征在于,所述对所述文本向量编码进行向量解码,得到所述第一文本特征,包括:

5.根据权利要求1至4任一项所述的中文分词方法,其特征在于,所述对所述文本编码向量进行局部特征提取,得到第二文本特征,包括:

6.根据权利要求5所述的中文分词方法,其特征在于,所述对所述图结构数据进行图卷积处理,得到所述第二文本特征,包括:

7.根据权利要求6所述的中文分词方法,其特征在于,所述对所述中文文本进行文本编码,得到文本编码向量,包括:

8.中文分词装置,其特征在于,所述装置包括:

9.电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的中文分词方法。

10.计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的中文分词方法。

...

【技术特征摘要】

1.中文分词方法,其特征在于,所述方法包括:

2.根据权利要求1所述的中文分词方法,其特征在于,所述对所述文本编码向量进行全局特征提取,得到第一文本特征,包括:

3.根据权利要求2所述的中文分词方法,其特征在于,所述对所述合成向量进行向量编码,得到文本向量编码,包括:

4.根据权利要求2所述的中文分词方法,其特征在于,所述对所述文本向量编码进行向量解码,得到所述第一文本特征,包括:

5.根据权利要求1至4任一项所述的中文分词方法,其特征在于,所述对所述文本编码向量进行局部特征提取,得到第二文本特征,包括:

6.根据权利要求5所述的中文分...

【专利技术属性】
技术研发人员:于凤英王健宗程宁
申请(专利权)人:平安创科科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1