文本语义分段方法、装置、设备及存储介质制造方法及图纸

技术编号:38476525 阅读:9 留言:0更新日期:2023-08-15 16:56
本发明专利技术涉及金融科技领域的人工智能技术,揭露了一种文本语义分段方法,包括:基于待分段业务文本中的标点符号对待分段业务文本进行分句,得到分句业务文本集合,利用预构建的语气规则信息字典对分句业务文本集合进行语气过滤,得到业务过滤文本集合,利用预构建的语义特征模型对所述业务过滤文本集合中的文本进行权重编码,得到权重向量集合,利用预构建的语义分类模型对所述权重向量集合中的向量进行语义分类,并根据分类结果对所述待分段业务文本进行分段。本发明专利技术还涉及区块链技术,所述分类结果可存储在区块链的节点中。本发明专利技术还提出一种文本语义分段装置、电子设备以及可读存储介质。本发明专利技术可以提高金融领域培训类文本语义分段的准确率。本语义分段的准确率。本语义分段的准确率。

【技术实现步骤摘要】
文本语义分段方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种文本语义分段方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着人工智能的发展,机器学习技术在金融科技领域成功应用的场景越来越多,比如,金融领域业务培训等。在金融领域业务培训时,通过语音识别转化的方法对讲师针对各业务系统使用、产品(基金、保险)介绍等培训内容进行文本转化,会产生大量的带口语化的培训类文本,再通过人工智能的方法进行语义分析、分段等。
[0003]现有技术中,基于聚类的方法对大段文本进行聚类,并根据聚类结果进行分段,但金融领域的培训类文本和普通文本差别较大,培训类文本由于是讲师在培训时的文本,文本中会夹杂大量的语气词和连贯词,比如“啊”、“嗯”、“是吧”、“然后呢”、“那个”、“那么”等语气词或连贯词,这种带口语化的文本如果使用传统的方法进行聚类然后分段,分段效果会受这些口语影响,导致文本分段不准确。

技术实现思路

[0004]本专利技术提供一种文本语义分段方法、装置、电子设备及可读存储介质,其主要目的在于提高文本语义分段的准确率。
[0005]为实现上述目的,本专利技术提供的一种文本语义分段方法,包括:
[0006]获取待分段业务文本,基于所述待分段业务文本中的标点符号对所述待分段业务文本进行分句,得到分句业务文本集合;
[0007]利用预构建的语气规则信息字典对所述分句业务文本集合进行语气过滤,得到业务过滤文本集合;
[0008]利用预构建的语义特征模型对所述业务过滤文本集合中的文本进行权重编码,得到权重向量集合;
[0009]利用预构建的语义分类模型对所述权重向量集合中的向量进行语义分类,并根据分类结果对所述待分段业务文本进行分段。
[0010]可选地,所述利用预构建的语气规则信息字典对所述分句业务文本集合进行语气过滤之前,所述方法还包括:
[0011]获取预构建的语气词集合,对所述语气词集合中的语气词添加标点符号及段落符号,将添加完标点符号及段落符号的语气词集合作为语气规则信息字典。
[0012]可选地,所述利用预构建的语气规则信息字典对所述分句业务文本集合进行语气过滤,得到业务过滤文本集合,包括:
[0013]利用所述分句业务文本集合中各分句文本开头及结尾处的词语匹配所述语气规则信息字典中的语气词;
[0014]若各分句文本开头及结尾处的词语匹配所述语气规则信息字典中的语气词失败,
则不作处理;
[0015]若各分句文本开头及结尾处的词语匹配所述语气规则信息字典中的语气词成功,则确定分句文本开头或结尾处的词语为语气词并进行删除;
[0016]汇总所有匹配处理后的分句文本,得到所述业务过滤文本集合。
[0017]可选地,所述利用预构建的语义特征模型对所述业务过滤文本集合中的文本进行权重编码,得到权重向量集合,包括:
[0018]依次对所述业务过滤文本集合中的两个分句文本进行分词,得到第一分词文本及第二分词文本,利用拼接字符对所述第一分词文本及第二分词文本进行拼接,得到拼接文本;
[0019]利用所述语义特征模型中的语义向量层对所述拼接文本中的分词文本及拼接字符进行向量化编码,得到拼接向量;
[0020]利用所述语义特征模型中的特征提取层及全连接层对所述拼接向量进行特征权重编码,得到权重向量集合。
[0021]可选地,所述利用所述语义特征模型中的特征提取层及全连接层对所述拼接向量进行特征权重编码,得到权重向量集合,包括:
[0022]利用所述特征提取层对所述拼接向量中第一分词文本及第二分词文本对应的向量进行最大池化处理,得到第一池化向量及第二池化向量;
[0023]对所述第一池化向量、第二池化向量及所述拼接字符对应的向量进行权重特征提取,得到权重特征,
[0024]对所述权重特征进行向量拼接得到原始权重向量,利用所述全连接层对所述原始权重向量进行特征转化,得到标准权重向量;
[0025]汇总所有拼接文本的的标准权重向量得到所述权重向量集合。
[0026]可选地,所述利用预构建的语义分类模型对所述权重向量集合中的向量进行语义分类,并根据分类结果对所述待分段业务文本进行分段,包括:
[0027]利用预构建的语义分类模型依次对所述权重向量集合中的权重向量进行语义识别分类,得到语义分类结果;
[0028]若所述语义分类结果为语义一致,则对权重向量对应的文本不进行分段;
[0029]若所述语义分类结果为语义不一致,则对权重向量对应的文本进行分段。
[0030]可选地,所述预构建的语义特征模型包括语义向量层、特征提取层及全连接层。
[0031]为了解决上述问题,本专利技术还提供一种文本语义分段装置,所述装置包括:
[0032]文本分句模块,用于获取待分段业务文本,基于所述待分段业务文本中的标点符号对所述待分段业务文本进行分句,得到分句业务文本集合;
[0033]语气过滤模块,用于利用预构建的语气规则信息字典对所述分句业务文本集合进行语气过滤,得到业务过滤文本集合;
[0034]向量编码模块,用于利用预构建的语义特征模型对所述业务过滤文本集合中的文本进行权重编码,得到权重向量集合;
[0035]文本语义分段模块,用于利用预构建的语义分类模型对所述权重向量集合中的向量进行语义分类,并根据分类结果对所述待分段业务文本进行分段。
[0036]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0037]存储器,存储至少一个计算机程序;及
[0038]处理器,执行所述存储器中存储的计算机程序以实现上述所述的文本语义分段方法。
[0039]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的文本语义分段方法。
[0040]本专利技术通过标点符号对待分段业务文本进行分句,得到分句业务文本集合,利用预构建的语气规则信息字典对分句业务文本集合进行语气过滤,可以更准确的对文本中的语气词进行过滤,得到更加准确的业务过滤文本。同时,根据语义特征模型对业务过滤文本集合中的文本进行权重编码,得到的权重向量包含更多语义特征,再利用预构建的语义分类模型对权重向量集合中的向量进行语义分类,可以更准确的根据语义分类结果进行文本分段。因此本专利技术提出的文本语义分段方法、装置、电子设备及计算机可读存储介质,可以提高文本语义分段的准确率。
附图说明
[0041]图1为本专利技术一实施例提供的文本语义分段方法的流程示意图;
[0042]图2为本专利技术一实施例提供的文本语义分段装置的功能模块图;
[0043]图3为本专利技术一实施例提供的实现所述文本语义分段方法的电子设备的结构示意图。
[0044]本专利技术目的的实现、功能特点及优点将结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本语义分段方法,其特征在于,所述方法包括:获取待分段业务文本,基于所述待分段业务文本中的标点符号对所述待分段业务文本进行分句,得到分句业务文本集合;利用预构建的语气规则信息字典对所述分句业务文本集合进行语气过滤,得到业务过滤文本集合;利用预构建的语义特征模型对所述业务过滤文本集合中的文本进行权重编码,得到权重向量集合;利用预构建的语义分类模型对所述权重向量集合中的向量进行语义分类,并根据分类结果对所述待分段业务文本进行分段。2.如权利要求1所述的文本语义分段方法,其特征在于,所述利用预构建的语气规则信息字典对所述分句业务文本集合进行语气过滤之前,所述方法还包括:获取预构建的语气词集合,对所述语气词集合中的语气词添加标点符号及段落符号,将添加完标点符号及段落符号的语气词集合作为语气规则信息字典。3.如权利要求1中所述的文本语义分段方法,其特征在于,所述利用预构建的语气规则信息字典对所述分句业务文本集合进行语气过滤,得到业务过滤文本集合,包括:利用所述分句业务文本集合中各分句文本开头及结尾处的词语匹配所述语气规则信息字典中的语气词;若各分句文本开头及结尾处的词语匹配所述语气规则信息字典中的语气词失败,则不作处理;若各分句文本开头及结尾处的词语匹配所述语气规则信息字典中的语气词成功,则确定分句文本开头或结尾处的词语为语气词并进行删除;汇总所有匹配处理后的分句文本,得到所述业务过滤文本集合。4.如权利要求1所述的文本语义分段方法,其特征在于,所述利用预构建的语义特征模型对所述业务过滤文本集合中的文本进行权重编码,得到权重向量集合,包括:依次对所述业务过滤文本集合中的两个分句文本进行分词,得到第一分词文本及第二分词文本,利用拼接字符对所述第一分词文本及第二分词文本进行拼接,得到拼接文本;利用所述语义特征模型中的语义向量层对所述拼接文本中的分词文本及拼接字符进行向量化编码,得到拼接向量;利用所述语义特征模型中的特征提取层及全连接层对所述拼接向量进行特征权重编码,得到权重向量集合。5.如权利要求4所述的文本语义分段方法,其特征在于,所述利用所述语义特征模型中的特征提取层及全连接层对所述拼接向量进行特征权重编码,得到权重向量集合,包括:...

【专利技术属性】
技术研发人员:舒畅肖京陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1