文本语义分段方法、装置、设备及存储介质制造方法及图纸

技术编号：38476525 阅读：9 留言：0更新日期：2023-08-15 16:56

本发明专利技术涉及金融科技领域的人工智能技术，揭露了一种文本语义分段方法，包括：基于待分段业务文本中的标点符号对待分段业务文本进行分句，得到分句业务文本集合，利用预构建的语气规则信息字典对分句业务文本集合进行语气过滤，得到业务过滤文本集合，利用预构建的语义特征模型对所述业务过滤文本集合中的文本进行权重编码，得到权重向量集合，利用预构建的语义分类模型对所述权重向量集合中的向量进行语义分类，并根据分类结果对所述待分段业务文本进行分段。本发明专利技术还涉及区块链技术，所述分类结果可存储在区块链的节点中。本发明专利技术还提出一种文本语义分段装置、电子设备以及可读存储介质。本发明专利技术可以提高金融领域培训类文本语义分段的准确率。本语义分段的准确率。本语义分段的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本语义分段方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种文本语义分段方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着人工智能的发展，机器学习技术在金融科技领域成功应用的场景越来越多，比如，金融领域业务培训等。在金融领域业务培训时，通过语音识别转化的方法对讲师针对各业务系统使用、产品(基金、保险)介绍等培训内容进行文本转化，会产生大量的带口语化的培训类文本，再通过人工智能的方法进行语义分析、分段等。
[0003]现有技术中，基于聚类的方法对大段文本进行聚类，并根据聚类结果进行分段，但金融领域的培训类文本和普通文本差别较大，培训类文本由于是讲师在培训时的文本，文本中会夹杂大量的语气词和连贯词，比如“啊”、“嗯”、“是吧”、“然后呢”、“那个”、“那么”等语气词或连贯词，这种带口语化的文本如果使用传统的方法进行聚类然后分段，分段效果会受这些口语影响，导致文本分段不准确。

技术实现思路

[0004]本专利技术提供一种文本语义分段方法、装置、电子设备及可读存储介质，其主要目的在于提高文本语义分段的准确率。
[0005]为实现上述目的，本专利技术提供的一种文本语义分段方法，包括：
[0006]获取待分段业务文本，基于所述待分段业务文本中的标点符号对所述待分段业务文本进行分句，得到分句业务文本集合；
[0007]利用预构建的语气规则信息字典对所述分句业务文本集合进行语气过滤，得到业务过滤文本集合；
[0008]利用预构建...

【技术保护点】

【技术特征摘要】
1.一种文本语义分段方法，其特征在于，所述方法包括：获取待分段业务文本，基于所述待分段业务文本中的标点符号对所述待分段业务文本进行分句，得到分句业务文本集合；利用预构建的语气规则信息字典对所述分句业务文本集合进行语气过滤，得到业务过滤文本集合；利用预构建的语义特征模型对所述业务过滤文本集合中的文本进行权重编码，得到权重向量集合；利用预构建的语义分类模型对所述权重向量集合中的向量进行语义分类，并根据分类结果对所述待分段业务文本进行分段。2.如权利要求1所述的文本语义分段方法，其特征在于，所述利用预构建的语气规则信息字典对所述分句业务文本集合进行语气过滤之前，所述方法还包括：获取预构建的语气词集合，对所述语气词集合中的语气词添加标点符号及段落符号，将添加完标点符号及段落符号的语气词集合作为语气规则信息字典。3.如权利要求1中所述的文本语义分段方法，其特征在于，所述利用预构建的语气规则信息字典对所述分句业务文本集合进行语气过滤，得到业务过滤文本集合，包括：利用所述分句业务文本集合中各分句文本开头及结尾处的词语匹配所述语气规则信息字典中的语气词；若各分句文本开头及结尾处的词语匹配所述语气规则信息字典中的语气词失败，则不作处理；若各分句文本开头及结尾处的词语匹配所述语气规则信息字典中的语气词成功，则确定分句文本开头或结尾处的词语为语气词并进行删除；汇总所有匹配处理后的分句文本，得到所述业务过滤文本集合。4.如权利要求1所述的文本语义分段方法，其特征在于，所述利用预构建的语义特征模型对所述业务过滤文本集合中的文本进行权重编码，得到权重向量集合，包括：依次对所述业务过滤文本集合中的两个分句文本进行分词，得到第一分词文本及第二分词文本，利用拼接字符对所述第一分词文本及第二分词文本进行拼接，得到拼接文本；利用所述语义特征模型中的语义向量层对所述拼接文本中的分词文本及拼接字符进行向量化编码，得到拼接向量；利用所述语义特征模型中的特征提取层及全连接层对所述拼接向量进行特征权重编码，得到权重向量集合。5.如权利要求4所述的文本语义分段方法，其特征在于，所述利用所述语义特征模型中的特征提取层及全连接层对所述拼接向量进行特征权重编码，得到权重向量集合，包括：...

【专利技术属性】
技术研发人员：舒畅，肖京，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人