离散文本语义分段方法、装置、设备及存储介质制造方法及图纸

技术编号：38716495 阅读：7 留言：0更新日期：2023-09-08 14:59

本发明专利技术涉及人工智能技术，揭露了一种可用于金融类或医疗类离散文本语义分段方法，包括：确定待分段离散文本中的前句和后句，其中，所述前句和后句分别为所述待分段离散文本中相邻的两个分句或者确定为无需分段的分句集合；分别利用第一特征提取模型及第二特征提取模型计算所述前句及后句的第一语义相似度及第三语义相似度；利用第一特征提取模型计算待分段离散文本与后句的第二语义相似度；对第一语义相似度、第二语义相似度及第三语义相似度进行加权平均，得到目标相似度，根据目标相似度确定待分段离散文本的分段结果。本发明专利技术还提出一种离散文本语义分段装置、电子设备以及存储介质。本发明专利技术可以提高离散文本语义分段的准确性。确性。确性。

全部详细技术资料下载

【技术实现步骤摘要】
离散文本语义分段方法、装置、设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种离散文本语义分段方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]文本分段是文本处理时常见的处理方式，是自然语言处理领域一个重要分支，例如在进行各种金融交易系统的票据处理，在医疗问诊台中进行语义分析时均需要对离散文本进行分段处理。
[0003]当前主要采用词重叠统计方法及BERT模型分析语句相似度方法来对离散文本进行分段处理，词重叠统计方法，根据相邻两句话中重要词的重叠率来判断是否属于同一段落，但是经常会有不同的词表达同一种含义的情况，不能准确的判断语义段落；BERT模型分析语句相似度方法，根据相邻两句话的语义相似度判断是否同一段落，但是经常会出现间隔两句话语义相近的情况，例如有A，B，C三句话，A和B语义近似，B和C语义不近似，但A和C语义近似，会将AB划为一个段落，C为另一段落，导致分段不准确。

技术实现思路

[0004]本专利技术提供一种离散文本语义分段方法、装置及计算机可读存储介质，其主要目的在于解决进行离散文本语义分段不准确的问题。
[0005]为实现上述目的，本专利技术提供的一种离散文本语义分段方法，包括：
[0006]获取待分段离散文本，对所述待分段离散文本进行分句，得到文本分句序列，从所述文本分句序列中选取相邻两个句子作为相邻句，分别对所述文本分句序列、所述相邻句中的前句及后句进行分词，得到文本分词序列、前句分词序列及后句分词序列；
[00...

【技术保护点】

【技术特征摘要】
1.一种离散文本语义分段方法，其特征在于，所述方法包括：获取待分段离散文本，对所述待分段离散文本进行分句，得到文本分句序列，从所述文本分句序列中选取相邻两个句子作为相邻句，分别对所述文本分句序列、所述相邻句中的前句及后句进行分词，得到文本分词序列、前句分词序列及后句分词序列；利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量，计算所述后句特征向量与所述前句特征向量的第一语义相似度；利用所述第一特征提取模型提取所述文本分词序列的文本特征向量，计算所述后句特征向量与所述文本特征向量的第二语义相似度；利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量，计算所述前句语义表示向量及所述后句语义表示向量的第三语义相似度；对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均，得到所述前句与所述后句的目标相似度，并根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果。2.如权利要求1所述的离散文本语义分段方法，其特征在于，所述计算所述后句特征向量与所述前句特征向量的第一语义相似度，包括：分别对所述前句特征向量及所述后句特征向量进行均值池化，得到前句均值特征向量及后句均值特征向量；利用预设多层感知器网络分类器拟合所述前句均值特征向量及所述后句均值特征向量的语义相似度，得到第一语义相似度。3.如权利要求1所述的离散文本语义分段方法，其特征在于，所述计算所述后句特征向量与所述文本特征向量的第二语义相似度文本特征向量，包括：拼接所述文本特征向量与所述后句特征向量，得到第一拼接特征向量；根据预设词注意力机制，计算所述待分段离散文本的文本加权求和特征向量；拼接所述第一拼接特征向量与所述文本加权求和特征向量，得到第二拼接向量；基于所述第二拼接向量，利用预设多层感知器网络分类器计算所述文本特征向量与所述后句特征向量的相似度，得到第二语义相似度。4.如权利要求3所述的离散文本语义分段方法，其特征在于，所述根据预设词注意力机制，计算所述待分段离散文本的文本加权求和特征向量文本加权求和特征向量，包括：分别将所述后句特征向量中每个词向量与所述文本特征向量中每个词向量进行内积计算，得到内积值集；对所述内积值集进行归一化，得到注意力权重集；利用所述注意力权重集，对所述文本特征向量中每个词向量进行加权求和，得到文本加权求和特征向量。5.如权利要求1所述的离散文本语义分段方法，其特征在于，所述利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量，包括：分别在所述前句分词序列及所述后句分词序列前插入CLS符号，得到目标前句分词序
列及目标后句分词序列；利用预设第二特征提取模型对所述目标前句分词序列及所述目标后句分词序列进行编码，得到所述目标前句分词序列及所述目标后句分词序列对应CLS符号对应的编码向量，将所述目标前句分词序列中CLS符号对应的编码向量作为前句语义表示向量，将所述目标后句分词序列中CLS符号...

【专利技术属性】
技术研发人员：舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人