离散文本语义分段方法、装置、设备及存储介质制造方法及图纸

技术编号:38716495 阅读:7 留言:0更新日期:2023-09-08 14:59
本发明专利技术涉及人工智能技术,揭露了一种可用于金融类或医疗类离散文本语义分段方法,包括:确定待分段离散文本中的前句和后句,其中,所述前句和后句分别为所述待分段离散文本中相邻的两个分句或者确定为无需分段的分句集合;分别利用第一特征提取模型及第二特征提取模型计算所述前句及后句的第一语义相似度及第三语义相似度;利用第一特征提取模型计算待分段离散文本与后句的第二语义相似度;对第一语义相似度、第二语义相似度及第三语义相似度进行加权平均,得到目标相似度,根据目标相似度确定待分段离散文本的分段结果。本发明专利技术还提出一种离散文本语义分段装置、电子设备以及存储介质。本发明专利技术可以提高离散文本语义分段的准确性。确性。确性。

【技术实现步骤摘要】
离散文本语义分段方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种离散文本语义分段方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]文本分段是文本处理时常见的处理方式,是自然语言处理领域一个重要分支,例如在进行各种金融交易系统的票据处理,在医疗问诊台中进行语义分析时均需要对离散文本进行分段处理。
[0003]当前主要采用词重叠统计方法及BERT模型分析语句相似度方法来对离散文本进行分段处理,词重叠统计方法,根据相邻两句话中重要词的重叠率来判断是否属于同一段落,但是经常会有不同的词表达同一种含义的情况,不能准确的判断语义段落;BERT模型分析语句相似度方法,根据相邻两句话的语义相似度判断是否同一段落,但是经常会出现间隔两句话语义相近的情况,例如有A,B,C三句话,A和B语义近似,B和C语义不近似,但A和C语义近似,会将AB划为一个段落,C为另一段落,导致分段不准确。

技术实现思路

[0004]本专利技术提供一种离散文本语义分段方法、装置及计算机可读存储介质,其主要目的在于解决进行离散文本语义分段不准确的问题。
[0005]为实现上述目的,本专利技术提供的一种离散文本语义分段方法,包括:
[0006]获取待分段离散文本,对所述待分段离散文本进行分句,得到文本分句序列,从所述文本分句序列中选取相邻两个句子作为相邻句,分别对所述文本分句序列、所述相邻句中的前句及后句进行分词,得到文本分词序列、前句分词序列及后句分词序列;
[0007]利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量,计算所述后句特征向量与所述前句特征向量的第一语义相似度;
[0008]利用所述第一特征提取模型提取所述文本分词序列的文本特征向量,计算所述后句特征向量与所述文本特征向量的第二语义相似度;
[0009]利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的第三语义相似度;
[0010]对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,并根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果。
[0011]可选地,所述计算所述后句特征向量与所述前句特征向量的第一语义相似度,包括:
[0012]分别对所述前句特征向量及所述后句特征向量进行均值池化,得到前句均值特征
向量及后句均值特征向量;
[0013]利用预设多层感知器网络分类器拟合所述前句均值特征向量及所述后句均值特征向量的语义相似度,得到第一语义相似度。
[0014]可选地,所述计算所述后句特征向量与所述文本特征向量的第二语义相似度文本特征向量,包括:
[0015]拼接所述文本特征向量与所述后句特征向量,得到第一拼接特征向量;
[0016]根据预设词注意力机制,计算所述待分段离散文本的文本加权求和特征向量;
[0017]拼接所述第一拼接特征向量与所述文本加权求和特征向量,得到第二拼接向量;
[0018]基于所述第二拼接向量,利用预设多层感知器网络分类器计算所述文本特征向量与所述后句特征向量的相似度,得到第二语义相似度。
[0019]可选地,所述根据预设词注意力机制,计算所述待分段离散文本的文本加权求和特征向量文本加权求和特征向量,包括:
[0020]分别将所述后句特征向量中每个词向量与所述文本特征向量中每个词向量进行内积计算,得到内积值集;
[0021]对所述内积值集进行归一化,得到注意力权重集;
[0022]利用所述注意力权重集,对所述文本特征向量中每个词向量进行加权求和,得到文本加权求和特征向量。
[0023]可选地,所述利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,包括:
[0024]分别在所述前句分词序列及所述后句分词序列前插入CLS符号,得到目标前句分词序列及目标后句分词序列;
[0025]利用预设第二特征提取模型对所述目标前句分词序列及所述目标后句分词序列进行编码,得到所述目标前句分词序列及所述目标后句分词序列对应CLS符号对应的编码向量,将所述目标前句分词序列中CLS符号对应的编码向量作为前句语义表示向量,将所述目标后句分词序列中CLS符号对应的编码向量作为后句语义表示向量。
[0026]可选地,所述根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果,包括:
[0027]当所述前句与所述后句的目标相似度小于等于预设相似度阈值时,所述前句及后句的分段结果为所述前句及后句需要分段;
[0028]从所述文本分句序列中剔除起始分句,得到更新后的文本分句序列,从所述更新后的文本分句序列顺序选出下一相邻句,计算下一相邻句中前句及后句的目标相似度,直至所述文本分句序列中所有相邻句选择完毕,得到所有所述前句与所述后句的分段结果;
[0029]汇总所有所述前句及后句的分段结果,得到所述待分段离散文本的分段结果。
[0030]可选地,所述根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果,还包括:
[0031]当所述前句与所述后句的目标相似度小于等于预设相似度阈值时,所述前句及后句的分段结果为所述前句及后句不需要分段;
[0032]将所述前句及后句合并作为更新后相邻句的前句,并按照顺序从所述文本分句序列中选取一个未被选取过的分句作为更新后相邻句的后句;
[0033]计算所述更新后相邻句中前句及后句的目标相似度,直至所述文本分句序列中所有相邻句选择完毕,得到所有所述前句与所述后句的分段结果;
[0034]汇总所有所述前句及后句的分段结果,得到所述待分段离散文本的分段结果。
[0035]为了解决上述问题,本专利技术还提供一种离散文本语义分段装置,所述装置包括:
[0036]分词模块,用于获取待分段离散文本,对所述待分段离散文本进行分句,得到文本分句序列,从所述文本分句序列中选取相邻两个句子作为相邻句,分别对所述文本分句序列、所述相邻句中的前句及后句进行分词,得到文本分词序列、前句分词序列及后句分词序列;
[0037]第一相似度计算模块,用于利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量,计算所述后句特征向量与所述前句特征向量的第一语义相似度;
[0038]第二相似度计算模块,用于利用所述第一特征提取模型提取所述文本分词序列的文本特征向量,计算所述后句特征向量与所述文本特征向量的第二语义相似度;
[0039]第三相似度计算模块,利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种离散文本语义分段方法,其特征在于,所述方法包括:获取待分段离散文本,对所述待分段离散文本进行分句,得到文本分句序列,从所述文本分句序列中选取相邻两个句子作为相邻句,分别对所述文本分句序列、所述相邻句中的前句及后句进行分词,得到文本分词序列、前句分词序列及后句分词序列;利用预设的第一特征提取模型提取所述前句分词序列的前句特征向量及提取所述后句分词序列的后句特征向量,计算所述后句特征向量与所述前句特征向量的第一语义相似度;利用所述第一特征提取模型提取所述文本分词序列的文本特征向量,计算所述后句特征向量与所述文本特征向量的第二语义相似度;利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,计算所述前句语义表示向量及所述后句语义表示向量的第三语义相似度;对所述第一语义相似度、所述第二语义相似度及所述第三语义相似度进行加权平均,得到所述前句与所述后句的目标相似度,并根据所有所述前句与所述后句的目标相似度确定所述待分段离散文本的分段结果。2.如权利要求1所述的离散文本语义分段方法,其特征在于,所述计算所述后句特征向量与所述前句特征向量的第一语义相似度,包括:分别对所述前句特征向量及所述后句特征向量进行均值池化,得到前句均值特征向量及后句均值特征向量;利用预设多层感知器网络分类器拟合所述前句均值特征向量及所述后句均值特征向量的语义相似度,得到第一语义相似度。3.如权利要求1所述的离散文本语义分段方法,其特征在于,所述计算所述后句特征向量与所述文本特征向量的第二语义相似度文本特征向量,包括:拼接所述文本特征向量与所述后句特征向量,得到第一拼接特征向量;根据预设词注意力机制,计算所述待分段离散文本的文本加权求和特征向量;拼接所述第一拼接特征向量与所述文本加权求和特征向量,得到第二拼接向量;基于所述第二拼接向量,利用预设多层感知器网络分类器计算所述文本特征向量与所述后句特征向量的相似度,得到第二语义相似度。4.如权利要求3所述的离散文本语义分段方法,其特征在于,所述根据预设词注意力机制,计算所述待分段离散文本的文本加权求和特征向量文本加权求和特征向量,包括:分别将所述后句特征向量中每个词向量与所述文本特征向量中每个词向量进行内积计算,得到内积值集;对所述内积值集进行归一化,得到注意力权重集;利用所述注意力权重集,对所述文本特征向量中每个词向量进行加权求和,得到文本加权求和特征向量。5.如权利要求1所述的离散文本语义分段方法,其特征在于,所述利用预设第二特征提取模型分别提取所述前句分词序列的前句语义表示向量及提取所述后句分词序列的后句语义表示向量,包括:分别在所述前句分词序列及所述后句分词序列前插入CLS符号,得到目标前句分词序
列及目标后句分词序列;利用预设第二特征提取模型对所述目标前句分词序列及所述目标后句分词序列进行编码,得到所述目标前句分词序列及所述目标后句分词序列对应CLS符号对应的编码向量,将所述目标前句分词序列中CLS符号对应的编码向量作为前句语义表示向量,将所述目标后句分词序列中CLS符号...

【专利技术属性】
技术研发人员:舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1