文本处理方法、装置及电子设备制造方法及图纸

技术编号:37587080 阅读:12 留言:0更新日期:2023-05-18 11:00
本公开披露一种文本处理方法、装置及电子设备,涉及文本处理技术领域。该文本处理方法包括:响应于在目标场景下计算文本相似度的触发事件,获取与目标场景对应的关键字词;基于第一文本包含的关键字词的情况,对第一文本中各个字词进行加权处理,得到第一文本的加权特征;确定第二文本的加权特征,其中,第二文本的加权特征是基于第二文本中包含的关键字词的情况,对第二文本中各个字词进行加权处理得到的;根据第一文本的加权特征和第二文本的加权特征进行相似度计算,确定第一文本和第二文本之间的相似情况。本公开通过两个文本的加权特征,确定两个文本之间的相似情况,能够减少文本长句子和错误语义等对相似情况的影响,提高准确性。准确性。准确性。

【技术实现步骤摘要】
文本处理方法、装置及电子设备


[0001]本公开涉及文本处理
,具体涉及一种文本处理方法、装置及电子设备。

技术介绍

[0002]近年来,随着智能科技的迅速发展,文本相似度计算任务在实际日常生活的运用范围日益广泛。文本相似度用于衡量两个文本之间的相似情况。文本相似度计算任务在搜索引擎、推荐系统、智能问答领域、机器翻译领域、自动应答、命名实体识别、拼音纠错等领域有着广泛的应用。
[0003]然而,传统的文本相似度计算大多是根据文本的字词进行相似度计算。然而,在语音识别场景中,语音识别文本中的语义识别错误会导致文本相似度精确度低。总结来说,在文本处理领域中,目前的文本相似度计算方式比较简单,应用场景受限,在很多场景中准确度较低,从而无法准确获得文本之间的相似情况。因此,如何更准确地确定文本之间的相似情况,成为文本处理领域急需解决的问题之一。

技术实现思路

[0004]有鉴于此,本公开提供一种文本处理方法、装置及电子设备,以解决传统方法难以精准确定文本之间的相似情况的问题。
[0005]第一方面,本公开一实施例提供了一种文本处理方法,包括:响应于在目标场景下计算文本相似度的触发事件,获取与目标场景对应的关键字词;基于第一文本包含的关键字词的情况,对第一文本中各个字词进行加权处理,得到第一文本的加权特征;确定第二文本的加权特征,其中,第二文本的加权特征是基于第二文本中包含的关键字词的情况,对第二文本中各个字词进行加权处理得到的;根据第一文本的加权特征和第二文本的加权特征进行相似度计算,确定第一文本和第二文本之间的相似情况。
[0006]第二方面,本公开一实施例提供了一种文本处理装置,包括:获取模块,用于响应于在目标场景下计算文本相似度的触发事件,获取与目标场景对应的关键字词;处理模块,用于基于第一文本包含的关键字词的情况,对第一文本中各个字词进行加权处理,得到第一文本的加权特征;确定模块,用于确定第二文本的加权特征,其中,第二文本的加权特征是基于第二文本中包含的关键字词的情况,对第二文本中各个字词进行加权处理得到的。此外,确定模块还用于,根据第一文本的加权特征和第二文本的加权特征进行相似度计算,确定第一文本和第二文本之间的相似情况。
[0007]第三方面,本公开一实施例提供了一种电子设备,该电子设备包括:处理器和用于存储处理器可执行指令的存储器,其中,处理器用于执行上述第一方面提及的方法。
[0008]第四方面,本公开一实施例提供了一种计算机存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器加载时用于执行第一方面提及的方法。
[0009]本公开提供的文本处理方法,根据目标场景对应的关键字词以及待评估相似情况的两个文本包含关键字词的情况,分别对两个文本中的字词进行加权处理,得到两个文本
各自的加权特征,从而基于两个文本各自的加权特征确定两个文本的相似情况。也就是说,本公开能够突出两个文本与目标场景对应的关键字词的关系,从而突出文本的语义信息。由此可见,本公开利用目标场景对应的关键字词和加权操作能够突出关键字词在文本中的重要性。由于关键字词在文本中的重要性有助于理解文本的语义信息,基于理解到的语义信息进行文本相似情况的确定,可以降低错误语义带来的影响,提高文本相似情况确定的准确性。
附图说明
[0010]通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。
[0011]图1a至图1c所示为本公开的实施例提供的应用场景示意图。
[0012]图2所示为本公开的一实施例提供的文本处理方法的流程示意图。
[0013]图3所示为本公开的一实施例提供的根据第一文本的加权特征和第二文本的加权特征进行相似度计算,确定第一文本和第二文本之间的相似情况的流程示意图。
[0014]图4所示为本公开的一实施例提供的基于向量内积、第一文本的加权向量的向量长度、第二文本的加权向量的向量长度,确定第一相似度信息的流程示意图。
[0015]图5所示为本公开的一实施例提供的文本处理模型的结构示意图。
[0016]图6所示为本公开的一实施例提供的另一文本处理方法的流程示意图。
[0017]图7所示为本公开的一实施例提供的文本处理装置的结构示意图。
[0018]图8所示为本公开的一实施例提供的电子设备的结构示意图。
具体实施方式
[0019]下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本公开一部分实施例,而不是全部的实施例。
[0020]近年来,随着智能科技的迅速发展,文本相似度计算任务在实际日常生活的范围运用日益广泛。在文本处理领域,文本相似度是评判文本相似情况的重要指标,其重要性不言而喻。比如,在智能问答领域,人工回答问题的语音通过语音识别后,获得语音识别文本,而语音识别文本和答案文本的相似度,能够作为人工回答是否准确的判断要素;在机器翻译领域,机器翻译文本和人工标准翻译的相似度(或者相似情况),能够作为机器翻译是否准确的判断要素。
[0021]在对文本相似度计算的研究过程中发现,传统的文本相似度计算方法主要基于词向量计算、基于字符计算、基于概率统计计算和基于词嵌入模型计算实现。然而,文本相似度在智能问答系统中的发展受限。具体地,是因为针对人工回答的语音文本的识别错误率较高,从而导致文本相似度计算的准确性降低,且难度增加。常见的获取语音识别文本的方式,是基于自动语音识别(Automatic Speech Recognition,ASR)技术实现的。具体地,利用计算机识别人说话产生的语音信号,获得语音识别文本。由于ASR技术一般仅考虑字错率(Word Error Rate,WER),不考虑文本语义,因此,会生成低质量、不符合逻辑的句子。然而,在智能问答系统中,因为对话本身存在随机性,专业词汇较多,再加上语音识别文本的错误
率高,传统的文本处理不能很好地解决语音识别文本中的错误问题,从而导致在后续确定文本之间的相似情况时容易出错。
[0022]基于文本相似度计算的上述现状,本公开提出了一种文本处理方法、装置及电子设备,利用目标场景对应的关键字词,对第一文本和第二文本中的各个字词进行加权处理,获得第一文本和第二文本各自的加权特征,基于第一文本和第二文本各自的加权特征,确定第一文本和第二文本之间的相似情况。本公开突出了关键字词在文本中的重要性,能够解决语音识别文本中的错误导致所确定的相似情况出错的问题。
[0023]本公开提出的文本处理方法可由电子设备执行,该电子设备可以是终端或者服务器,其中,终端可以指台式电脑、笔记本电脑等计算机终端以及平板电脑、手机等移动终端;服务器可以指独立的物理服务器、由多个服务器组成的服务器集群或者能够进行云计算的云服务器等。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:响应于在目标场景下计算文本相似度的触发事件,获取与所述目标场景对应的关键字词;基于第一文本包含的关键字词的情况,对所述第一文本中各个字词进行加权处理,得到所述第一文本的加权特征;确定第二文本的加权特征,其中,所述第二文本的加权特征是基于所述第二文本中包含的关键字词的情况,对所述第二文本中各个字词进行加权处理得到的;根据所述第一文本的加权特征和所述第二文本的加权特征进行相似度计算,确定所述第一文本和所述第二文本之间的相似情况。2.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述第一文本的加权特征和所述第二文本的加权特征进行相似度计算,确定所述第一文本和所述第二文本之间的相似情况,包括:基于所述第一文本的加权特征和所述第二文本的加权特征,确定所述第一文本和所述第二文本的第一相似度信息;基于所述第一文本和所述第二文本各自的字词顺序信息,确定所述第一文本和所述第二文本的第二相似度信息;基于所述第一相似度信息和所述第二相似度信息,确定所述第一文本和所述第二文本之间的相似情况。3.根据权利要求2所述的文本处理方法,其特征在于,所述基于所述第一文本和所述第二文本各自的字词顺序信息,确定所述第一文本和所述第二文本的第二相似度信息,包括:基于所述第一文本和所述第二文本各自的字词顺序信息,确定所述第一文本和所述第二文本之间的最长公共子序列;基于所述关键字词,对所述最长公共子序列中的字词进行加权操作,得到所述最长公共子序列的加权特征;将所述最长公共子序列的加权特征中各个元素进行相加运算,得到所述第二相似度信息。4.根据权利要求2所述的文本处理方法,其特征在于,所述基于所述第一相似度信息和所述第二相似度信息,确定所述第一文本和所述第二文本之间的相似情况,包括:若所述第一相似度信息和所述第二相似度信息均表示所述第一文本和所述第二文本相似,则确定所述第一文本和所述第二文本之间的相似情况为相似;若所述第一相似度信息和所述第二相似度信息中的至少一方表示所述第一文本和所述第二文本不相似,则确定所述第一文本和所述第二文本之间的相似情况为不相似。5.根据权利要求2所述的文本处理方法,其特征在于,所述第一文本的加权特征包括第一文本的加权向量,所述第二文本的加权特征包括第二文本的加权向量,所述基于所述第一文本的加权特征和所述第二文本的加权特征,确定所述第一文本和所述第二文本的第一相似度信息,包括:确定所述第一文本的加权向量和所述第二文本的加权向量的向量内积;确定所述第一文本的加权向量的向量长度和所述第二文本的加权向量的向量长度;基于所述向量内积、所述第一文本的加权向量的向量长度、所述第二文...

【专利技术属性】
技术研发人员:赵宏宇石婉玉蒋宁李可新
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1