文本识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:38155452 阅读:7 留言:0更新日期:2023-07-13 09:23
本申请涉及大数据技术领域,提供了一种文本识别方法、装置、计算机设备、存储介质和计算机程序产品,可具体应用于金融领域或其他相关领域。本申请能够实现提高获取文本的语义信息的效率和准确性。该方法包括:获取待识别文本;待识别文本为金融系统中的业务文本;将待识别文本与语义引导文本进行融合,得到融合文本;语义引导文本中包含遮挡词;遮挡词用于表征候选词的替换位置;对融合文本进行语义识别,得到将融合文本中的遮挡词分别替换为各个候选词的概率;从各个候选词中,确定出对应的概率满足第一预设概率条件的目标词;根据目标词,确定待识别文本的语义信息。确定待识别文本的语义信息。确定待识别文本的语义信息。

【技术实现步骤摘要】
文本识别方法、装置、计算机设备和存储介质


[0001]本申请涉及大数据
,特别是涉及一种文本识别方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术的发展,出现了文本识别技术。例如在金融场景中,存在很多用户留言的短文本;及时对文本进行识别,可以及早得到有效的反馈,预防潜在的风险,同时还可以改善用户体验。
[0003]目前在进行文本识别时,传统技术通常是通过有监督学习技术对文本进行语义识别,但在面对例如短文本时,由于短文本字数少、特征稀疏,使得文本信息难以提取和表达,从而使得通过有监督学习技术难以获取到文本准确的语义信息,导致获取文本的语义信息准确性较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种文本识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种文本识别方法。所述方法包括:
[0006]获取待识别文本;所述待识别文本为金融系统中的业务文本;
[0007]将所述待识别文本与语义引导文本进行融合,得到融合文本;所述语义引导文本中包含遮挡词;所述遮挡词用于表征候选词的替换位置;
[0008]对所述融合文本进行语义识别,得到将所述融合文本中的所述遮挡词分别替换为各个所述候选词的概率;
[0009]从各个所述候选词中,确定出对应的概率满足第一预设概率条件的目标词;
[0010]根据所述目标词,确定所述待识别文本的语义信息。
[0011]在其中一个实施例中,在获取待识别文本之前,还包括:
[0012]获取包含类别词的目标样本文本;所述类别词用于表示候选词类别;
[0013]将所述目标样本文本与样本语义引导文本进行融合,得到样本融合文本;所述样本语义引导文本中包含样本遮挡词;所述样本遮挡词用于表征待确定的样本候选词的替换位置;
[0014]对所述样本融合文本进行语义识别,得到与所述样本融合文本中的样本遮挡词匹配的样本候选词;
[0015]根据所述样本候选词,得到所述类别词下的候选词;
[0016]根据各个所述类别词下的候选词,得到各个所述候选词。
[0017]在其中一个实施例中,所述根据所述样本候选词,得到所述类别词下的候选词,包括:
[0018]获取各个所述样本候选词的概率;所述概率通过对所述样本融合文本进行语义识
别得到,所述概率用于表示将所述样本融合文本中的所述样本遮挡词分别替换为各个所述样本候选词的概率;
[0019]从各个所述样本候选词中,确定出对应的概率满足第二预设概率条件的样本候选词,作为所述类别词下的候选词。
[0020]在其中一个实施例中,所述根据各个所述类别词下的候选词,得到各个所述候选词,包括:
[0021]从各个所述类别词下的候选词中,确定出属于至少两个类别词的候选词,作为重复候选词;
[0022]对各个所述类别词下的候选词中的所述重复候选词进行删除,得到各个所述候选词。
[0023]在其中一个实施例中,所述获取包含类别词的目标样本文本,包括:
[0024]识别样本文本集合中各个样本文本包含的情感词;
[0025]从所述各个样本文本包含的情感词中,确定出目标情感词,作为类别词;
[0026]从所述样本文本集合中,选取出包含所述类别词的目标样本文本。
[0027]在其中一个实施例中,所述从所述样本文本集合中,选取出包含所述类别词的目标样本文本,包括:
[0028]从所述样本文本集合中,选取出包含所述类别词的初始样本文本;
[0029]对所述初始样本文本中的语义缺乏信息进行删除,得到所述目标样本文本;所述语义缺乏信息表示所述初始样本文本中缺乏语义信息的符号和/或词语。
[0030]在其中一个实施例中,所述根据所述目标词,确定所述待识别文本的语义信息,包括:
[0031]从各个所述类别词中,确定出所述目标词所属的类别词;
[0032]根据所述目标词所属的类别词,确定所述待识别文本的语义信息。
[0033]第二方面,本申请还提供了一种文本识别装置。所述装置包括:
[0034]文本获取模块,用于获取待识别文本;所述待识别文本为金融系统中的业务文本;
[0035]文本融合模块,用于将所述待识别文本与语义引导文本进行融合,得到融合文本;所述语义引导文本中包含遮挡词;所述遮挡词用于表征候选词的替换位置;
[0036]文本识别模块,用于对所述融合文本进行语义识别,得到将所述融合文本中的所述遮挡词分别替换为各个所述候选词的概率;
[0037]目标确定模块,用于从各个所述候选词中,确定出对应的概率满足第一预设概率条件的目标词;
[0038]信息确定模块,用于根据所述目标词,确定所述待识别文本的语义信息。
[0039]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0040]获取待识别文本;所述待识别文本为金融系统中的业务文本;将所述待识别文本与语义引导文本进行融合,得到融合文本;所述语义引导文本中包含遮挡词;所述遮挡词用于表征候选词的替换位置;对所述融合文本进行语义识别,得到将所述融合文本中的所述遮挡词分别替换为各个所述候选词的概率;从各个所述候选词中,确定出对应的概率满足第一预设概率条件的目标词;根据所述目标词,确定所述待识别文本的语义信息。
[0041]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0042]获取待识别文本;所述待识别文本为金融系统中的业务文本;将所述待识别文本与语义引导文本进行融合,得到融合文本;所述语义引导文本中包含遮挡词;所述遮挡词用于表征候选词的替换位置;对所述融合文本进行语义识别,得到将所述融合文本中的所述遮挡词分别替换为各个所述候选词的概率;从各个所述候选词中,确定出对应的概率满足第一预设概率条件的目标词;根据所述目标词,确定所述待识别文本的语义信息。
[0043]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0044]获取待识别文本;所述待识别文本为金融系统中的业务文本;将所述待识别文本与语义引导文本进行融合,得到融合文本;所述语义引导文本中包含遮挡词;所述遮挡词用于表征候选词的替换位置;对所述融合文本进行语义识别,得到将所述融合文本中的所述遮挡词分别替换为各个所述候选词的概率;从各个所述候选词中,确定出对应的概率满足第一预设概率条件的目标词;根据所述目标词,确定所述待识别文本的语义信息。
[0045]上述文本识别方法、装置、计算机设备、存储介质和计算机程序产品,获取待识别文本;所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:获取待识别文本;所述待识别文本为金融系统中的业务文本;将所述待识别文本与语义引导文本进行融合,得到融合文本;所述语义引导文本中包含遮挡词;所述遮挡词用于表征候选词的替换位置;对所述融合文本进行语义识别,得到将所述融合文本中的所述遮挡词分别替换为各个所述候选词的概率;从各个所述候选词中,确定出对应的概率满足第一预设概率条件的目标词;根据所述目标词,确定所述待识别文本的语义信息。2.根据权利要求1所述的方法,其特征在于,在获取待识别文本之前,还包括:获取包含类别词的目标样本文本;所述类别词用于表示候选词类别;将所述目标样本文本与样本语义引导文本进行融合,得到样本融合文本;所述样本语义引导文本中包含样本遮挡词;所述样本遮挡词用于表征待确定的样本候选词的替换位置;对所述样本融合文本进行语义识别,得到与所述样本融合文本中的样本遮挡词匹配的样本候选词;根据所述样本候选词,得到所述类别词下的候选词;根据各个所述类别词下的候选词,得到各个所述候选词。3.根据权利要求2所述的方法,其特征在于,所述根据所述样本候选词,得到所述类别词下的候选词,包括:获取各个所述样本候选词的概率;所述概率通过对所述样本融合文本进行语义识别得到,所述概率用于表示将所述样本融合文本中的所述样本遮挡词分别替换为各个所述样本候选词的概率;从各个所述样本候选词中,确定出对应的概率满足第二预设概率条件的样本候选词,作为所述类别词下的候选词。4.根据权利要求2所述的方法,其特征在于,所述根据各个所述类别词下的候选词,得到各个所述候选词,包括:从各个所述类别词下的候选词中,确定出属于至少两个类别词的候选词,作为重复候选词;对各个所述类别词下的候选词中的所述重复候选词进行删除,得到各个所述候选词。5.根据权利要求2所述的方法,其特征在于,所述获取包含类别词的目标样本文本,包括:识别样本文本集合中各个...

【专利技术属性】
技术研发人员:黄秀雯张彬刘映楷梁森
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1