未登录词的识别方法、装置和电子设备制造方法及图纸

技术编号:32831594 阅读:12 留言:0更新日期:2022-03-26 20:45
本申请实施例提供了一种未登录词的识别方法、装置和电子设备,在识别待处理文本中的未登录词时,可以先对待处理文本进行切分处理,得到多个词汇;分别获取多个词汇各自对应的词向量,并对多个词汇各自对应的词向量进行取模处理,得到多个词汇各自对应的时域信号;对多个时域信号进行变换处理,得到多个词汇各自对应的频域信号;鉴于频域可以有效地表达词汇与词汇之间的密切关系,因此,基于多个词汇各自对应的频域信号,可以准确地从待处理文本中确定出未登录词,实现了对未登录词的识别,且提高了识别结果的准确度。且提高了识别结果的准确度。且提高了识别结果的准确度。

【技术实现步骤摘要】
未登录词的识别方法、装置和电子设备


[0001]本申请涉及数据处理
,尤其涉及一种未登录词的识别方法、装置和电子设备。

技术介绍

[0002]在众多的自然语言处理场景中,都需要对待处理的文本进行切分处理。在进行切分处理时,不仅需要识别出常见登录词,而且需要识别出未登录词汇。其中,未登录词是指没有被收录在分词词表中但必须切分出来的词,包括各类专有名词、缩写词、以及新增词汇等。
[0003]现有技术中,在识别文本中的未登录词时,通常是采用分词工具对文本进行切分处理,得到多个词汇;针对每一个词汇,计算该词汇,可记为目标词汇,对应的词向量分别与其他词汇中每一个词汇对应的词向量之间的得分,得到多个得分值;从多个得分值中确定最大得分值,并判断最大得分值对应的词汇是否为目标词汇在文本中的后一个词汇,并根据判断结果对未登录词进行识别。
[0004]但是,采用上述识别方法,只能识别由两个词汇构成的未登录词,无法识别由多个单词组成的未登录词。例如,“上皮细胞”,常见登录词包括“上”、“皮”、“细胞”,两两组合无法生成新的未登录词,只有三者组合一起,才是一个新的未登录词,但是采用上述识别方法无法进行识别,会导致未登录词识别结果的准确度较差。

技术实现思路

[0005]本申请实施例提供了一种未登录词的识别方法、装置和电子设备,提高了未登录词的识别结果的准确度。
[0006]第一方面,本申请实施例提供了一种未登录词的识别方法,该未登录词的识别方法可以包括:
[0007]对待处理文本进行切分处理,得到多个词汇。
[0008]分别获取所述多个词汇各自对应的词向量,并对所述多个词汇各自对应的词向量进行取模处理,得到所述多个词汇各自对应的时域信号。
[0009]对所述多个词汇各自对应的时域信号进行变换处理,得到所述多个词汇各自对应的频域信号。
[0010]基于所述多个词汇各自对应的频域信号,从所述多个词汇中确定未登录词。
[0011]在一种可能的实现方式中,所述基于所述多个词汇各自对应的频域信号,从所述多个词汇中确定未登录词,包括:
[0012]基于所述多个词汇各自对应的频域信号、和所述多个词汇各自在所述待处理文本中的位置,从所述多个词汇中确定距离小于预设阈值的多个目标词汇。
[0013]针对各目标词汇,根据所述目标词汇的前一个词汇对应的频域信号、所述目标词汇对应的频域信号、及所述目标词汇对应的后一个词汇对应的频域信号,从所述多个词汇
中确定所述未登录词。
[0014]在一种可能的实现方式中,所述根据所述目标词汇的前一个词汇对应的频域信号、所述目标词汇对应的频域信号、及所述目标词汇对应的后一个词汇对应的频域信号,从所述多个词汇中确定所述未登录词,包括:
[0015]确定所述前一个词汇对应的频域信号与所述目标词汇对应的频域信号的第一差值,并确定所述目标词汇对应的频域信号与所述后一个词汇对应的频域信号的第二差值。
[0016]根据所述第一差值和所述第二差值,从所述多个词汇中确定所述未登录词。
[0017]在一种可能的实现方式中,所述根据所述第一差值和所述第二差值,从所述多个词汇中确定所述未登录词,包括:
[0018]若所述第一差值大于第一阈值,且所述第二差值小于第二阈值,则将所述前一个词汇、所述目标词汇和所述后一个词汇确定为所述未登录词;
[0019]或者,
[0020]若所述第一差值小于第一阈值,且所述第二差值大于第二阈值,则将所述前一个词汇、所述目标词汇和所述后一个词汇确定为所述未登录词。
[0021]在一种可能的实现方式中,所述分别获取所述多个词汇各自对应的词向量,包括:
[0022]根据所述多个词汇各自在所述待处理文本的位置,确定所述多个词汇各自对应的初始向量。
[0023]针对所述多个词汇中各词汇,根据所述多个词汇中除所述词汇之外的其他词汇对应的初始向量和所述其他词汇的数量,确定所述词汇对应的目标向量;并对所述词汇对应的目标向量进行预设范围的映射处理,得到所述词汇对应的词向量。
[0024]在一种可能的实现方式中,所述根据所述多个词汇中除所述词汇之外的其他词汇对应的初始向量和所述其他词汇的数量,确定所述词汇对应的目标向量,包括:
[0025]确定所述其他词汇对应的初始向量之间的和向量。
[0026]将所述和向量与所述其他词汇的数量的比值,确定为所述词汇对应的目标向量。
[0027]在一种可能的实现方式中,该未登录词的识别方法还包括:
[0028]确定所述未登录词对应的信息熵、以及所述未登录词在所述待处理文本中出现的词频。
[0029]若所述信息熵大于信息熵阈值,且所述词频大于词频阈值,则将所述未登录词确定为目标未登录词。
[0030]在一种可能的实现方式中,该未登录词的识别方法还包括:
[0031]基于所述未登录词,重新对所述待处理文本进行切分处理。
[0032]第二方面,本申请实施例提供了一种未登录词的识别装置,该未登录词的识别装置可以包括:
[0033]分词单元,用于对待处理文本进行切分处理,得到多个词汇。
[0034]第一处理单元,用于分别获取所述多个词汇各自对应的词向量,并对所述多个词汇各自对应的词向量进行取模处理,得到所述多个词汇各自对应的时域信号。
[0035]第二处理单元,用于对所述多个词汇各自对应的时域信号进行变换处理,得到所述多个词汇各自对应的频域信号。
[0036]确定单元,用于基于所述多个词汇各自对应的频域信号,从所述多个词汇中确定
未登录词。
[0037]在一种可能的实现方式中,所述确定单元包括第一确定模块和第二确定模块。
[0038]所述第一确定模块,用于基于所述多个词汇各自对应的频域信号、和所述多个词汇各自在所述待处理文本中的位置,从所述多个词汇中确定距离小于预设阈值的多个目标词汇。
[0039]所述第二确定模块,用于针对各目标词汇,根据所述目标词汇的前一个词汇对应的频域信号、所述目标词汇对应的频域信号、及所述目标词汇对应的后一个词汇对应的频域信号,从所述多个词汇中确定所述未登录词。
[0040]在一种可能的实现方式中,所述第二确定模块,具体用于确定所述前一个词汇对应的频域信号与所述目标词汇对应的频域信号的第一差值,并确定所述目标词汇对应的频域信号与所述后一个词汇对应的频域信号的第二差值;根据所述第一差值和所述第二差值,从所述多个词汇中确定所述未登录词。
[0041]在一种可能的实现方式中,所述第二确定模块,具体用于若所述第一差值大于第一阈值,且所述第二差值小于第二阈值,则将所述前一个词汇、所述目标词汇和所述后一个词汇确定为所述未登录词;或者,若所述第一差值小于第一阈值,且所述第二差值大于第二阈值,则将所述前一个词汇、所述目标词汇和所述后一个词汇确定为所述未登录词。
[0042]在一种可能的实现方式中,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种未登录词的识别方法,其特征在于,包括:对待处理文本进行切分处理,得到多个词汇;分别获取所述多个词汇各自对应的词向量,并对所述多个词汇各自对应的词向量进行取模处理,得到所述多个词汇各自对应的时域信号;对所述多个词汇各自对应的时域信号进行变换处理,得到所述多个词汇各自对应的频域信号;基于所述多个词汇各自对应的频域信号,从所述多个词汇中确定未登录词。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个词汇各自对应的频域信号,从所述多个词汇中确定未登录词,包括:基于所述多个词汇各自对应的频域信号、和所述多个词汇各自在所述待处理文本中的位置,从所述多个词汇中确定距离小于预设阈值的多个目标词汇;针对各目标词汇,根据所述目标词汇的前一个词汇对应的频域信号、所述目标词汇对应的频域信号、及所述目标词汇对应的后一个词汇对应的频域信号,从所述多个词汇中确定所述未登录词。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标词汇的前一个词汇对应的频域信号、所述目标词汇对应的频域信号、及所述目标词汇对应的后一个词汇对应的频域信号,从所述多个词汇中确定所述未登录词,包括:确定所述前一个词汇对应的频域信号与所述目标词汇对应的频域信号的第一差值,并确定所述目标词汇对应的频域信号与所述后一个词汇对应的频域信号的第二差值;根据所述第一差值和所述第二差值,从所述多个词汇中确定所述未登录词。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一差值和所述第二差值,从所述多个词汇中确定所述未登录词,包括:若所述第一差值大于第一阈值,且所述第二差值小于第二阈值,则将所述前一个词汇、所述目标词汇和所述后一个词汇确定为所述未登录词;或者,若所述第一差值小于第一阈值,且所述第二差值大于第二阈值,则将所述前一个词汇、所述目标词汇和所述后一个词汇确定为所述未登录词。5.根据权利要求1

4任一项所述的方法,其特征在于,所述分别获取所述多个词汇各自对应的词向量,包括:根据所述多个词汇各自在所述待处理文本的位置,确定所述多个词汇各自对应的初始向量;针对所述多个词汇中各词汇,根据所述多个词汇中除所述词汇之外的其他词汇对应的初始向量和...

【专利技术属性】
技术研发人员:张夕华江旻杨杨徐为恺
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1