实体标准化方法、装置、电子设备、计算机可读存储介质制造方法及图纸

技术编号:35520462 阅读:20 留言:0更新日期:2022-11-09 14:39
本申请公开了一种实体标准化方法、装置、电子设备、计算机可读存储介质,该方法包括:接收用户的输入数据;基于所述输入数据与所述实体库的最长公共子序列构建评分函数,所述评分函数包括所述最长公共子序列中每个字的顺序关系;基于所述评分函数与所述输入数据从预设的字典树中,选择与所述输入数据最相似的实体数据;获取所述实体数据对应的实体词,作为所述输入数据对应的第一标准实体词。上述方案,可以提高实体标准化的准确性。可以提高实体标准化的准确性。可以提高实体标准化的准确性。

【技术实现步骤摘要】
实体标准化方法、装置、电子设备、计算机可读存储介质


[0001]本申请涉及数据处理
,特别是涉及一种实体标准化方法、装置、电子设备、计算机可读存储介质。

技术介绍

[0002]实体标准化是NLU(自然语言理解,Natural Language Understanding)在与业务结合时的重要步骤。例如用户在一段对话中输入“我的成长C收益有点低,有没有收益高一些的”,那么在常规的NLU过程中,先通过词槽识别,识别出用户输入文本中理财产品的词槽“我的成长C”,再将“我的成长C”标准化为当前理财产品库中的“天天成长C”。
[0003]标准化有多种策略,需要结合业务的需求进行设置。目前的相关技术中,实体化标准方法考虑不够全面,面对用户的输入疏漏,无法针对性的进行标准化处理,导致实体标准化不够准确。

技术实现思路

[0004]本申请至少提供一种实体标准化方法、装置、电子设备、计算机可读存储介质,用于解决相关技术中,实体化标准不够准确的问题。
[0005]本申请第一方面提供了一种实体标准化方法,包括:
[0006]接收用户的输入数据;
[0007]基于所述输入数据与所述实体库的最长公共子序列构建评分函数,所述评分函数包括所述最长公共子序列中每个字的顺序关系;
[0008]基于所述评分函数与所述输入数据从预设的字典树中,选择与所述输入数据最相似的实体数据;
[0009]获取所述实体数据对应的实体词,作为所述输入数据对应的第一标准实体词。
[0010]其中,所述字典树的构建步骤,包括:
[0011]获取多个实体词及每个所述实体词的同义词;
[0012]将每个所述实体词与其对应的所述同义词按照字顺序构建第一字典树;
[0013]将每个所述实体词与其对应的所述同义词按照拼音顺序构建第二字典树;所述第一字典中的字与所述第二字典树中的拼音相对应;所述字典树包括所述第一字典树与所述第二字典树。
[0014]其中,所述基于所述评分函数与所述输入数据从预设的字典树中,选择与所述输入数据最相似的实体数据,包括:
[0015]基于所述评分函数与所述输入数据对所述第一字典树进行评分,得到携带有评分值的第一字典树;
[0016]根据预设的搜索算法按照顺序依次从携带有评分值的第一字典树中,选取概率最大的字组合进行排列,得到所述实体数据。
[0017]其中,所述基于所述评分函数与所述输入数据从预设的字典树中,选择与所述输
入数据最相似的实体数据,包括:
[0018]基于所述评分函数与所述输入数据对所述第二字典树进行评分,得到携带有评分值的第二字典树;
[0019]根据预设的搜索算法按照顺序依次从携带有评分值的第二字典树中,选取概率最大的字组合进行排列,得到所述实体数据。
[0020]其中,所述基于所述评分函数与所述输入数据从所述预设的字典树中,选择与所述输入数据最相似的实体数据之后,所述方法还包括:
[0021]当所述字典树中不存在所述实体数据时,根据所述输入数据,从所述第一字典树中选择包括所述输入数据中的字最多的匹配词;
[0022]将所述匹配词对应的实体词,作为所述输入数据的第二标准实体词。
[0023]其中,所述基于所述评分函数与所述输入数据从所述预设的字典树中,选择与所述输入数据最相似的实体数据之后,所述方法还包括:
[0024]当所述字典树中不存在所述实体数据时,将所述输入数据转化为对应的拼音数据;
[0025]从所述第二字典树中选择包括所述拼音数据中的拼音最多的匹配拼音数据;
[0026]将所述匹配拼音数据对应的实体词,作为所述输入数据的第三标准实体词。
[0027]其中,所述基于所述输入数据与所述实体库的最长公共子序列构建评分函数,所述评分函数包括所述最长公共子序列中每个字的顺序关系,包括:
[0028]基于所述最长公共子序列中的每个字的顺序构建初始评分函数;
[0029]当所述最长公共子序列中包括数字或字母时,将所述数字或字母对应的顺序评分进行加权处理,得到所述评分函数。
[0030]本申请第二方面提供了一种实体标准化装置,包括:
[0031]接收模块,用于接收用户的输入数据;
[0032]构建模块,用于基于所述输入数据与所述实体库的最长公共子序列构建评分函数,所述评分函数包括所述最长公共子序列中每个字的顺序关系;
[0033]选择模块,用于基于所述评分函数与所述输入数据从预设的字典树中,选择与所述输入数据最相似的实体数据;
[0034]获取模块,用于获取所述实体数据对应的实体词,作为所述输入数据对应的第一标准实体词。
[0035]本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的实体标准化方法。
[0036]本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的实体标准化方法。
[0037]上述方案,通过将实体库构建为字典树,再基于输入数据与实体库的最长公共子序列构建评分函数,所述评分函数包括所述最长公共子序列中每个字的顺序关系;基于评分函数与输入数据从字典树中,选择与输入数据最相似的实体数据;最后将实体数据对应的实体词,作为输入数据对应的第一标准实体词。在最长公共子序列的基础上,对最长公共子序列的顺序性进行加强,得到评分函数;再通过评分函数从字典树中获取最接近的实体数据,进一步确保实体数据的正确性,从而使得输入数据的实体标准化更为准确。
[0038]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
[0039]此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
[0040]图1是本申请实体标准化方法第一实施例的流程示意图;
[0041]图2是本申请实体标准化方法第二实施例的流程示意图;
[0042]图3是本申请实体标准化方法第三实施例的流程示意图;
[0043]图4是本申请实体标准化方法第四实施例的流程示意图;
[0044]图5是本申请实体标准化装置实施例的流程示意图;
[0045]图6是本申请电子设备实施例的框架示意图;
[0046]图7是本申请非易失性计算机可读存储介质实施例的框架示意图。
具体实施方式
[0047]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0048]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0049]本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体标准化方法,其特征在于,包括:接收用户的输入数据;基于所述输入数据与所述实体库的最长公共子序列构建评分函数,所述评分函数包括所述最长公共子序列中每个字的顺序关系;基于所述评分函数与所述输入数据从预设的字典树中,选择与所述输入数据最相似的实体数据;获取所述实体数据对应的实体词,作为所述输入数据对应的第一标准实体词。2.根据权利要求1所述的方法,其特征在于,所述字典树的构建步骤,包括:获取多个实体词及每个所述实体词的同义词;将每个所述实体词与其对应的所述同义词按照字顺序构建第一字典树;将每个所述实体词与其对应的所述同义词按照拼音顺序构建第二字典树;所述第一字典中的字与所述第二字典树中的拼音相对应;所述字典树包括所述第一字典树与所述第二字典树。3.根据权利要求2所述的方法,其特征在于,所述基于所述评分函数与所述输入数据从预设的字典树中,选择与所述输入数据最相似的实体数据,包括:基于所述评分函数与所述输入数据对所述第一字典树进行评分,得到携带有评分值的第一字典树;根据预设的搜索算法按照顺序依次从携带有评分值的第一字典树中,选取概率最大的字组合进行排列,得到所述实体数据。4.根据权利要求2所述的方法,其特征在于,所述基于所述评分函数与所述输入数据从预设的字典树中,选择与所述输入数据最相似的实体数据,包括:基于所述评分函数与所述输入数据对所述第二字典树进行评分,得到携带有评分值的第二字典树;根据预设的搜索算法按照顺序依次从携带有评分值的第二字典树中,选取概率最大的字组合进行排列,得到所述实体数据。5.根据权利要求2所述的方法,其特征在于,所述基于所述评分函数与所述输入数据从预设的字典树中,选择与所述输入数据最相似的实体数据之后,所述方法还包括:当所述字典树中不存在所述实体数据时,根据所...

【专利技术属性】
技术研发人员:顾晟
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1