语义单元的预测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37870274 阅读:7 留言:0更新日期:2023-06-15 20:59
本公开提供了一种语义单元的预测方法、装置、电子设备及存储介质,该方法包括:获取原始语料数据中包含的多个现存语义单元;对每个现存语义单元执行义素拆解处理,得到每个现存语义单元中包含的多个义素;按照义素组合策略,对多个现存语义单元中包含的多个义素进行组合,得到多个初始义素组;将所述多个初始义素组与所述多个现存语义单元进行匹配,将匹配失败的初始义素组筛选为候选义素组;根据所述候选义素组预测得到未知语义单元。该方式能够通过义素组合策略将多个义素灵活组合为各种形式的初始义素组,进而根据初始义素组与现存语义单元之间的匹配结果预测未知语义单元,从而能够提前预测可能出现的新的语义单元。能够提前预测可能出现的新的语义单元。能够提前预测可能出现的新的语义单元。

【技术实现步骤摘要】
语义单元的预测方法、装置、电子设备及存储介质


[0001]本公开涉及语言处理
,特别涉及一种语义单元的预测方法、装置、电子设备及存储介质。

技术介绍

[0002]语义单元是指语言中用于表示一定含义的字词、词组等语言单位。在一种语言中,包含大量的语义单元,多个语义单元之间相互组合,从而能够灵活表达各类语义信息。例如,通过字词、词组之间的组合,能够形成语句、段落等文本内容。
[0003]随着人类活动的发展以及科学技术的进步,可能会产生一些之前未出现过的新的语义单元。例如,随着互联网的广泛应用,大量与互联网相关的新兴词汇得以流行。
[0004]在相关技术中,通常是根据互联网传输的信息,挖掘其中包含的新的语义单元。例如,针对互联网中的新闻、贴吧等内容进行分析,根据分析结果提取出新的语义单元。然而,目前尚没有一种方式能够提前预测可能出现的新的语义单元。

技术实现思路

[0005]本公开提供了一种语义单元的预测方法、装置、电子设备及存储介质,用于提前预测可能出现的新的语义单元。
[0006]第一方面,本公开提供了一种语义单元的预测方法,包括以下步骤:
[0007]获取原始语料数据中包含的多个现存语义单元;
[0008]对每个现存语义单元执行义素拆解处理,得到每个现存语义单元中包含的多个义素;
[0009]按照义素组合策略,对多个现存语义单元中包含的多个义素进行组合,得到多个初始义素组;
[0010]将所述多个初始义素组与所述多个现存语义单元进行匹配,将匹配失败的初始义素组筛选为候选义素组;
[0011]根据所述候选义素组预测得到未知语义单元。
[0012]第二方面,本公开提供了一种语义单元的预测装置,包括:
[0013]获取模块,适于获取原始语料数据中包含的多个现存语义单元;
[0014]拆解模块,适于对每个现存语义单元执行义素拆解处理,得到每个现存语义单元中包含的多个义素;
[0015]组合模块,适于按照义素组合策略,对多个现存语义单元中包含的多个义素进行组合,得到多个初始义素组;
[0016]匹配模块,适于将所述多个初始义素组与所述多个现存语义单元进行匹配,将匹配失败的初始义素组筛选为候选义素组;
[0017]预测模块,适于根据所述候选义素组预测得到未知语义单元。
[0018]第三方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
[0019]第四方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述方法。
[0020]本公开所提供的实施例,能够通过义素拆解得到每个现存语义单元中的多个义素,进而按照义素组合策略将多个义素组合为多个初始义素组,从而根据多个初始义素组与多个现存语义单元之间的匹配结果筛选候选义素组,以便根据候选义素组预测得到未知语义单元。由此可见,该方式能够通过义素组合策略将多个义素灵活组合为各种形式的初始义素组,进而根据初始义素组与现存语义单元之间的匹配结果预测未知语义单元,从而能够提前预测可能出现的新的语义单元。
[0021]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0022]附图用来提供对本公开的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
[0023]图1为本公开一个实施例提供的一种语义单元的预测方法的流程图;
[0024]图2为本公开另一个实施例提供的一种语义单元的预测方法的流程图;
[0025]图3给出了一个具体示例提供的语义单元的预测方法的流程图;
[0026]图4示出了义素向量的生成示意图;
[0027]图5为本公开实施例提供的一种语义单元的预测装置的框图;
[0028]图6为本公开实施例提供的一种电子设备的框图。
具体实施方式
[0029]为使本领域的技术人员更好地理解本公开的技术方案,以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0030]在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
[0031]如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
[0032]本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由
……
制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
[0033]除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
[0034]根据本公开实施例的语义单元的预测方法可以由终端设备或服务器等电子设备执行,终端设备可以为车载设备、用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等;所述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。所述方法具体可以是通过处理器调用存储器中存储的计算机程序的方式来实现。
[0035]在相关技术中,通常是根据互联网传输的信息,挖掘其中包含的新的语义单元。例如,针对互联网中的新闻、贴吧等内容进行分析,根据分析结果提取出新的语义单元。然而,目前尚没有一种方式能够提前预测可能出现的新的语义单元。为了解决上述问题,本申请提出了一种语义单元的预测方法,该方法能够本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义单元的预测方法,其特征在于,包括:获取原始语料数据中包含的多个现存语义单元;对每个现存语义单元执行义素拆解处理,得到每个现存语义单元中包含的多个义素;按照义素组合策略,对所述多个现存语义单元中包含的多个义素进行组合,得到多个初始义素组;将所述多个初始义素组与所述多个现存语义单元进行匹配,将匹配失败的初始义素组筛选为候选义素组;根据所述候选义素组预测得到未知语义单元。2.根据权利要求1所述的方法,其特征在于,所述现存语义单元包括:分词、和/或构式;则所述获取原始语料数据中包含的多个现存语义单元包括:获取所述原始语料数据中的多个分词,并确定每个分词对应的词向量;获取所述原始语料数据中的多个构式,并确定每个构式对应的构式向量;所述对多个现存语义单元中包含的多个义素进行组合,得到多个初始义素组包括:确定每个义素对应的义素向量,对多个义素的义素向量进行组合,得到向量形式的初始义素组;所述将所述多个初始义素组与所述多个现存语义单元进行匹配包括:分别针对每个向量形式的初始义素组,计算所述初始义素组与各个词向量和/或构式向量之间的相似度;若所述初始义素组与任一词向量和/或构式向量之间的相似度小于预设相似度阈值,则确定所述初始义素组与现存语义单元匹配失败。3.根据权利要求1或2所述的方法,其特征在于,所述候选义素组包括:第一候选义素组以及第二候选义素组;则所述根据所述候选义素组预测得到未知语义单元包括:将所述第二候选义素组输入语义预测模型,根据所述语义预测模型的输出结果预测得到未知语义单元;其中,所述第二候选义素组用于预测所述未知语义单元,且所述第一候选义素组用于训练所述语义预测模型。4.根据权利要求3所述的方法,其特征在于,所述语义预测模型通过以下方式训练得到:获取所述第一候选义素组的标注结果,将所述第一候选义素组以及所述第一候选义素组的标注结果作为训练样本;其中,所述第一候选义素组的标注结果用于表征所述第一候选义素组中包含的未知语义单元;通过所述训练样本,对文本预训练模型进行训练,根据训练结果得到所述语义预测模型。5.根据权利要求4所述的方法,其特征在于,若所述语义预测模型预测得到的未知语义单元的数量为多个,则所述根据所述语义预测模型的输出结果预测得到未知语义单元包括:针对每个现存语义单元中包含的每个义素,计算所述义素的义素空间密度;其中,所述义素空间...

【专利技术属性】
技术研发人员:白安琪蒋宁夏粉吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1