新词发现方法及装置、电子设备、存储介质制造方法及图纸

技术编号:37672147 阅读:11 留言:0更新日期:2023-05-26 04:34
本申请提供了一种新词发现方法及装置、电子设备、存储介质,属于自然语言处理领域。该新词生成方法包括:对待处理文本进行分词处理,获得多个初始候选词;确定各个初始候选词的特征属性信息,并根据特征属性信息从多个初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合,特征属性信息是用于表征初始候选词的特征的信息;确定待处理文本与多个初始候选词之间的语义相似度,并根据语义相似度从多个初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;根据第一候选词集合和第二候选词集合,确定目标新词。根据本申请的实施例能够提高新词的准确性,并且还能减少遗漏的新词。能减少遗漏的新词。能减少遗漏的新词。

【技术实现步骤摘要】
新词发现方法及装置、电子设备、存储介质


[0001]本申请涉及自然语言处理领域,特别涉及一种新词发现方法及装置、电子设备、存储介质。

技术介绍

[0002]在自然语言领域的实际应用中,有些场景需要确定具备新的特定含义的词语,这些具备新的特定含义的词语即为新词。例如,针对某些特定领域,需要对对应的文本或语料进行处理,以发现属于该领域的新词。
[0003]在相关技术中,通常只依赖于文本或语料中字符串的统计特征来发现新词,未充分考虑其他因素对新词发现的影响,从而可能导致确定的新词准确性不高,或者遗漏部分新词。

技术实现思路

[0004]本申请提供一种新词发现方法及装置、电子设备、存储介质,可以提高新词的准确性,并且还能减少遗漏的新词。
[0005]第一方面,本申请提供了一种新词发现方法,该新词发现方法包括:对待处理文本进行分词处理,获得多个初始候选词;确定各个所述初始候选词的特征属性信息,并根据所述特征属性信息从多个所述初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合;确定所述待处理文本与多个所述初始候选词之间的语义相似度,并根据所述语义相似度从多个所述初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;根据所述第一候选词集合和所述第二候选词集合,确定目标新词。
[0006]第二方面,本申请提供了一种新词发现装置,该新词发现装置包括:分词模块,用于对待处理文本进行分词处理,获得多个初始候选词;第一筛选模块,用于确定各个所述初始候选词的特征属性信息,并根据所述特征属性信息从多个所述初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合;第二筛选模块,用于确定所述待处理文本与多个所述初始候选词之间的语义相似度,并根据所述语义相似度从多个所述初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;确定模块,用于根据所述第一候选词集合和所述第二候选词集合,确定目标新词。
[0007]第三方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的新词发现方法。
[0008]第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的新词发现方法。
[0009]本申请所提供的实施例,首先,通过对待处理文本进行分词处理,可以获得多个初始候选词,为后续发现新词提供词汇基础;在获得初始候选词的情况下,一方面通过初始候
选词的特征属性信息,从初始候选词中筛选出一个或多个第一中间候选词,构成第一候选词集合,另一方面通过待处理文本与初始候选词之间的语义相似度,从初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;最后,通过第一候选词集合和第二候选词集合共同确定目标新词,而且,由于第一候选词集合中的第一中间候选词是通过特征属性筛选的,其侧重于表征词的特征属性,而第二候选词集合中的第二中间候选词是通过语义相似度筛选的,其侧重于候选词与待处理文本之间在语义层面的相似性,因此,通过第一候选词集合和第二候选词集合共同确定出来的目标新词,综合考虑了词的特征属性和其与待处理文本的语义相似性,获得的新词的准确性较高,还能降低漏选新词的可能性。
[0010]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请,并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
[0012]图1为本申请实施例提供的一种新词发现方法的流程图;
[0013]图2为本申请实施例提供的一种新词发现方法的流程图;
[0014]图3为本申请实施例提供的一种新词发现方法的工作过程示意图;
[0015]图4为本申请实施例提供的一种新词发现装置的框图;
[0016]图5为本申请实施例提供的一种电子设备的框图。
具体实施方式
[0017]为使本领域的技术人员更好地理解本申请的技术方案,以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。
[0019]如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
[0020]本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由
……
制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
[0021]除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
[0022]在相关技术中,通过对文本进行分词处理,可以划分出多种词汇,比如表示情感的词汇(例如,喜欢、厌恶、后悔莫及等);表示动作的词汇(例如,指手划脚、手忙脚乱、手舞足蹈等)。但是,对特定领域的词汇进行分词处理效果较差,无法较为准确地切分文本以获得准确词汇。而且,在新词发现相关技术中,针对未记录在词库中的字串,通常通过计算该字串的互信息熵,选择信息值较高的字串作为新词输出。但是,这种方式的准确率较低。
[0023]有鉴于此,本申请实施例提供一种新词发现方法,首先,通过对待处理文本进行分词处理,可以获得多个初始候选词,为后续发现新词提供词汇基础;在获得初始候选词的情况下,一方面通过初始候选词的特征属性信息,从初始候选词中筛选出第一中间候选词,另一方面通过待处理文本与初始候选词之间的语义相似度,从初始候选词中筛选出第二中间候选词;最后,通过第一中间候选词和第二中间候选词共同确定目标新词,而且,由于第一中间候选词是通过特征属性筛选的,其侧重于表征词的特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新词发现方法,其特征在于,包括:对待处理文本进行分词处理,获得多个初始候选词;确定各个所述初始候选词的特征属性信息,并根据所述特征属性信息从多个所述初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合;确定所述待处理文本与多个所述初始候选词之间的语义相似度,并根据所述语义相似度从多个所述初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;根据所述第一候选词集合和所述第二候选词集合,确定目标新词。2.根据权利要求1所述的方法,其特征在于,所述特征属性信息包括词频属性信息、熵属性信息和点间互属性信息中的至少一种;其中,所述词频属性信息是根据所述初始候选词的出现次数确定的信息,所述熵属性信息是根据所述初始候选词的信息熵确定的信息,所述点间互属性信息是根据所述初始候选词中多个字符串之间的点间互信息确定的信息。3.根据权利要求2所述的方法,其特征在于,所述词频属性信息包括词频值,所述熵属性信息包括信息熵值,所述点间互属性信息包括点间互值;所述根据所述特征属性信息从多个所述初始候选词中筛选出一个或多个第一中间候选词,包括:根据各个所述初始候选词的词频值、信息熵值和点间互值,确定各个所述初始候选词的加权属性值,并根据所述初始候选词的加权属性值从多个所述初始候选词中筛选出大于预设加权阈值的初始候选词作为所述第一中间候选词;或者,比较各个所述初始候选词的词频值和预设词频阈值,得到各个所述初始候选词的词频比较结果,比较各个所述初始候选词的信息熵值和预设信息熵阈值,得到各个所述初始候选词的熵比较结果,比较各个所述初始候选词的点间互值和预设点间互阈值,得到各个所述初始候选词的点间互比较结果,并根据各个所述初始候选词的词频比较结果、熵比较结果和点间互比较结果,从多个所述初始候选词中筛选出所述第一中间候选词。4.根据权利要求1所述的方法,其特征在于,所述待处理文本包括多个语句;所述确定所述待处理文本与多个所述初始候选词之间的语义相似度,并根据所述语义相似度从多个所述初始候选词中筛选出一个或多个第二中间候选词,包括:将各个语句转换为对应的语句向量;将与各个语句对应的所述初始候选词,转换为与各个语句对应的候选词向量;根据具有对应关系的所述语句向量和所述候选词向量,确定所述语句和所述语句对应的初始候选词之间的语义相似度;根据所述语义相似度和预设筛选条件,确定所述...

【专利技术属性】
技术研发人员:夏志超赵辑淼蒋宁夏粉肖冰马超
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1