实体词提取方法、装置和电子设备制造方法及图纸

技术编号:31165536 阅读:15 留言:0更新日期:2021-12-04 10:41
本公开实施例公开了实体词提取方法、装置和电子设备。该方法的一具体实施方式包括:获取待处理文本,对待处理文本进行预设处理,得到候选实体词集合;提取候选实体词集合中的各个候选实体词的词语特征;基于词语特征,从候选实体词集合中选取出目标实体词,输出目标实体词。该实施方式提高了实体词提取的准确性。该实施方式提高了实体词提取的准确性。该实施方式提高了实体词提取的准确性。

【技术实现步骤摘要】
实体词提取方法、装置和电子设备


[0001]本公开实施例涉及计算机
,具体涉及实体词提取方法、装置和电子设备。

技术介绍

[0002]在即时通讯(Instant Messaging,IM)软件、文档编辑类应用、邮件类应用等以文字信息进行信息交流的载体中,通常包含各种缩略语、产品名词、项目名词、企业专属词和术语等,可以将这些词语称为实体词。由于实体词通常属于特定学科领域,可能会给用户对文本的理解带来一定的困难。因此,将这些实体词挖掘出来并给出相应的词语解释可以便于用户对文本的理解。

技术实现思路

[0003]提供该公开内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]本公开实施例提供了一种实体词提取方法、装置和电子设备,利用词语特征对候选实体词进行筛选,提高了实体词提取的准确性。
[0005]第一方面,本公开实施例提供了一种实体词提取方法,包括:获取待处理文本,对待处理文本进行预设处理,得到候选实体词集合;提取候选实体词集合中的各个候选实体词的词语特征;基于词语特征,从候选实体词集合中选取出目标实体词,输出目标实体词。
[0006]第二方面,本公开实施例提供了一种实体词提取装置,包括:获取单元,用于获取待处理文本,对待处理文本进行预设处理,得到候选实体词集合;提取单元,用于提取候选实体词集合中的各个候选实体词的词语特征;选取单元,用于基于词语特征,从候选实体词集合中选取出目标实体词,输出目标实体词。
[0007]第三方面,本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面的实体词提取方法。
[0008]第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的实体词提取方法的步骤。
[0009]本公开实施例提供的实体词提取方法、装置和电子设备,通过首先获取待处理文本,对上述待处理文本进行预设处理,得到候选实体词集合;之后,提取上述候选实体词集合中的各个候选实体词的词语特征;最后,基于上述词语特征,从上述候选实体词集合中选取出目标实体词,输出上述目标实体词。通过这种方式利用词语特征对候选实体词进行筛选,提高了实体词提取的准确性。
附图说明
[0010]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及
方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
[0011]图1是本公开的各个实施例可以应用于其中的示例性系统架构图;
[0012]图2是根据本公开的实体词提取方法的一个实施例的流程图;
[0013]图3是根据本公开的实体词提取方法的又一个实施例的流程图;
[0014]图4是根据本公开的实体词提取方法中更新候选实体词集合的一个实施例的流程图;
[0015]图5是根据本公开的实体词提取方法的一个实施例的示意图;
[0016]图6是根据本公开的实体词提取方法的再一个实施例的流程图;
[0017]图7是根据本公开的实体词提取方法的又一个实施例的示意图;
[0018]图8是根据本公开的实体词提取装置的一个实施例的结构示意图;
[0019]图9是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0020]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0021]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0022]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0023]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0024]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0025]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0026]图1示出了可以应用本公开的文本处理方法的实施例的示例性系统架构100。
[0027]如图1所示,系统架构100可以包括终端设备1011、1012、1013,网络102和服务器103。网络102用以在终端设备1011、1012、1013和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0028]用户可以使用终端设备1011、1012、1013通过网络102与服务器103交互,以发送或接收消息等,例如,用户可以利用终端设备1011、1012、1013向服务器103发送待处理文本。终端设备1011、1012、1013上可以安装有各种通讯客户端应用,例如图像处理类应用、即时通讯软件等。
[0029]终端设备1011、1012、1013可以是硬件,也可以是软件。当终端设备1011、1012、1013为硬件时,可以是具有显示屏并且支持信息交互的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机等。当终端设备1011、1012、1013为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
[0030]服务器103可以是提供各种服务的服务器。例如,服务器103可以从终端设备1011、1012、1013中获取待处理文本,对上述待处理文本进行预设处理,得到候选实体词集合;之后,可以提取上述候选实体词集合中的各个候选实体词的词语特征;最后,可以基于上述词语特征,从上述候选实体词集合中选取出目标实体词,输出上述目标实体词,例如,可以向终端设备1011、1012、101本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体词提取方法,其特征在于,包括:获取待处理文本,对所述待处理文本进行预设处理,得到候选实体词集合;提取所述候选实体词集合中的各个候选实体词的词语特征;基于所述词语特征,从所述候选实体词集合中选取出目标实体词,输出所述目标实体词。2.根据权利要求1所述的方法,其特征在于,所述基于所述词语特征,从所述候选实体词集合中选取出目标实体词,包括:基于实体词在所述待处理文本中的位置信息,确定所述候选实体词集合中的各个候选实体词的词语权重;针对所述候选实体词集合中的每个候选实体词,基于该候选实体词的词语特征和词语权重,确定该候选实体词的分数;基于所述候选实体词集合中的各个候选实体词的分数,从所述候选实体词集合中选取出目标实体词。3.根据权利要求2所述的方法,其特征在于,所述待处理文本为中文文本或中英文混合文本,所述词语特征包括词语的逆文档频率、词语的词频逆文档频率、词语在所述待处理文本和目标语料中的N

Gram分数的比值和词语在所述待处理文本和目标语料中的困惑度的比值;以及所述基于该候选实体词的词语特征和词语权重,确定该候选实体词的分数,包括:对该候选实体词的逆文档频率、该候选实体词的词频逆文档频率、该候选实体词在所述待处理文本和目标语料中的N

Gram分数的比值以及该候选实体词在所述待处理文本和目标语料中的困惑度的比值进行加权求和,将求和结果与该候选实体词的词语权重相乘,得到该候选实体词的分数。4.根据权利要求2所述的方法,其特征在于,所述待处理文本为英文文本,所述词语特征包括词语的关键词提取分数、词语在所述待处理文本和目标语料中的N

Gram分数的比值和词语在所述待处理文本和目标语料中的困惑度的比值;以及所述基于该候选实体词的词语特征和词语权重,确定该候选实体词的分数,包括:对该候选实体词的关键词提取分数、该候选实体词在所述待处理文本和目标语料中的N

Gram分数的比值以及该候选实体词在所述待处理文本和目标语料中的困惑度的比值进行加权求和,将求和结果与该候选实体词的词语权重相乘,得到该候选实体词的分数。5.根据权利要求2所述的方法,其特征在于,所述待处理文本为中文文本或中英文混合文本;以及所述基于所述候选实体词集合中的各个候选实体词的分数,从所述候选实体词集合中选取出目标实体词,包括:基于所述候选实体词集合中的各个候选实体词的分数和词语特征,对所述候选实体词集合进行更新,从更新后的候选实体词集合中选取出目标实体词。6.根据权利要求5所述的方法,其特征在于,所述基于所述候选实体词集合中的各个候选实体词的分数和词语特征,对所述候选实体词集合进行更新,从更新后的候选实体词集合中选取出目标实体词,包括:基于所述候选实体词集合,执行如下实体词选取步骤:从候选实体词集合中选取符合
预设条件的实体词,对符合所述条件的实体词进行组合,得到至少一个词语组合;将所述至少一个词语组合中出现在所述待处理文本中的词语组合确定为候选复合实体词,将所述候选复合实体词添加到候选实体词集合中;针对每个候选复合实体词,基于组成该候选复合实体词的候选实体词的分数,确定该候选复合实体词的分数;基于所述候选复合实体词的分数、所述候选复合实体词的词语特征、候选实体词集合中各个候选实体词的分数和词语特征,对添加后的候选实体词集合进行更新;确定更新后的候选实体词集合与候选实体词集合是否相同;若否,则将更新后的候选实体词集合作为候选实体词集合,继续执行所述实体词选取步骤。7.根据权利要求6所述的方法,其特征在于,在所述确定更新后的候选实体词集合与候选实体词集合是否相同之后,所述方法还包括:若是,则基于更新后的候选实体词集合中的各个候选实体词的分数,从更新后的候选实体词集合中选取出目标实体词。8.根据权利要求6所述的方法,其特征在于,所述词语特征包括词语的词频;以及所述基于组成该候选复合实体词的候选实体词的分数,确定该候选复合实体词的分数,包括:对组成该候选复合实体词的两个候选实体词的分数进行加权求和,得到该候选复合实体词的分数,其中,针对组成该候选复合实体词的两个候选实体词中的每个候选实体词,该候选实体词对应的权重为该候选实体词的词频与总词频的比值,所述总词...

【专利技术属性】
技术研发人员:井玉欣董伟沈雨奇刘江伟王枫
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1