【技术实现步骤摘要】
实体词提取方法、装置和电子设备
[0001]本公开实施例涉及计算机
,具体涉及实体词提取方法、装置和电子设备。
技术介绍
[0002]在即时通讯(Instant Messaging,IM)软件、文档编辑类应用、邮件类应用等以文字信息进行信息交流的载体中,通常包含各种缩略语、产品名词、项目名词、企业专属词和术语等,可以将这些词语称为实体词。由于实体词通常属于特定学科领域,可能会给用户对文本的理解带来一定的困难。因此,将这些实体词挖掘出来并给出相应的词语解释可以便于用户对文本的理解。
技术实现思路
[0003]提供该公开内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]本公开实施例提供了一种实体词提取方法、装置和电子设备,利用词语特征对候选实体词进行筛选,提高了实体词提取的准确性。
[0005]第一方面,本公开实施例提供了一种实体词提取方法,包括:获取待处理文本,对待处理文本进行预设处理,得到候选实体词集合;提取候选实体词集合中的各个候选实体词的词语特征;基于词语特征,从候选实体词集合中选取出目标实体词,输出目标实体词。
[0006]第二方面,本公开实施例提供了一种实体词提取装置,包括:获取单元,用于获取待处理文本,对待处理文本进行预设处理,得到候选实体词集合;提取单元,用于提取候选实体词集合中的各个候选实体词的词语特征; ...
【技术保护点】
【技术特征摘要】
1.一种实体词提取方法,其特征在于,包括:获取待处理文本,对所述待处理文本进行预设处理,得到候选实体词集合;提取所述候选实体词集合中的各个候选实体词的词语特征;基于所述词语特征,从所述候选实体词集合中选取出目标实体词,输出所述目标实体词。2.根据权利要求1所述的方法,其特征在于,所述基于所述词语特征,从所述候选实体词集合中选取出目标实体词,包括:基于实体词在所述待处理文本中的位置信息,确定所述候选实体词集合中的各个候选实体词的词语权重;针对所述候选实体词集合中的每个候选实体词,基于该候选实体词的词语特征和词语权重,确定该候选实体词的分数;基于所述候选实体词集合中的各个候选实体词的分数,从所述候选实体词集合中选取出目标实体词。3.根据权利要求2所述的方法,其特征在于,所述待处理文本为中文文本或中英文混合文本,所述词语特征包括词语的逆文档频率、词语的词频逆文档频率、词语在所述待处理文本和目标语料中的N
‑
Gram分数的比值和词语在所述待处理文本和目标语料中的困惑度的比值;以及所述基于该候选实体词的词语特征和词语权重,确定该候选实体词的分数,包括:对该候选实体词的逆文档频率、该候选实体词的词频逆文档频率、该候选实体词在所述待处理文本和目标语料中的N
‑
Gram分数的比值以及该候选实体词在所述待处理文本和目标语料中的困惑度的比值进行加权求和,将求和结果与该候选实体词的词语权重相乘,得到该候选实体词的分数。4.根据权利要求2所述的方法,其特征在于,所述待处理文本为英文文本,所述词语特征包括词语的关键词提取分数、词语在所述待处理文本和目标语料中的N
‑
Gram分数的比值和词语在所述待处理文本和目标语料中的困惑度的比值;以及所述基于该候选实体词的词语特征和词语权重,确定该候选实体词的分数,包括:对该候选实体词的关键词提取分数、该候选实体词在所述待处理文本和目标语料中的N
‑
Gram分数的比值以及该候选实体词在所述待处理文本和目标语料中的困惑度的比值进行加权求和,将求和结果与该候选实体词的词语权重相乘,得到该候选实体词的分数。5.根据权利要求2所述的方法,其特征在于,所述待处理文本为中文文本或中英文混合文本;以及所述基于所述候选实体词集合中的各个候选实体词的分数,从所述候选实体词集合中选取出目标实体词,包括:基于所述候选实体词集合中的各个候选实体词的分数和词语特征,对所述候选实体词集合进行更新,从更新后的候选实体词集合中选取出目标实体词。6.根据权利要求5所述的方法,其特征在于,所述基于所述候选实体词集合中的各个候选实体词的分数和词语特征,对所述候选实体词集合进行更新,从更新后的候选实体词集合中选取出目标实体词,包括:基于所述候选实体词集合,执行如下实体词选取步骤:从候选实体词集合中选取符合
预设条件的实体词,对符合所述条件的实体词进行组合,得到至少一个词语组合;将所述至少一个词语组合中出现在所述待处理文本中的词语组合确定为候选复合实体词,将所述候选复合实体词添加到候选实体词集合中;针对每个候选复合实体词,基于组成该候选复合实体词的候选实体词的分数,确定该候选复合实体词的分数;基于所述候选复合实体词的分数、所述候选复合实体词的词语特征、候选实体词集合中各个候选实体词的分数和词语特征,对添加后的候选实体词集合进行更新;确定更新后的候选实体词集合与候选实体词集合是否相同;若否,则将更新后的候选实体词集合作为候选实体词集合,继续执行所述实体词选取步骤。7.根据权利要求6所述的方法,其特征在于,在所述确定更新后的候选实体词集合与候选实体词集合是否相同之后,所述方法还包括:若是,则基于更新后的候选实体词集合中的各个候选实体词的分数,从更新后的候选实体词集合中选取出目标实体词。8.根据权利要求6所述的方法,其特征在于,所述词语特征包括词语的词频;以及所述基于组成该候选复合实体词的候选实体词的分数,确定该候选复合实体词的分数,包括:对组成该候选复合实体词的两个候选实体词的分数进行加权求和,得到该候选复合实体词的分数,其中,针对组成该候选复合实体词的两个候选实体词中的每个候选实体词,该候选实体词对应的权重为该候选实体词的词频与总词频的比值,所述总词...
【专利技术属性】
技术研发人员:井玉欣,董伟,沈雨奇,刘江伟,王枫,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。