【技术实现步骤摘要】
文本处理方法、装置和电子设备
[0001]本公开实施例涉及计算机
,具体涉及文本处理方法、装置和电子设备。
技术介绍
[0002]在即时通讯(Instant Messaging,IM)软件、文档编辑类应用、邮件类应用等以文字信息进行信息交流的载体中,通常包含各种缩略语、产品名词、项目名词、企业专属词和术语等,可以将这些词语称为实体词。由于实体词通常属于特定学科领域,可能会给用户对文本的理解带来一定的困难。
技术实现思路
[0003]提供该公开内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]本公开实施例提供了一种文本处理方法、装置和电子设备,使得用户可以快速定位文本中的实体词。
[0005]第一方面,本公开实施例提供了一种文本处理方法,包括:获取待处理文本,确定待处理文本中的目标实体词,生成目标实体词集合;基于待处理文本,确定目标实体词集合中的目标实体词对应的词语解释,获取与词语解释对应的相关信息;推送目标信息,以对待处理文本进行呈现,其中,目标信息包括目标实体词集合、目标实体词集合中的目标实体词对应的词语解释和相关信息,在待处理文本中以预设的显示方式对目标实体词集合中的目标实体词进行显示。
[0006]第二方面,本公开实施例提供了一种文本处理装置,包括:获取单元,用于获取待处理文本,确定待处理文本中的目标实体词,生成 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理文本,确定所述待处理文本中的目标实体词,生成目标实体词集合;基于所述待处理文本,确定所述目标实体词集合中的目标实体词对应的词语解释,获取与所述词语解释对应的相关信息;推送目标信息,以对所述待处理文本进行呈现,其中,所述目标信息包括所述目标实体词集合、所述目标实体词集合中的目标实体词对应的词语解释和相关信息,在所述待处理文本中以预设的显示方式对所述目标实体词集合中的目标实体词进行显示。2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本中的目标实体词,包括:确定所述待处理文本中的至少一个候选实体词;获取第一目标文本,基于所述第一目标文本,从所述至少一个候选实体词中选取出目标实体词,其中,所述第一目标文本是与所述待处理文本相邻且在所述待处理文本之前的文本。3.根据权利要求2所述的方法,其特征在于,所述确定所述待处理文本中的至少一个候选实体词,包括:对所述待处理文本进行分词得到分词结果;在预设的实体词集合中查找与所述分词结果匹配的实体词作为至少一个候选实体词。4.根据权利要求2所述的方法,其特征在于,所述确定所述待处理文本中的至少一个候选实体词,包括:对所述待处理文本进行分词得到分词结果;针对所述分词结果中的每个词语,获取该词语的词语特征,将该词语的词语特征输入预先训练的实体词识别模型中,得到该词语的识别结果,若所述识别结果指示该词语为实体词,将该词语确定为候选实体词,其中,所述识别结果用于指示词语是实体词或用于指示词语不是实体词。5.根据权利要求4所述的方法,其特征在于,所述词语解释的呈现页面包括第一图标和第二图标,其中,所述第一图标用于指示所述词语解释所指示的词语是实体词,所述第二图标用于指示所述词语解释所指示的词语不是实体词;以及所述方法还包括:针对所述目标实体词集合中的每个目标实体词,获取针对该目标实体词对应的第一图标的点击次数和针对该目标实体词对应的第二图标的点击次数;基于所述针对该目标实体词对应的第一图标的点击次数和所述针对该目标实体词对应的第二图标的点击次数,确定该目标实体词的样本类别,其中,所述样本类别包括正样本和负样本;利用目标训练样本集合,对所述实体词识别模型进行更新,其中,所述目标训练样本包括所述目标实体词集合中的目标实体词和与该目标实体词的样本类别。6.根据权利要求2所述的方法,其特征在于,所述基于所述第一目标文本,从所述至少一个候选实体词中选取出目标实体词,包括:针对所述至少一个候选实体词中的候选实体词,响应于确定出所述第一目标文本中不存在该候选实体词,将该候选实体词确定为目标实体词。
7.根据权利要求2所述的方法,其特征在于,所述待处理文本为对话文本;以及所述基于所述第一目标文本,从所述至少一个候选实体词中选取出目标实体词,包括:获取所述第一目标文本的文本生成时间;确定当前时刻与所述文本生成时间之间的时长是否小于预设时长阈值;若是,则针对所述至少一个候选实体词中的候选实体词,响应于确定出所述第一目标文本中不存在该候选实体词,将该候选实体词确定为目标实体词。8.根据权利要求7所述的方法,其特征在于,在所述确定当前时刻与所述文本生成时间之间的时长是否小于预设时长阈值之后,所述方法还包括:若所述时长大于等于所述时长阈值,则将所述至少一个候选实体词确定为目标实体词。9.根据权利要求1所述的方法,其特征在于,所述基于所述待处理文本,确定所述目标实体词集合中的目标实体词对应的词语解释,包括:确定所述目标实体词集合中是否存在对应有至少两个词语解释的目标...
【专利技术属性】
技术研发人员:井玉欣,马凯,陈梓佳,王潇,王枫,刘江伟,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。