文本处理方法、装置和电子设备制造方法及图纸

技术编号:30830281 阅读:11 留言:0更新日期:2021-11-18 12:42
本公开实施例公开了文本处理方法、装置和电子设备。该方法的一具体实施方式包括:获取待处理文本,确定待处理文本中的目标实体词,生成目标实体词集合;基于待处理文本,确定目标实体词集合中的目标实体词对应的词语解释,获取与词语解释对应的相关信息;推送目标信息,以对待处理文本进行呈现,其中,目标信息包括目标实体词集合、目标实体词集合中的目标实体词对应的词语解释和相关信息,在待处理文本中以预设的显示方式对目标实体词集合中的目标实体词进行显示。该实施方式使得用户可以快速定位文本中的实体词。速定位文本中的实体词。速定位文本中的实体词。

【技术实现步骤摘要】
文本处理方法、装置和电子设备


[0001]本公开实施例涉及计算机
,具体涉及文本处理方法、装置和电子设备。

技术介绍

[0002]在即时通讯(Instant Messaging,IM)软件、文档编辑类应用、邮件类应用等以文字信息进行信息交流的载体中,通常包含各种缩略语、产品名词、项目名词、企业专属词和术语等,可以将这些词语称为实体词。由于实体词通常属于特定学科领域,可能会给用户对文本的理解带来一定的困难。

技术实现思路

[0003]提供该公开内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]本公开实施例提供了一种文本处理方法、装置和电子设备,使得用户可以快速定位文本中的实体词。
[0005]第一方面,本公开实施例提供了一种文本处理方法,包括:获取待处理文本,确定待处理文本中的目标实体词,生成目标实体词集合;基于待处理文本,确定目标实体词集合中的目标实体词对应的词语解释,获取与词语解释对应的相关信息;推送目标信息,以对待处理文本进行呈现,其中,目标信息包括目标实体词集合、目标实体词集合中的目标实体词对应的词语解释和相关信息,在待处理文本中以预设的显示方式对目标实体词集合中的目标实体词进行显示。
[0006]第二方面,本公开实施例提供了一种文本处理装置,包括:获取单元,用于获取待处理文本,确定待处理文本中的目标实体词,生成目标实体词集合;确定单元,用于基于待处理文本,确定目标实体词集合中的目标实体词对应的词语解释,获取与词语解释对应的相关信息;推送单元,用于推送目标信息,以对待处理文本进行呈现,其中,目标信息包括目标实体词集合、目标实体词集合中的目标实体词对应的词语解释和相关信息,在待处理文本中以预设的显示方式对目标实体词集合中的目标实体词进行显示。
[0007]第三方面,本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的文本处理方法。
[0008]第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本处理方法的步骤。
[0009]本公开实施例提供的文本处理方法、装置和电子设备,通过获取待处理文本,确定上述待处理文本中的目标实体词,生成目标实体词集合;之后,基于上述待处理文本,确定上述目标实体词集合中的目标实体词对应的词语解释,获取与上述词语解释对应的相关信息;最后,推送目标信息,以对上述待处理文本进行呈现,并在上述待处理文本中以预设的
显示方式对上述目标实体词集合中的目标实体词进行显示。通过这种方式可以对待处理文本中的实体词进行特殊显示,使得用户可以快速定位文本中的实体词。
附图说明
[0010]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
[0011]图1是本公开的各个实施例可以应用于其中的示例性系统架构图;
[0012]图2是根据本公开的文本处理方法的一个实施例的流程图;
[0013]图3是根据本公开的文本处理方法中待处理文本的一种呈现方式的示意图;
[0014]图4是根据本公开的文本处理方法中实体词对应的词语卡片的一个示意图;
[0015]图5是根据本公开的文本处理方法中更新实体词识别模型的一个实施例的流程图;
[0016]图6是根据本公开的文本处理方法中确定实体词对应的词语解释的一个实施例的流程图;
[0017]图7是根据本公开的文本处理方法中确定实体词对应的词语解释的又一个实施例的流程图;
[0018]图8是根据本公开的文本处理装置的一个实施例的结构示意图;
[0019]图9是适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0020]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0021]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0022]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0023]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0024]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0025]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0026]图1示出了可以应用本公开的文本处理方法的实施例的示例性系统架构100。
[0027]如图1所示,系统架构100可以包括终端设备1011、1012,网络1021、1022,服务器103和呈现终端设备1041、1042。网络1021用以在终端设备1011、1012和服务器103之间提供通信链路的介质。网络1022用以在服务器103和呈现终端设备1041、1042之间提供通信链路的介质。网络1021、1022可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0028]用户可以使用终端设备1011、1012通过网络1021与服务器103交互,以发送或接收消息等,例如,用户可以利用终端设备1011、1012、1013向服务器103发送待处理文本。可以使用呈现终端设备1041、1042通过网络1022与服务器103交互,以发送或接收消息等,例如,服务器103可以向呈现终端设备1041、1042发送待批改内容。终端设备1011、1012和呈现终端设备1041、1042上可以安装有各种通讯客户端应用,例如即时通讯软件、文档编辑类应用和邮箱类应用等。
[0029]终端设备1011、1012可以是硬件,也可以是软本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理文本,确定所述待处理文本中的目标实体词,生成目标实体词集合;基于所述待处理文本,确定所述目标实体词集合中的目标实体词对应的词语解释,获取与所述词语解释对应的相关信息;推送目标信息,以对所述待处理文本进行呈现,其中,所述目标信息包括所述目标实体词集合、所述目标实体词集合中的目标实体词对应的词语解释和相关信息,在所述待处理文本中以预设的显示方式对所述目标实体词集合中的目标实体词进行显示。2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本中的目标实体词,包括:确定所述待处理文本中的至少一个候选实体词;获取第一目标文本,基于所述第一目标文本,从所述至少一个候选实体词中选取出目标实体词,其中,所述第一目标文本是与所述待处理文本相邻且在所述待处理文本之前的文本。3.根据权利要求2所述的方法,其特征在于,所述确定所述待处理文本中的至少一个候选实体词,包括:对所述待处理文本进行分词得到分词结果;在预设的实体词集合中查找与所述分词结果匹配的实体词作为至少一个候选实体词。4.根据权利要求2所述的方法,其特征在于,所述确定所述待处理文本中的至少一个候选实体词,包括:对所述待处理文本进行分词得到分词结果;针对所述分词结果中的每个词语,获取该词语的词语特征,将该词语的词语特征输入预先训练的实体词识别模型中,得到该词语的识别结果,若所述识别结果指示该词语为实体词,将该词语确定为候选实体词,其中,所述识别结果用于指示词语是实体词或用于指示词语不是实体词。5.根据权利要求4所述的方法,其特征在于,所述词语解释的呈现页面包括第一图标和第二图标,其中,所述第一图标用于指示所述词语解释所指示的词语是实体词,所述第二图标用于指示所述词语解释所指示的词语不是实体词;以及所述方法还包括:针对所述目标实体词集合中的每个目标实体词,获取针对该目标实体词对应的第一图标的点击次数和针对该目标实体词对应的第二图标的点击次数;基于所述针对该目标实体词对应的第一图标的点击次数和所述针对该目标实体词对应的第二图标的点击次数,确定该目标实体词的样本类别,其中,所述样本类别包括正样本和负样本;利用目标训练样本集合,对所述实体词识别模型进行更新,其中,所述目标训练样本包括所述目标实体词集合中的目标实体词和与该目标实体词的样本类别。6.根据权利要求2所述的方法,其特征在于,所述基于所述第一目标文本,从所述至少一个候选实体词中选取出目标实体词,包括:针对所述至少一个候选实体词中的候选实体词,响应于确定出所述第一目标文本中不存在该候选实体词,将该候选实体词确定为目标实体词。
7.根据权利要求2所述的方法,其特征在于,所述待处理文本为对话文本;以及所述基于所述第一目标文本,从所述至少一个候选实体词中选取出目标实体词,包括:获取所述第一目标文本的文本生成时间;确定当前时刻与所述文本生成时间之间的时长是否小于预设时长阈值;若是,则针对所述至少一个候选实体词中的候选实体词,响应于确定出所述第一目标文本中不存在该候选实体词,将该候选实体词确定为目标实体词。8.根据权利要求7所述的方法,其特征在于,在所述确定当前时刻与所述文本生成时间之间的时长是否小于预设时长阈值之后,所述方法还包括:若所述时长大于等于所述时长阈值,则将所述至少一个候选实体词确定为目标实体词。9.根据权利要求1所述的方法,其特征在于,所述基于所述待处理文本,确定所述目标实体词集合中的目标实体词对应的词语解释,包括:确定所述目标实体词集合中是否存在对应有至少两个词语解释的目标...

【专利技术属性】
技术研发人员:井玉欣马凯陈梓佳王潇王枫刘江伟
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1