数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35268436 阅读:18 留言:0更新日期:2022-10-19 10:35
本申请涉及一种数据处理方法、装置、电子设备及存储介质。该方法包括:获取待处理的实体词集合;基于目标图嵌入模型对所述实体词集合中的实体词进行向量表征处理,得到各实体词的词向量;所述图嵌入模型是根据共现图对预设图嵌入模型进行训练得到的,所述共现图是基于医疗业务领域下多个样本问答文本语料包含的问题文本、答复文本以及答复账号的描述文本中分别提取的实体词构建的,所述描述文本用于指示所述答复账号在所述医疗业务领域下对应的子业务领域;根据所述词向量之间的相似度,获取所述实体词集合中词义相近的实体词对。根据本申请的技术方案,可以提升同义词挖掘精度以及问答文本的搜索精度。及问答文本的搜索精度。及问答文本的搜索精度。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质


[0001]本申请涉及互联网应用
,尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网的发展,出现越来越丰富的线上交互,例如医疗问答交互等。这样可以方便用户提问以得到及时的回复。后续有类似搜索时,可以展示这些问答数据。对于这些较专业的领域,搜索时使用的词语一般较口语化且语言形式多样化,导致搜索准确度不高。相关技术中,使用标注的同义词词典来提升搜索效果,或者通过同义词挖掘来提升搜索精度,但前者需要大量标注工作,并且覆盖的同义词较书面化,口语化词语的覆盖不全;后者由于多样化语言导致口语化词语不均衡的现象,使得同义词挖掘效果也欠佳。

技术实现思路

[0003]有鉴于上述存在的技术问题,本申请提出了数据处理方法、装置、电子设备及存储介质。
[0004]根据本申请的一方面,提供了一种数据处理方法,所述方法包括:
[0005]获取待处理的实体词集合;
[0006]基于目标图嵌入模型对所述实体词集合中的实体词进行向量表征处理,得到各实体词的词向量;所述目标图嵌入模型是根据共现图对预设图嵌入模型进行训练得到的,所述共现图是基于医疗业务领域下多个样本问答文本语料包含的问题文本、答复文本以及答复账号的描述文本中分别提取的实体词构建的,所述描述文本用于指示所述答复账号在所述医疗业务领域下对应的子业务领域;所述共现图中的边具有边权重,每一边的边权重是基于每一边连接的节点的共现概率、节点类型以及节点之间的语义相似度信息中的至少一种得到的,所述节点为所述实体词,所述节点类型表征对应实体词所属的、用于描述所述医疗业务领域的预设维度;
[0007]根据所述词向量之间的相似度,获取所述实体词集合中词义相近的实体词对。
[0008]根据本申请的另一方面,提供了一种数据处理装置,包括:
[0009]获取模块,用于获取待处理的实体词集合;
[0010]向量表征模块,用于基于目标图嵌入模型对所述实体词集合中的实体词进行向量表征处理,得到各实体词的词向量;所述目标图嵌入模型是根据共现图对预设图嵌入模型进行训练得到的,所述共现图是基于医疗业务领域下多个样本问答文本语料包含的问题文本、答复文本以及答复账号的描述文本中分别提取的实体词构建的,所述描述文本用于指示所述答复账号在所述医疗业务领域下对应的子业务领域;所述共现图中的边具有边权重,每一边的边权重是基于每一边连接的节点的共现概率、节点类型以及节点之间的语义相似度信息中的至少一种得到的,所述节点为所述实体词,所述节点类型表征对应实体词所属的、用于描述所述医疗业务领域的预设维度;
[0011]实体词对获取模块,用于根据所述词向量之间的相似度,获取所述实体词集合中词义相近的实体词对。
[0012]根据本申请的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
[0013]根据本申请的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
[0014]通过在共现图中引入三种文本中的实体词,即问题文本、答复文本以及答复账号的描述文本中分别提取的实体词,可以有效均衡低频词实体词在共现图中的共现次数,提升低频词的特征向量表征的精准性学习,使得根据该共现图训练得到的目标图嵌入模型对实体词的向量表征更加准确,进而可以提升低频词的同义词挖掘的精准性;并且由于描述文本的引入,使得共现图中来自问题文本的口语化实体词可以与指示子业务领域的实体词具有关联关系,使得口语化实体词的向量表征学习更加充分,从而使得基于目标图嵌入模型的同义词挖掘可以提升口语化实体词的同义词挖掘的精准性和全面性;即根据该共现图训练得到的目标图嵌入模型来进行同义词挖掘,可以提升同义词挖掘的精准性和覆盖全面性,进而可以提升该医疗业务领域下的问答文本数据的搜索精准度,即使在面对医疗业务领域下的口语化搜索词或低频搜索词的情况下,搜索精准度也较高。
[0015]根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
[0016]包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
[0017]图1示出根据本申请一实施例提供的一种应用系统的示意图。
[0018]图2示出根据本申请一实施例提供的一种数据处理方法的流程图。
[0019]图3a和图3b示出根据本申请一实施例提供的一种样本问答文本语料的示意图。
[0020]图4a示出根据本申请一实施例提供的一种共现图的示意图。
[0021]图4b示出根据本申请一实施例提供的一种共现图中每个实体词的嵌入向量表征示意图。
[0022]图5示出根据本申请一实施例提供的一种获取医疗业务领域的多个样本问答文本语料对应的共现图的方法流程图。
[0023]图6示出根据本申请一实施例提供的一种节点对应的文本序列的示意图。
[0024]图7示出根据本申请一实施例提供的一种skip

gram语言模型的训练过程示意图。
[0025]图8示出根据本申请一实施例提供的一种数据处理装置的框图。
[0026]图9示出根据本申请一实施例提供的一种用于数据处理的电子设备的框图。
具体实施方式
[0027]以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0028]在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
[0029]另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
[0030]请参阅图1,图1示出根据本申请一实施例提供的一种应用系统的示意图。所述应用系统可以用于本申请的数据处理方法。如图1所示,该应用系统至少可以包括服务器01和终端02。
[0031]本申请实施例中,所述服务器01可以用于数据处理,该服务器01可以包括独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0032]本申请实施例中,所述终端02可以用于提供搜索的应用或页面,使得用户可以进行数据搜索,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待处理的实体词集合;基于目标图嵌入模型对所述实体词集合中的实体词进行向量表征处理,得到各实体词的词向量;所述目标图嵌入模型是根据共现图对预设图嵌入模型进行训练得到的,所述共现图是基于医疗业务领域下多个样本问答文本语料包含的问题文本、答复文本以及答复账号的描述文本中分别提取的实体词构建的,所述描述文本用于指示所述答复账号在所述医疗业务领域下对应的子业务领域;所述共现图中的边具有边权重,每一边的边权重是基于每一边连接的节点的共现概率、节点类型以及节点之间的语义相似度信息中的至少一种得到的,所述节点为所述实体词,所述节点类型表征对应实体词所属的、用于描述所述医疗业务领域的预设维度;根据所述词向量之间的相似度,获取所述实体词集合中词义相近的实体词对。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述医疗业务领域关联的问答文本数据中获取所述多个样本问答文本语料,每一样本问答文本语料包括问题文本、答复文本、以及反馈所述答复文本的答复账号的描述文本;从所述问题文本中提取第一实体词,从所述答复文本中提取第二实体词,以及从所述描述文本中提取第三实体词;将所述第一实体词、所述第二实体词和所述第三实体词作为节点,并在同一样本问答文本语料的第一实体词和第二实体词之间设置边,在同一样本问答文本语料的第一实体词和第三实体词之间设置边,以及为各边设置边权重,构建所述共现图。3.根据权利要求2所述的方法,其特征在于,所述将所述第一实体词、所述第二实体词和所述第三实体词作为节点,并在同一样本问答文本语料的第一实体词和第二实体词之间设置边,在同一样本问答文本语料的第一实体词和第三实体词之间设置边,以及为各边设置边权重,构建所述共现图,包括:将所述第一实体词、所述第二实体词和所述第三实体词作为节点,并在同一样本问答文本语料的第一实体词和第二实体词之间设置边,以及在同一样本问答文本语料的第一实体词和第三实体词之间设置边,得到第一节点图;获取所述第一节点图中各节点对应的边数;将所述第一节点图中边数大于阈值的节点以及对应的边删除,得到第二节点图;为所述第二节点图中的边设置边权重,得到所述共现图。4.根据权利要求2或3所述的方法,其特征在于,所述设置边权重包括:获取目标边连接的第一目标节点和第二目标节点,所述目标边为所述共现图中的任一边;确定所述第一目标节点和所述第二目标节点的共现概率以及各自的节点类型;根据所述共现概率和所述节点类型,确定所述目标边的第一权重;获取所述第一目标节点和所述第二目标节点之间的语义相似度信息;根据所述语义相似度信息,确定所述目标边的第二权重;基于所述第一权重和/或所述第二权重...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1