同义词的挖掘方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号:35350368 阅读:32 留言:0更新日期:2022-10-26 12:17
本申请的实施例提供了一种同义词的挖掘方法、装置、计算机可读介质及电子设备,该方法包括:获取问答语料和问答语料中包含的实体词,并确定问答语料所属的类别;生成与问答语料对应的问答语料节点以及与实体词对应的实体词节点;在多个节点之间添加具有权值的边,得到第一问答实体词图;根据第一问答实体词图和各问答语料所属的类别对原始图神经网络进行训练,得到目标图神经网络;基于目标图神经网络提取第二问答实体词图中各实体词节点对应的向量表示,并根据向量表示挖掘出同义词。本申请实施例可以提高同义词挖掘的高效性、准确性和覆盖的全面性。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。景。景。

【技术实现步骤摘要】
同义词的挖掘方法、装置、计算机可读介质及电子设备


[0001]本申请涉及机器学习
,具体而言,涉及一种同义词的挖掘方法、装置、计算机可读介质及电子设备。

技术介绍

[0002]目前,随着信息时代的进步,很多文本处理场景需要使用到同义词。
[0003]然而,现有的挖掘同义词的方法大都是通过人工方式收集同义词,这种方式不仅效率低,成本高,而且过于依赖收集人员的专业能力,同时,收集的同义词覆盖不是很全面。

技术实现思路

[0004]本申请的实施例提供了一种同义词的挖掘方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以在保证同义词挖掘的高效性和准确性的同时,进一步提高同义词覆盖的全面性。
[0005]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0006]根据本申请实施例的一个方面,提供了一种同义词的挖掘方法,所述方法包括:获取多个问答语料和各问答语料中包含的实体词,并确定各问答语料所属的类别;生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点;在多个所述节点之间添加具有权值的边,得到第一问答实体词图,所述权值用于衡量具有所述权值的边所连接的两个节点之间的相关性;根据所述第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络;基于所述用于文本分类的目标图神经网络提取第二问答实体词图中各实体词节点对应的向量表示,并根据各实体词节点对应的向量表示挖掘出同义词
[0007]根据本申请实施例的一个方面,提供了一种同义词的挖掘装置,所述装置包括:获取和确定单元,用于获取多个问答语料和各问答语料中包含的实体词,并确定各问答语料所属的类别;生成单元,用于生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点;添加单元,用于在多个所述节点之间添加具有权值的边,得到第一问答实体词图,所述权值用于衡量具有所述权值的边所连接的两个节点之间的相关性;训练单元,用于根据所述第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络;提取和挖掘单元,用于基于所述用于文本分类的目标图神经网络提取第二问答实体词图中各实体词节点对应的向量表示,并根据各实体词节点对应的向量表示挖掘出同义词。
[0008]在本申请的一些实施例中,基于前述方案,所述提取和挖掘单元配置为:确定各实体词节点对应的向量表示之间的语义距离;根据所述语义距离在各实体词节点对应的实体词中确定出同义词。
[0009]在本申请的一些实施例中,基于前述方案,所述添加单元配置为:根据目标实体词
属于目标问答语料,在所述目标实体词对应的实体词节点与所述目标问答语料对应的问答语料节点之间添加边;根据第一实体词所属的第一问答语料和第二实体词所属的第二问答语料属于同一类别,在所述第一实体词对应的实体词节点和所述第二实体词对应的实体词节点之间添加边;确定各节点之间的相关性作为各节点之间的边的权值。
[0010]在本申请的一些实施例中,基于前述方案,所述添加单元配置为:确定目标实体词和目标问答语料之间的词频

逆文档频率,作为所述目标实体词对应的实体词节点与所述目标问答语料对应的问答语料节点之间的边的权值;确定第一实体词和第二实体词之间的逐点互信息,作为所述第一实体词对应的实体词节点和所述第二实体词对应的实体词节点之间的边的权值。
[0011]在本申请的一些实施例中,基于前述方案,所述获取和确定单元配置为:获取问答平台上的若干问答语料;从所述若干问答语料中去除总浏览次数小于预定数目次或者问答语料的文本长度小于预定长度阈值的问答语料,得到多个问答语料;从各所述问答语料中提取出实体词。
[0012]在本申请的一些实施例中,基于前述方案,所述生成单元配置为:为每个问答语料生成相应的问答语料节点;对所有实体词进行去重处理,得到去重处理后的实体词;为各去重处理后的实体词生成相应的实体词节点。
[0013]在本申请的一些实施例中,基于前述方案,所述训练单元配置为:将所述第一问答实体词图输入至用于文本分类的原始图神经网络,得到所述用于文本分类的原始图神经网络对所述第一问答实体词图中问答语料节点对应的问答语料的分类结果;根据各所述问答语料所属的类别和各问答语料对应的分类结果,对所述用于文本分类的原始图神经网络的参数进行更新,得到用于文本分类的目标图神经网络。
[0014]在本申请的一些实施例中,基于前述方案,在根据各实体词节点对应的向量表示挖掘出同义词之后,所述提取和挖掘单元还用于:当接收到查询信息,在挖掘出的同义词中确定出与所述查询信息中的词匹配的目标同义词;确定包含所述目标同义词的目标语料,并将所述目标语料返回给所述查询信息的发送方。
[0015]在本申请的一些实施例中,基于前述方案,所述问答语料为医疗问答语料,所述问答语料所属的类别为医疗问答语料所属的科室或疾病。
[0016]根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的同义词的挖掘方法。
[0017]根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的同义词的挖掘方法。
[0018]根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如上述实施例中所述的同义词的挖掘方法。
[0019]在本申请的一些实施例所提供的技术方案中,通过先获取问答语料和问答语料中包含的实体词,并确定各问答语料所属的类别,然后生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点,并通过在节点之间添加具有权值的边来得到第
一问答实体词图,由于权值用于衡量节点之间的相关性,因此,第一问答实体词图是表达实体词之间或者实体词与问答语料之间的共现关系的共现图;在此基础上,通过根据第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络,并通过目标图神经网络提取实体词对应的向量表示来进行同义词挖掘,由于各问答语料所属的类别是额外提供的监督信息,因此,通过同时根据第一问答实体词图和各问答语料所属的类别进行神经网络训练,可以使得训练而成的用于文本分类的目标图神经网络能够更准确地提取实体词对应的向量表示,从而提高了同义词挖掘的效率和准确性,同时,由于问答语料中包含的实体词是预先设置的,因此,可以自由定义实体词,因此在同义词挖掘时可以覆盖口语化的实体词,能够提高同义词覆盖的全面性。...

【技术保护点】

【技术特征摘要】
1.一种同义词的挖掘方法,其特征在于,所述方法包括:获取多个问答语料和各问答语料中包含的实体词,并确定各问答语料所属的类别;生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点;在多个所述节点之间添加具有权值的边,得到第一问答实体词图,所述权值用于衡量具有所述权值的边所连接的两个节点之间的相关性;根据所述第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经网络进行训练,得到用于文本分类的目标图神经网络;基于所述用于文本分类的目标图神经网络提取第二问答实体词图中各实体词节点对应的向量表示,并根据各实体词节点对应的向量表示挖掘出同义词。2.根据权利要求1所述的同义词的挖掘方法,其特征在于,所述根据各实体词节点对应的向量表示挖掘出同义词,包括:确定各实体词节点对应的向量表示之间的语义距离;根据所述语义距离在各实体词节点对应的实体词中确定出同义词。3.根据权利要求1所述的同义词的挖掘方法,其特征在于,所述在多个所述节点之间添加具有权值的边,包括:根据目标实体词属于目标问答语料,在所述目标实体词对应的实体词节点与所述目标问答语料对应的问答语料节点之间添加边;根据第一实体词所属的第一问答语料和第二实体词所属的第二问答语料属于同一类别,在所述第一实体词对应的实体词节点和所述第二实体词对应的实体词节点之间添加边;确定各节点之间的相关性作为各节点之间的边的权值。4.根据权利要求3所述的同义词的挖掘方法,其特征在于,所述确定各节点之间的相关性作为各节点之间的边的权值,包括:确定目标实体词和目标问答语料之间的词频

逆文档频率,作为所述目标实体词对应的实体词节点与所述目标问答语料对应的问答语料节点之间的边的权值;确定第一实体词和第二实体词之间的逐点互信息,作为所述第一实体词对应的实体词节点和所述第二实体词对应的实体词节点之间的边的权值。5.根据权利要求1所述的同义词的挖掘方法,其特征在于,所述获取多个问答语料和各问答语料中包含的实体词,包括:获取问答平台上的若干问答语料;从所述若干问答语料中去除总浏览次数小于预定数目次或者问答语料的文本长度小于预定长度阈值的问答语料,得到多个问答语料;从各所述问答语料中提取出实体词。6.根据权利要求1所述的同义词的挖掘方法,其特征在于,所述生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实体词节点,包括:为每个问答语料生成相应的问答语料节点;对所有实体词进行去重处理,得到去重处理后的实体词;为各去重处理后的实体词生成相应的实体词节点。7.根据权利要求1所述的同义词的挖掘方法,其特征...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1