本发明专利技术涉及一种实体的别名挖掘方法、装置、计算机设备和存储介质。所述的方法包括:对查询文本进行中心词抽取,得到中心词;对文本数据进行实体抽取,得到实体;基于被点击声音的播放时长,确定被有效点击的声音的文本数据;基于被有效点击的声音的文本数据确定目标实体;将中心词、目标实体作为点元素,构建二部图;基于二部图确定中心词与目标实体之间的权重;基于二部图确认目标实体的中心词集合;将所述中心词集合的中心词输入词向量生成模型,得到中心词向量;将中心词集合中各中心词所对应中心词向量进行加权求和,得到目标实体的向量表示;基于各目标实体的向量表示之间的余弦相似度识别实体别名。能够挖掘出实体精确度高的别名。的别名。的别名。
【技术实现步骤摘要】
一种实体的别名挖掘方法、装置、计算机设备和存储介质
[0001]本专利技术涉及自然语言处理
,尤其是涉及一种实体的别名挖掘方法、装置、计算机设备和存储介质。
技术介绍
[0002]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
[0003]目前,基于实体的别名挖掘主要有以下两种方法:
[0004]1、基于知识库
[0005]该方法借助已有知识库(比如《哈工大信息检索研究室同义词词林扩展版》、HowNet等)得到别名。
[0006]缺点:
[0007]知识库覆盖率有限,不是每个细分领域都有;
[0008]不具备从文本中自动进行别名发现的能力,从而导致不存在于别名词典的词语召回率较低;
[0009]没有考虑词的语义;
[0010]知识库需要大量的人力物力,维护成本高,并且需要大量的专家知识。
[0011]2、基于文本上下文相关性
[0012]基于文本的上下文相关性挖掘别名的方法的基本思想是:如果两个词的上下文越相似的话,那么一个词是另一个词别名的概率就越大。使用词向量挖掘别名是比较常见的做法,比如使用word2vec训练得到词向量,然后再计算余弦相似度,取最相似的top k个词,就得到了其k个别名。
[0013]缺点:
[0014]没有考虑用户行为;
[0015]挖掘的别名很多都不是真正意义上的别名,需要人工筛选;
[0016]对于词频较低的词效果较差。
技术实现思路
[0017]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种实体的别名挖掘方法、装置、计算机设备和存储介质,能够挖掘出实体精确度高的别名。
[0018]第一方面,本专利技术实施例提供了一种实体的别名挖掘方法,所述方法包括以下步骤:
[0019]获取用户输入的查询文本,用户针对查询文本对应的查询结果的点击行为数据,
以及用户所点击声音的文本数据;所述点击行为数据包括被点击声音的播放时长;
[0020]对所述查询文本进行中心词抽取,得到中心词;
[0021]对所述文本数据进行实体抽取,得到实体;
[0022]基于被点击声音的播放时长,确定被有效点击的声音的文本数据;基于被有效点击的声音的文本数据确定目标实体;
[0023]将中心词、目标实体作为点元素,基于查询文本与声音的点击关系,中心词与查询文本的被包含关系,以及文本数据与目标实体的包含关系,构建表征中心词与目标实体之间关系的二部图;基于所述二部图确定中心词与目标实体之间的权重;基于二部图确认目标实体的中心词集合;
[0024]根据查询文本、点击行为数据、声音的文本数据,生成查询会话数据;
[0025]将所述中心词集合的中心词输入词向量生成模型,得到中心词向量;所述词向量生成模型是对预设模型进行训练得到的,所述词向量生成模型的训练数据基于查询会话数据构造;
[0026]将中心词集合中各中心词所对应中心词向量进行加权求和,得到目标实体的向量表示;基于各目标实体的向量表示之间的余弦相似度识别实体别名。
[0027]在一种实施方式中,所述将中心词、目标实体作为点元素,基于查询文本与声音的点击关系,中心词与查询文本的被包含关系,以及文本数据与目标实体的包含关系,构建表征中心词与目标实体之间关系的二部图,包括:
[0028]将中心词、查询文本、文本数据、目标实体作为点元素,基于查询文本与声音的点击关系,中心词与查询文本的被包含关系,以及文本数据与目标实体的包含关系,得到所述点元素之间的有向连接路径,进而构建有向图;
[0029]基于所述有向图构建表征中心词与目标实体之间关系的二部图。
[0030]在一种实施方式中,所述基于被点击声音的播放时长,确定被有效点击的声音的文本数据,包括:
[0031]若被点击声音的播放时长超过预设播放时长阈值,则标注该被点击声音为被有效点击的声音。
[0032]在一种实施方式中,所述方法还包括:
[0033]将目标实体的别名与预先构建的别名知识库进行融合,以对目标实体的别名进行补全。
[0034]第二方面,本专利技术实施例提供了一种实体的别名挖掘装置,所述装置包括:
[0035]获取模块,用于获取用户输入的查询文本,用户针对查询文本对应的查询结果的点击行为数据,以及用户所点击声音的文本数据;所述点击行为数据包括被点击声音的播放时长;
[0036]中心词抽取模块,用于对所述查询文本进行中心词抽取,得到中心词;
[0037]实体抽取模块,用于对所述文本数据进行实体抽取,得到实体;
[0038]目标实体确定模块,用于基于被点击声音的播放时长,确定被有效点击的声音的文本数据;基于被有效点击的声音的文本数据确定目标实体;
[0039]权重确定模块,用于将中心词、目标实体作为点元素,基于查询文本与声音的点击关系,中心词与查询文本的被包含关系,以及文本数据与目标实体的包含关系,构建表征中
心词与目标实体之间关系的二部图;基于所述二部图确定中心词与目标实体之间的权重;基于二部图确认目标实体的中心词集合;
[0040]会话数据生成模块,用于根据查询文本,点击行为数据、声音的文本数据,生成查询会话数据;
[0041]中心词向量生成模块,用于将所述中心词集合的中心词输入词向量生成模型,得到中心词向量;所述词向量生成模型是对预设模型进行训练得到的,所述词向量生成模型的训练数据基于查询会话数据构造;
[0042]别名识别模块,用于将中心词集合中各中心词所对应中心词向量进行加权求和,得到目标实体的向量表示;基于各目标实体的向量表示之间的余弦相似度识别实体别名。
[0043]在一种实施方式中,所述权重确定模块包括:
[0044]有向图构建子模块,用于将中心词、查询文本、文本数据、目标实体作为点元素,基于查询文本与声音的点击关系,中心词与查询文本的被包含关系,以及文本数据与目标实体的包含关系,得到所述点元素之间的有向连接路径,进而构建有向图;
[0045]二部图构建子模块,用于基于所述有向图构建表征中心词与目标实体之间关系的二部图。
[0046]在一种实施方式中,所述目标实体确定模块还用于若被点击声音的播放时长超过预设播放时长阈值,则标注该被点击声音为被有效点击的声音。
[0047]在一种实施方式中,所述装置还包括:
[0048]扩充模块,用于将目标实体的别名与预先构建的别名知识库进行融合,以对目标实体的别名进行补全。
[0049]第三方面,本专利技术实施例提供了一种计算机本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种实体的别名挖掘方法,其特征在于,包括:获取用户输入的查询文本,用户针对查询文本对应的查询结果的点击行为数据,以及用户所点击声音的文本数据;所述点击行为数据包括被点击声音的播放时长;对所述查询文本进行中心词抽取,得到中心词;对所述文本数据进行实体抽取,得到实体;基于被点击声音的播放时长,确定被有效点击的声音的文本数据;基于被有效点击的声音的文本数据确定目标实体;将中心词、目标实体作为点元素,基于查询文本与声音的点击关系,中心词与查询文本的被包含关系,以及文本数据与目标实体的包含关系,构建表征中心词与目标实体之间关系的二部图;基于所述二部图确定中心词与目标实体之间的权重;基于二部图确认目标实体的中心词集合;根据查询文本、点击行为数据、声音的文本数据,生成查询会话数据;将所述中心词集合的中心词输入词向量生成模型,得到中心词向量;所述词向量生成模型是对预设模型进行训练得到的,所述词向量生成模型的训练数据基于查询会话数据构造;将中心词集合中各中心词所对应中心词向量进行加权求和,得到目标实体的向量表示;基于各目标实体的向量表示之间的余弦相似度识别实体别名。2.根据权利要求1所述的方法,其特征在于,所述将中心词、目标实体作为点元素,基于查询文本与声音的点击关系,中心词与查询文本的被包含关系,以及文本数据与目标实体的包含关系,构建表征中心词与目标实体之间关系的二部图,包括:将中心词、查询文本、文本数据、目标实体作为点元素,基于查询文本与声音的点击关系,中心词与查询文本的被包含关系,以及文本数据与目标实体的包含关系,得到所述点元素之间的有向连接路径,进而构建有向图;基于所述有向图构建表征中心词与目标实体之间关系的二部图。3.根据权利要求1所述的方法,其特征在于,所述基于被点击声音的播放时长,确定被有效点击的声音的文本数据,包括:若被点击声音的播放时长超过预设播放时长阈值,则标注该被点击声音为被有效点击的声音。4.根据权利要求1至3任一项所述的方法,其特征在于,还包括:将目标实体的别名与预先构建的别名知识库进行融合,以对目标实体的别名进行补全。5.一种实体的别名挖掘装置,其特征在于,包括:获取模块,用于获取用户输入的查询文本,用户针对查询文本对应的查询结果的点击行为数据,以及用户所点击声音的文本数据;所述点击行为数据包括被点击声音的播放时长;中心词抽取模块,用于对所述查询文本进行中心词...
【专利技术属性】
技术研发人员:谭又伟,丁宁,
申请(专利权)人:广州荔支网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。