一种实体的别名挖掘方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：33788363 阅读：33 留言：0更新日期：2022-06-12 14:44

本发明专利技术涉及一种实体的别名挖掘方法、装置、计算机设备和存储介质。所述的方法包括：对查询文本进行中心词抽取，得到中心词；对文本数据进行实体抽取，得到实体；基于被点击声音的播放时长，确定被有效点击的声音的文本数据；基于被有效点击的声音的文本数据确定目标实体；将中心词、目标实体作为点元素，构建二部图；基于二部图确定中心词与目标实体之间的权重；基于二部图确认目标实体的中心词集合；将所述中心词集合的中心词输入词向量生成模型，得到中心词向量；将中心词集合中各中心词所对应中心词向量进行加权求和，得到目标实体的向量表示；基于各目标实体的向量表示之间的余弦相似度识别实体别名。能够挖掘出实体精确度高的别名。的别名。的别名。

全部详细技术资料下载

【技术实现步骤摘要】
一种实体的别名挖掘方法、装置、计算机设备和存储介质

[0001]本专利技术涉及自然语言处理
，尤其是涉及一种实体的别名挖掘方法、装置、计算机设备和存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
[0003]目前，基于实体的别名挖掘主要有以下两种方法：
[0004]1、基于知识库
[0005]该方法借助已有知识库(比如《哈工大信息检索研究室同义词词林扩展版》、HowNet等)得到别名。
[0006]缺点：
[0007]知识库覆盖率有限，不是每个细分领域都有；
[0008]不具备从文本中自动进行别名发现的能力，从而导致不存在于别名词典的词语召回率较低；
[0009]没有

【技术保护点】

【技术特征摘要】
1.一种实体的别名挖掘方法，其特征在于，包括：获取用户输入的查询文本，用户针对查询文本对应的查询结果的点击行为数据，以及用户所点击声音的文本数据；所述点击行为数据包括被点击声音的播放时长；对所述查询文本进行中心词抽取，得到中心词；对所述文本数据进行实体抽取，得到实体；基于被点击声音的播放时长，确定被有效点击的声音的文本数据；基于被有效点击的声音的文本数据确定目标实体；将中心词、目标实体作为点元素，基于查询文本与声音的点击关系，中心词与查询文本的被包含关系，以及文本数据与目标实体的包含关系，构建表征中心词与目标实体之间关系的二部图；基于所述二部图确定中心词与目标实体之间的权重；基于二部图确认目标实体的中心词集合；根据查询文本、点击行为数据、声音的文本数据，生成查询会话数据；将所述中心词集合的中心词输入词向量生成模型，得到中心词向量；所述词向量生成模型是对预设模型进行训练得到的，所述词向量生成模型的训练数据基于查询会话数据构造；将中心词集合中各中心词所对应中心词向量进行加权求和，得到目标实体的向量表示；基于各目标实体的向量表示之间的余弦相似度识别实体别名。2.根据权利要求1所述的方法，其特征在于，所述将中心词、目标实体作为点元素，基于查询文本与声音的点击关系，中心词与查询文本的被包含关系，以及文本数据与目标实体的包含关系，构建表征中心词与目标实体之间关系的二部图，包括：将中心词、查询文本、文本数据、目标实体作为点元素，基于查询文本与声音的点击关系，中心词与查询文本的被包含关系，以及文本数据与目标实体的包含关系，得到所述点元素之间的有向连接路径，进而构建有向图；基于所述有向图构建表征中心词与目标实体之间关系的二部图。3.根据权利要求1所述的方法，其特征在于，所述基于被点击声音的播放时长，确定被有效点击的声音的文本数据，包括：若被点击声音的播放时长超过预设播放时长阈值，则标注该被点击声音为被有效点击的声音。4.根据权利要求1至3任一项所述的方法，其特征在于，还包括：将目标实体的别名与预先构建的别名知识库进行融合，以对目标实体的别名进行补全。5.一种实体的别名挖掘装置，其特征在于，包括：获取模块，用于获取用户输入的查询文本，用户针对查询文本对应的查询结果的点击行为数据，以及用户所点击声音的文本数据；所述点击行为数据包括被点击声音的播放时长；中心词抽取模块，用于对所述查询文本进行中心词...

【专利技术属性】
技术研发人员：谭又伟，丁宁，
申请(专利权)人：广州荔支网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人