一种百科词条标签的优化方法及系统技术方案

技术编号:16379653 阅读:34 留言:0更新日期:2017-10-15 13:33
本发明专利技术提供一种百科词条标签的优化方法,其包括以下步骤:S1:对百科词条进行判断是否有标签;若有标签,则执行步骤S2;若无标签,则执行步骤S3;S2:对有标签的词条按标签正确性作降序排序,排序后的第一个标签作为词条的最佳标签;S3:获取该无标签词条的属性词的词向量,并分别与有标签的词条的属性词的词向量进行相似度比较,从而在有标签词条中匹配出该无标签词条相似度最大的词条,并将该词条的标签作为无标签词条的标签。相比于现有技术,本发明专利技术可在合适的时间内完成标签优化工作。该方法提高了百科词条的三元组数据的标签的正确性,改善了知识本体库的质量,提高了问答系统回答用户问题的正确性。

Optimization method and system of encyclopedia entry label

The present invention provides an optimization method for Wikipedia entry label, which comprises the following steps: S1: Wikipedia entries to determine whether there is a label; if there is a label, then executing step S2; if no label, then executing step S3; S2: the label entry according to the label is correct as in descending order, the first label after sorting the label as the best entry; S3: word vector attribute words to obtain the label free entry, and word vector attribute words and tag entries were matched to the similarity comparison, the entries with the largest similarity in label free entry label entries, and the entry label as no label entry label. Compared with the existing technology, the invention can complete the label optimization work in a suitable time. This method improves the correctness of the three tuple data label of encyclopedia entries, improves the quality of knowledge ontology library, and improves the correctness of answering questions of users in question answering system.

【技术实现步骤摘要】
一种百科词条标签的优化方法及系统
本专利技术涉及优化方法,特别是一种百科词条标签的优化方法及系统。
技术介绍
知识库,又称为智能数据库或人工智能数据库。知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。知识库有着广泛的应用,典型的应用有智能问答系统或自动问题系统或问答知识库,自动问题系统中存储着一些预设的问题,并存储预设问题对应的答案信息,在公众用户提出问题时,自动问题系统会将公众用户提出的问题与预设的问题进行匹配,若匹配成功,自动问题系统会将该预设问题对应的答案信息反馈给公众用户。在问答系统领域中,往往需要从百科中抽取结构化数据来扩展知识本体库。所要抽取的结构数据为三元组格式,即词条-词条属性-属性值。为了提高在本体库中搜索词条的速度,需要会利用词条标签对词条进行分类,以缩减搜索词条的范围,同时了解该词条所属领域。但是百科词条经常会有标签错误或无标签的情况。同时,对于词条有可能会存在多个标签,由于词条标签经常是由网民编辑的,标签质量难以保证。即使是由专业的工作人员编辑词条标签,同样会出现标签质量不高的情况。目前的方法,无法提供更好的优化效果。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供了一种百科词条标签的优化方法及系统。本专利技术通过以下的方案实现:一种百科词条标签的优化方法,其包括以下步骤:S1:对百科词条进行判断是否有标签;若有标签,则执行步骤S2;若无标签,则执行步骤S3;S2:对有标签的词条按标签正确性作降序排序,排序后的第一个标签作为词条的最佳标签;S3:获取该无标签词条的属性词的词向量,并分别与有标签的词条的属性词的词向量进行相似度比较,从而在有标签词条中匹配出该无标签词条相似度最大的词条,并将该词条的标签作为无标签词条的标签。作为本专利技术的进一步改进,所述步骤S2中具体包括:S21:对百科语料进行训练,获得word2vec模型;S22:向量化词条属性和词条标签;S23:获取词条标签向量和词条属性向量的余弦相似度;S24:将余弦相似度最大值所对应的标签作为该词条的最佳标签。作为本专利技术的进一步改进,所述步骤S3中具体包括以下步骤:S31:获得无标签词条的各个属性词的词向量,将所有属性词的向量相加再取平均得到的最终的一个向量;S32:将该无标签词条的各个属性词的词向量与有标签词条的属性词向量进行相似度比较;S33:获取有标签的词条中匹配出跟无标签的词条最相近的词条,并把其标签作为无标签的词条的标签。作为本专利技术的进一步改进,所述步骤S33中,在有标签的词条中匹配出跟无标签的词条最相近的词条时,具体通过:遍历全部有标签的词条,并匹配出相似度最大的词条标签;或着,通过抽取设定数量的有标签的词条,并匹配出相似度最大的词条标签;或者,通过设定一个相似度阈值,当余弦相似度大于设定的相似度阈值时,则结束匹配。本专利技术还提供了一种百科词条标签的优化系统,其包括判断模块、有标签词条处理模块和无标签词条处理模块;所述判断模块,用于对百科词条的标签进行判断,若该词条有标签时,则发送至所述有标签词条处理模块,若该词条无标签时,则发送至所述无标签词条处理模块;所述有标签词条处理模块,用于对有标签的词条按标签正确性作降序排序,排序后的第一个标签作为词条的最佳标签;所述无标签词条处理模块,用于获取该无标签词条的属性词的词向量,并分别与有标签的词条的属性词的词向量进行相似度比较,从而在有标签词条中匹配出该无标签词条相似度最大的词条,并将该词条的标签作为无标签词条的标签。作为本专利技术的进一步改进,所述有标签词条处理模块包括:模型获取模块,用于对百科语料进行训练,获得word2vec模型;向量化模块,用于向量化词条属性和词条标签;余弦相似度获取模块,用于获取词条标签向量和词条属性向量的余弦相似度;最佳标签获取模块,用于将余弦相似度最大值所对应的标签作为该词条的最佳标签。作为本专利技术的进一步改进,所述无标签词条处理模块包括:属性词向量获取模块,用于获得无标签词条的各个属性词的词向量,将所有属性词的向量相加再取平均得到的最终的一个向量;相似度比较模块,用于将该无标签词条的各个属性词的词向量与有标签词条的属性词向量进行相似度比较;无标签词条的标签获取模块,用于获取有标签的词条中匹配出跟无标签的词条最相近的词条,并把其标签作为无标签的词条的标签。作为本专利技术的进一步改进,所述无标签词条的标签获取模块具体通过:遍历全部有标签的词条,并匹配出相似度最大的词条标签;或着,通过抽取设定数量的有标签的词条,并匹配出相似度最大的词条标签;或者,通过设定一个相似度阈值,当余弦相似度大于设定的相似度阈值时,则结束匹配。相比于现有技术,本专利技术可在合适的时间内完成标签优化工作。该方法提高了百科词条的三元组数据的标签的正确性,改善了知识本体库的质量,提高了问答系统回答用户问题的正确性。为了更好地理解和实施,下面结合附图详细说明本专利技术。附图说明图1是本专利技术的百科词条标签优化方法的步骤流程图。图2是本步骤S2的具体步骤流程图。图3是本步骤S3的具体步骤流程图。图4是本专利技术的百科词条标签优化系统的连接框图。具体实施方式以下结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。为了解决现有技术的缺陷,本专利技术提供了一种百科词条标签的优化方法和系统,具体通过以下实施例进行介绍:请参阅图1,其为本专利技术的百科词条标签优化方法的步骤流程图。本专利技术的百科词条标签的优化方法,其包括以下步骤:S1:对百科词条进行判断是否有标签;若有标签,则执行步骤S2;若无标签,则执行步骤S3;S2:对有标签的词条按标签正确性作降序排序,排序后的第一个标签作为词条的最佳标签。具体的请同时参阅图2,其为本步骤S2的具体步骤流程图。所述步骤S2中包括:S21:对百科语料进行训练,获得word2vec模型。S22:向量化词条属性和词条标签。S23:获取词条标签向量和词条属性向量的余弦相似度。S24:将余弦相似度最大值所对应的标签作为该词条的最佳标签。S3:获取该无标签词条的属性词的词向量,并分别与有标签的词条的属性词的词向量进行相似度比较,从而在有标签词条中匹配出该无标签词条相似度最大的词条,并将该词条的标签作为无标签词条的标签。具体的请同时参阅图2,其为本步骤S3的具体步骤流程图。所述步骤S3中包括以下步骤:S31:获得无标签词条的各个属性词的词向量,将所有属性词的向量相加再取平均得到的最终的一个向量。通过word2vec得到的词向量是类似[0.792,-0.188,-0.235,0.104,-0.343,...]这样类似的一个几十到几百维的向量。因为每一个词的维度是一样的。所以,可以把两个向量相加,作为两个词的向量。所以,所有属性词的向量表示,就是把所有属性词的向量相加再取平均得到的最终的一个向量。词条的多个属性,就可以融合为一个向量。S32:将该无标签词条的各个属性词的词向量与有标签词条的属性词向量本文档来自技高网...
一种百科词条标签的优化方法及系统

【技术保护点】
一种百科词条标签的优化方法,其特征在于:包括以下步骤:S1:对百科词条进行判断是否有标签;若有标签,则执行步骤S2;若无标签,则执行步骤S3;S2:对有标签的词条按标签正确性作降序排序,排序后的第一个标签作为词条的最佳标签;S3:获取该无标签词条的属性词的词向量,并分别与有标签的词条的属性词的词向量进行相似度比较,从而在有标签词条中匹配出该无标签词条相似度最大的词条,并将该词条的标签作为无标签词条的标签。

【技术特征摘要】
1.一种百科词条标签的优化方法,其特征在于:包括以下步骤:S1:对百科词条进行判断是否有标签;若有标签,则执行步骤S2;若无标签,则执行步骤S3;S2:对有标签的词条按标签正确性作降序排序,排序后的第一个标签作为词条的最佳标签;S3:获取该无标签词条的属性词的词向量,并分别与有标签的词条的属性词的词向量进行相似度比较,从而在有标签词条中匹配出该无标签词条相似度最大的词条,并将该词条的标签作为无标签词条的标签。2.根据权利要求1所述百科词条标签的优化方法,其特征在于:所述步骤S2中具体包括:S21:对百科语料进行训练,获得word2vec模型;S22:向量化词条属性和词条标签;S23:获取词条标签向量和词条属性向量的余弦相似度;S24:将余弦相似度最大值所对应的标签作为该词条的最佳标签。3.根据权利要求1所述百科词条标签的优化方法,其特征在于:所述步骤S3中具体包括以下步骤:S31:获得无标签词条的各个属性词的词向量,将所有属性词的向量相加再取平均得到的最终的一个向量;S32:将该无标签词条的各个属性词的词向量与有标签词条的属性词向量进行相似度比较;S33:获取有标签的词条中匹配出跟无标签的词条最相近的词条,并把其标签作为无标签的词条的标签。4.根据权利要求3所述百科词条标签的优化方法,其特征在于:所述步骤S33中,在有标签的词条中匹配出跟无标签的词条最相近的词条时,具体通过:遍历全部有标签的词条,并匹配出相似度最大的词条标签;或着,通过抽取设定数量的有标签的词条,并匹配出相似度最大的词条标签;或者,通过设定一个相似度阈值,当余弦相似度大于设定的相似度阈值时,则结束匹配。5.一种百科词条标签的优化系统,其特征在于:包括判断模块、有标签词条处理模块和无标签词条处理模块;...

【专利技术属性】
技术研发人员:徐波
申请(专利权)人:广州多益网络股份有限公司多益网络有限公司广东利为网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1