一种百科词条标签的优化方法及系统技术方案

技术编号：16379653 阅读：34 留言：0更新日期：2017-10-15 13:33

本发明专利技术提供一种百科词条标签的优化方法，其包括以下步骤：S1：对百科词条进行判断是否有标签；若有标签，则执行步骤S2；若无标签，则执行步骤S3；S2：对有标签的词条按标签正确性作降序排序，排序后的第一个标签作为词条的最佳标签；S3：获取该无标签词条的属性词的词向量，并分别与有标签的词条的属性词的词向量进行相似度比较，从而在有标签词条中匹配出该无标签词条相似度最大的词条，并将该词条的标签作为无标签词条的标签。相比于现有技术，本发明专利技术可在合适的时间内完成标签优化工作。该方法提高了百科词条的三元组数据的标签的正确性，改善了知识本体库的质量，提高了问答系统回答用户问题的正确性。

Optimization method and system of encyclopedia entry label

The present invention provides an optimization method for Wikipedia entry label, which comprises the following steps: S1: Wikipedia entries to determine whether there is a label; if there is a label, then executing step S2; if no label, then executing step S3; S2: the label entry according to the label is correct as in descending order, the first label after sorting the label as the best entry; S3: word vector attribute words to obtain the label free entry, and word vector attribute words and tag entries were matched to the similarity comparison, the entries with the largest similarity in label free entry label entries, and the entry label as no label entry label. Compared with the existing technology, the invention can complete the label optimization work in a suitable time. This method improves the correctness of the three tuple data label of encyclopedia entries, improves the quality of knowledge ontology library, and improves the correctness of answering questions of users in question answering system.

全部详细技术资料下载

【技术实现步骤摘要】
一种百科词条标签的优化方法及系统
本专利技术涉及优化方法，特别是一种百科词条标签的优化方法及系统。
技术介绍
知识库，又称为智能数据库或人工智能数据库。知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群，是针对某一(或某些)领域问题求解的需要，采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据，由专家经验得到的启发式知识，如某领域内有关的定义、定理和运算法则以及常识性知识等。知识库有着广泛的应用，典型的应用有智能问答系统或自动问题系统或问答知识库，自动问题系统中存储着一些预设的问题，并存储预设问题对应的答案信息，在公众用户提出问题时，自动问题系统会将公众用户提出的问题与预设的问题进行匹配，若匹配成功，自动问题系统会将该预设问题对应的答案信息反馈给公众用户。在问答系统领域中，往往需要从百科中抽取结构化数据来扩展知识本体库。所要抽取的结构数据为三元组格式，即词条-词条属性-属性值。为了提高在本体库中搜索词条的速度，需要会利用词条标签对词条进行分类，以缩减搜索词条的范围，同时了解该词条所属领域。但是百科词条经常会有标签错误或无标签的情况。同时，对于词条有可能会存在多个标签，由于词条标签经常是由网民编辑的，标签质量难以保证。即使是由专业的工作人员编辑词条标签，同样会出现标签质量不高的情况。目前的方法，无法提供更好的优化效果。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足，提供了一种百科词条标签的优化方法及系统。本专利技术通过以下的方案实现：一种百科词条标签的...

【技术保护点】
一种百科词条标签的优化方法，其特征在于：包括以下步骤：S1：对百科词条进行判断是否有标签；若有标签，则执行步骤S2；若无标签，则执行步骤S3；S2：对有标签的词条按标签正确性作降序排序，排序后的第一个标签作为词条的最佳标签；S3：获取该无标签词条的属性词的词向量，并分别与有标签的词条的属性词的词向量进行相似度比较，从而在有标签词条中匹配出该无标签词条相似度最大的词条，并将该词条的标签作为无标签词条的标签。

【技术特征摘要】
1.一种百科词条标签的优化方法，其特征在于：包括以下步骤：S1：对百科词条进行判断是否有标签；若有标签，则执行步骤S2；若无标签，则执行步骤S3；S2：对有标签的词条按标签正确性作降序排序，排序后的第一个标签作为词条的最佳标签；S3：获取该无标签词条的属性词的词向量，并分别与有标签的词条的属性词的词向量进行相似度比较，从而在有标签词条中匹配出该无标签词条相似度最大的词条，并将该词条的标签作为无标签词条的标签。2.根据权利要求1所述百科词条标签的优化方法，其特征在于：所述步骤S2中具体包括：S21：对百科语料进行训练，获得word2vec模型；S22：向量化词条属性和词条标签；S23：获取词条标签向量和词条属性向量的余弦相似度；S24：将余弦相似度最大值所对应的标签作为该词条的最佳标签。3.根据权利要求1所述百科词条标签的优化方法，其特征在于：所述步骤S3中具体包括以下步骤：S31：获得无标签词条的各个属性词的词向量，将所有属性词的向量相加再取平均得到的最终的一个向量；S32：将该无标签词条的各个属性词的词向量与有标签词条的属性词向量进行相似度比较；S33：获取有标签的词条中匹配出跟无标签的词条最相近的词条，并把其标签作为无标签的词条的标签。4.根据权利要求3所述百科词条标签的优化方法，其特征在于：所述步骤S33中，在有标签的词条中匹配出跟无标签的词条最相近的词条时，具体通过：遍历全部有标签的词条，并匹配出相似度最大的词条标签；或着，通过抽取设定数量的有标签的词条，并匹配出相似度最大的词条标签；或者，通过设定一个相似度阈值，当余弦相似度大于设定的相似度阈值时，则结束匹配。5.一种百科词条标签的优化系统，其特征在于：包括判断模块、有标签词条处理模块和无标签词条处理模块；...

【专利技术属性】
技术研发人员：徐波，
申请(专利权)人：广州多益网络股份有限公司，多益网络有限公司，广东利为网络科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人