在文本中确定语义关键词的方法和装置制造方法及图纸

技术编号：12482339 阅读：112 留言：0更新日期：2015-12-10 19:24

本发明专利技术涉及一种在文本中确定语义关键词的方法和装置。该方法包括：在网络资源中进行挖掘，获得词或词组与词或词组作为语义关键词的概率的二元组集合；在文本中抽取样本集合，基于所获得的二元组集合在样本集合中获取正样本集合；将样本集合去除正样本集合后的集合中的每一个样本与正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合；从样本集合去除正样本集合后的集合中再去除负样本集合来获得未标注样本集合；基于正样本集合、负样本集合和未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理领域，更具体地涉及一种在文本中确定语义关键词的方法和装置。
技术介绍
随着文本信息快速增长，如何从海量、非结构化的文本内容中挖掘出能够表示文本语义信息的语义关键词是智能信息处理领域亟待解决的问题之一，利用文本的语义关键词能够更有效地进行文本信息的表示、索引、共享和检索，同时支持多种应用，如基于内容的广告词推荐系统、问答系统、查询词的精简、扩展系统以及辅助话题追踪系统等等。因此，需要一种能够在文本中确定语义关键词的方法和装置。
技术实现思路
在下文中给出关于本专利技术的简要概述，以便提供关于本专利技术的某些方面的基本理解。应当理解，这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分，也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。本专利技术的一个主要目的在于，提供一种在文本中确定语义关键词的方法，包括：在网络资源中进行挖掘，获得词或词组与所述词或词组作为语义关键词的概率的二元组集合；在所述文本中抽取样本集合，基于所获得的所述二元组集合在所述样本集合中获取正样本集合；将所述样本集合去除所述正样本集合后的集合中的每一个样本与所述正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合；从所述样本集合去除所述正样本集合后的集合中再去除所述负样本集合来获得未标注样本集合；以及基于所述正样本集合、所述负样本集合和所述未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于所述语义关键词识别模型...

【技术保护点】
一种在文本中确定语义关键词的方法，包括：在网络资源中进行挖掘，获得词或词组与所述词或词组作为语义关键词的概率的二元组集合；在所述文本中抽取样本集合，基于所获得的所述二元组集合在所述样本集合中获取正样本集合；将所述样本集合去除所述正样本集合后的集合中的每一个样本与所述正样本集合中的正样本进行比较，根据比较的相似度结果来获得负样本集合；从所述样本集合去除所述正样本集合后的集合中再去除所述负样本集合来获得未标注样本集合；以及基于所述正样本集合、所述负样本集合和所述未标注样本集合，利用分类算法来迭代训练语义关键词识别模型，基于所述语义关键词识别模型来获得语义关键词集合和/或非语义关键词集合。

【技术特征摘要】

【专利技术属性】
技术研发人员：缪庆亮，孟遥，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人