【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种短文本特征扩展及拟合特征库构建方法、装置,其中,所述短文本特征扩展方法包括:a、获取待扩展短文本;b、删除待扩展短文本中无表意能力的项目,得到拟合短文本;c、在拟合特征库中查询拟合短文本,若查到,将拟合短文本的特征项作为扩展特征项返回,否则转到d;d、省略拟合短文本中重要性权值最低的项目,得到省略短文本;e、判断省略短文本中所有项目的重要性权值之和是否小于阈值,若是,返回无结果,否则转到f;f、在拟合特征库中查询省略短文本,若查询到,将省略短文本的特征项作为扩展特征项返回,否则将省略短文本作为拟合短文本,返回d。本专利技术降低了短文本特征扩展过程中的转义风险,提高了特征扩展准确率。【专利说明】短文本特征扩展及拟合特征库构建方法、装置
本专利技术涉及计算机文本处理技术,具体涉及一种短文本特征扩展及拟合文本特征库构建方法、装置。
技术介绍
随着电子邮件、网络论坛和微型博客等应用的广泛使用,在互联网范围内产生了大量的文本信息数据,并且这些信息通常只是片断性的描述说明或观点评论,只有很短的文字内容,因此被称之为短文本。面对互联网迅猛 ...
【技术保护点】
一种短文本特征扩展方法,其特征在于,包括:a、获取待扩展的短文本信息;b、删除所述待扩展的短文本信息中无表意能力的项目,得到拟合的短文本信息;c、在拟合特征库中查询所述拟合的短文本信息,若查询到,将与所述拟合的短文本信息相匹配的特征项作为扩展特征项,返回所述扩展特征项,否则执行步骤d;d、省略所述拟合的短文本信息中重要性权值最低的项目,得到省略的短文本信息;e、判断所述省略的短文本信息中所有项目的重要性权值之和是否小于用户指定的阈值,若是,返回无结果,否则执行步骤f;f、在拟合特征库中查询所述省略的短文本信息,若查询到,将与所述省略的短文本信息相匹配的特征项作为扩展特征项, ...
【技术特征摘要】
【专利技术属性】
技术研发人员:李大任,田浩,冼健,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。