一种提取文本主题词的方法技术

技术编号:2912183 阅读:332 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例公开了一种提取文本主题词的方法,该方法包括:将待处理文本分成现有词的组合序列;对于每一待处理文本,查找并提取在该待处理文本中的出现频率大于预定频率的候选字符串,根据该候选字符串的前缀和/或后缀的成词概率,从候选字符串中过滤出新词;根据现有词和新词在所述待处理文本中的出现频率,从所述现有词和新词中提取所述待处理文本的主题词。应用本发明专利技术能够提高从待处理文本中提取的主题词的全面性。

【技术实现步骤摘要】

本专利技术涉及互联网信息处理
,尤其涉及一种提取文本主题词的 方法。
技术介绍
提取文本主题词是很多网络应用都需要面临的技术问题。例如,在基于 内容的网络广告应用中,需要提取用户当前浏览的网页内容的主题词,然后向该用户发送与该主题词相关的广告;在搜索引擎建立索引时,需要提取搜 索到的各个文本的主题词,然后根据从各个文本提取到的主题词建立各个文 本的索引,从而提高检索效率;在基于内容的文本分类中,也需要提取能够 反映文本内容的主题词,然后根据提取到的主题词进行文本分类。目前,提取文本主题词的普遍方法是首先建立大规模语料库,其中存 储有大量的文本,根据大规模语料库建立语言词库,该语言词库中涵盖了从 大规模语料库中统计得到的现有词。在提取待处理文本的主题词时,对待处 理文本进行分词处理,将待处理文本分成现有词的组合序列,例如,采用通 用的基于二元词模型的方法对待处理文本中的各个句子进行切分。然后将待 处理文本中的现有词在所述大规模语料库中的词频或者文档频率或者逆文 档频率(TFIDF),在词频或者文档频率或者TFIDF在第一预定范围内时, 将相应现有词提取为待处理文本的主题词。可见本文档来自技高网...

【技术保护点】
一种提取文本主题词的方法,其特征在于,该方法包括: 将待处理文本切分成现有词的组合序列; 对于每一待处理文本,查找并提取在该待处理文本中的出现频率大于预定频率的候选字符串,根据该候选字符串的前缀和/或后缀的成词概率,从候选字符串 中过滤出新词; 根据新词和所述组合序列中的现有词在所述待处理文本中的出现频率,从所述现有词和所述新词中提取所述待处理文本的主题词。

【技术特征摘要】

【专利技术属性】
技术研发人员:方高林郑全战
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1