基于聊天时间的关键词提取方法及装置制造方法及图纸

技术编号：12268038 阅读：133 留言：0更新日期：2015-10-31 15:06

本发明专利技术公开了一种基于聊天时间的关键词提取方法及装置，通过获取历史聊天文本，对历史聊天文本进行预处理，获得特征项文本，预处理包括分词、去除停用词，统计特征项文本的词频数，计算特征项文本的平均聊天时间差，平均聊天时间差为每一个特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差，基于特征项文本的词频数和平均聊天时间差获取关键词，解决了仅仅根据特征项文本的词频数提取关键词可能导致提取的关键词不准确或并非是用户真正感兴趣的关键词的技术问题，实现了结合聊天时间进行关键词的提取，从而使得提取的关键词更准确，更与时俱进和个性化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通讯领域，特别地，涉及一种基于聊天时间的关键词提取方法及装置。
技术介绍
随着通信技术的发展，越来越多的用户喜欢在移动终端与好友进行聊天，且通过对用户的聊天文本进行分析可以获得聊天文本的关键词，从而获得用户感兴趣的内容。现有对聊天文本提取关键词的方法层出不穷，例如最常见的是基于词频数的方法提取关键词，具体地，首先对聊天文本进行分词等预处理操作，获得特征项文本，然后计算特征项文本的词频数，最后再基于词频数的大小提取关键词。仅仅根据特征项文本的词频数作为关键词提取的指标，可能会出现一些不是用户真正感兴趣的关键词。例如当两个对电视剧都感兴趣的聊天双方于2014年主要讨论的电视剧为"来自星星的你"，而于2015年主要讨论的电视剧为"武则天"，故经分词后的有关 "武则天"电视剧的特征项文本(例如"范冰冰"）的词频数可能远远小于2014年的"来自星星的你"的特征项文本(例如"炸鸡、啤酒"）的词频数，而类似"炸鸡、啤酒"关键词内容的流行度在2015年已经消退了，故用户对这种尽管词频数较大的关键词并不感兴趣。因此，亟需提供一种能根据...

【技术保护点】
一种基于聊天时间的关键词提取方法，其特征在于，包括：获取历史聊天文本；对所述历史聊天文本进行预处理，获得特征项文本，所述预处理包括分词、去除停用词；统计所述特征项文本的词频数；计算所述特征项文本的平均聊天时间差，所述平均聊天时间差为每一个所述特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差；基于所述特征项文本的词频数和平均聊天时间差获取关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈包容，
申请(专利权)人：陈包容，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人