当前位置: 首页 > 专利查询>陈包容专利>正文

基于聊天时间的关键词提取方法及装置制造方法及图纸

技术编号:12268038 阅读:106 留言:0更新日期:2015-10-31 15:06
本发明专利技术公开了一种基于聊天时间的关键词提取方法及装置,通过获取历史聊天文本,对历史聊天文本进行预处理,获得特征项文本,预处理包括分词、去除停用词,统计特征项文本的词频数,计算特征项文本的平均聊天时间差,平均聊天时间差为每一个特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差,基于特征项文本的词频数和平均聊天时间差获取关键词,解决了仅仅根据特征项文本的词频数提取关键词可能导致提取的关键词不准确或并非是用户真正感兴趣的关键词的技术问题,实现了结合聊天时间进行关键词的提取,从而使得提取的关键词更准确,更与时俱进和个性化。

【技术实现步骤摘要】

本专利技术涉及通讯领域,特别地,涉及一种基于聊天时间的关键词提取方法及装置
技术介绍
随着通信技术的发展,越来越多的用户喜欢在移动终端与好友进行聊天,且通过 对用户的聊天文本进行分析可以获得聊天文本的关键词,从而获得用户感兴趣的内容。现 有对聊天文本提取关键词的方法层出不穷,例如最常见的是基于词频数的方法提取关键 词,具体地,首先对聊天文本进行分词等预处理操作,获得特征项文本,然后计算特征项文 本的词频数,最后再基于词频数的大小提取关键词。 仅仅根据特征项文本的词频数作为关键词提取的指标,可能会出现一些不是用户 真正感兴趣的关键词。例如当两个对电视剧都感兴趣的聊天双方于2014年主要讨论的电 视剧为"来自星星的你",而于2015年主要讨论的电视剧为"武则天",故经分词后的有关 "武则天"电视剧的特征项文本(例如"范冰冰")的词频数可能远远小于2014年的"来自星 星的你"的特征项文本(例如"炸鸡、啤酒")的词频数,而类似"炸鸡、啤酒"关键词内容的流 行度在2015年已经消退了,故用户对这种尽管词频数较大的关键词并不感兴趣。因此,亟 需提供一种能根据用户的聊天时间提取关键词的方法及装置。
技术实现思路
本专利技术提供了一种基于聊天时间的关键词提取方法及装置,以解决仅仅根据特征 项文本的词频数提取关键词可能导致提取的关键词不准确或并非是用户真正感兴趣的关 键词的技术问题。 根据本专利技术的一方面,提供了一种基于聊天时间的关键词提取方法,包括: 获取历史聊天文本; 对历史聊天文本进行预处理,获得特征项文本,预处理包括分词、去除停用词; 统计特征项文本的词频数; 计算特征项文本的平均聊天时间差,平均聊天时间差为每一个特征项文本所处的历史 聊天文本对应的系统时间与当前系统时间的平均时间差; 基于特征项文本的词频数和平均聊天时间差获取关键词。 进一步地,基于特征项文本的词频数和平均聊天时间差获取关键词包括: 根据特征项文本的平均聊天时间差计算特征项文本的聊天时间系数,聊天时间系数的 计算公式为:,其中代表聊天时间系数,代表特征项文本的平均聊天时间差; 将特征项文本的词频数与其对应的聊天时间系数的乘积作为特征项文本的关键度; 选取关键度大于预设阈值的特征项文本作为关键词。 进一步地,历史聊天文本为与当前聊天对象的历史聊天文本,和/或与其他聊天 对象的历史聊天文本。 进一步地,基于特征项文本的词频数和平均聊天时间差获取关键词之后还包括: 将关键词进彳丁尚壳显不。 进一步地,将关键词进彳丁尚壳显不包括: 判断关键词是否均包含于聊天双方的历史聊天文本中,若是,则将关键词在聊天双方 的当前聊天文本中同时进行高亮显示, 若否,则只在发送包含关键词的聊天文本对应的聊天方进行高亮显示。 进一步地,将关键词进彳丁尚壳显不之后还包括: 采用模糊搜索机制在预先建立的数据库和/或互联网上搜索并弹框显示与关键词对 应的搜索结果页面。 根据本专利技术的另一方面,提供了一种基于聊天时间的关键词提取装置,包括: 历史聊天文本获取装置,用于获取历史聊天文本; 预处理装置,用于对历史聊天文本进行预处理,获得特征项文本,预处理包括分词、去 除停用词; 词频数统计装置,用于统计特征项文本的词频数; 平均时间差计算装置,用于计算特征项文本的平均聊天时间差,平均聊天时间差为每 一个特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差; 关键词获取装置,用于基于特征项文本的词频数和平均聊天时间差获取关键词。 进一步地,关键词获取装置包括: 聊天时间系数计算装置,用于根据特征项文本的平均聊天时间差计算特征项文本的聊 天时间系数,聊天时间系数的计算公式为:,其中代表聊天时间系数,代表特征项文本的平 均聊天时间差; 关键度计算装置,用于将特征项文本的词频数与其对应的聊天时间系数的乘积作为特 征项文本的关键度; 选取装置,用于选取关键度大于预设阈值的特征项文本作为关键词。 进一步地,基于聊天时间的关键词提取装置还包括: 尚壳显不装置,用于将关键词进彳丁尚壳显不。 进一步地,基于聊天时间的关键词提取装置还包括: 搜索装置,用于采用模糊搜索机制在预先建立的数据库和/或互联网上搜索并弹框显 示与关键词对应的搜索结果页面。 本专利技术具有以下有益效果: 本专利技术公开了的基于聊天时间的关键词提取方法及装置,通过获取历史聊天文本,对 历史聊天文本进行预处理,获得特征项文本,预处理包括分词、去除停用词,统计特征项文 本的词频数,计算特征项文本的平均聊天时间差,平均聊天时间差为每一个特征项文本所 处的历史聊天文本对应的系统时间与当前系统时间的平均时间差,基于特征项文本的词频 数和平均聊天时间差获取关键词,解决了仅仅根据特征项文本的词频数提取关键词可能导 致提取的关键词不准确或并非是用户真正感兴趣的关键词的技术问题,实现了结合聊天时 间进行关键词的提取,从而使得提取的关键词更准确,更与时倶进和个性化。 除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。 下面将参照图,对本专利技术作进一步详细的说明。【附图说明】构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实 施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中: 图1是本专利技术优选实施例的基于聊天时间的关键词提取方法的流程图; 图2是本专利技术优选实施例针对一个精简的实施例的基于聊天时间的关键词提取方法 的流程图; 图3是本专利技术优选实施例的基于聊天时间的关键词提取装置的结构示意图。 附图标记说明: 10、历史聊天文本获取装置;20、预处理装置;30、词频数统计装置;40、平均时间差计 算装置;50、关键词获取装置。【具体实施方式】以下结合附图对本专利技术的实施例进行详细说明,但是本专利技术可以由权利要求限定 和覆盖的多种不同方式实施。 参照图1,本专利技术的优选实施例提供了一种基于聊天时间的关键词提取方法,包 括: 步骤S101,获取历史聊天文本; 步骤S102,对历史聊天文本进行预处理,获得特征项文本,预处理包括分词、去除停用 词; 步骤S103,统计特征项文本的词频数; 步骤S104,计算特征项文本的平均聊天时间差,平均聊天时间差为每一个特征项文本 所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差; 步骤S105,基于特征项文本的词频数和平均聊天时间差获取关键词。 本专利技术优选实施例的基于聊天时间的关键词提取方法,通过获取历史聊天文本, 对历史聊天文本进行预处理,获得特征项文本,预处理包括分词、去除停用词,统计特征项 文本的词频数,计算特征项文本的平均聊天时间差,平均聊天时间差为每一个特征项文本 所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差,基于特征项文本的词 频数和平均聊天时间差获取关键词,解决了仅仅根据特征项文本的词频数提取关键词可能 导致提取的关键词不准确或并非是用户真正感兴趣的关键词的技术问题,实现了结合聊天 时间进行关键词的提取,从而使得提取的关键词更准确,更与时倶进和个性化。本实施例通 过对历史聊天文本的分析,智能提取聊天过程中关键词,整个过程无需人工参与且智能化 程度高。[0当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种基于聊天时间的关键词提取方法,其特征在于,包括:获取历史聊天文本;对所述历史聊天文本进行预处理,获得特征项文本,所述预处理包括分词、去除停用词;统计所述特征项文本的词频数;计算所述特征项文本的平均聊天时间差,所述平均聊天时间差为每一个所述特征项文本所处的历史聊天文本对应的系统时间与当前系统时间的平均时间差;基于所述特征项文本的词频数和平均聊天时间差获取关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈包容
申请(专利权)人:陈包容
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1