【技术实现步骤摘要】
话题挖掘方法及装置
本说明书涉及自然语言处理
,尤其涉及一种话题挖掘方法及装置。
技术介绍
针对线上业务,每天会产生大量的用户反馈数据,用户会针对线上产品的使用反馈他们遇到的各种问题,而当前业务方需要花费大量的时间才能从海量数据中挖掘出用户反馈的问题。针对用户群体反馈的问题,业务方希望能以话题的方式呈现出来,这样可以帮助业务尽快锁定线上问题。在传统的话题生成方法中,通常会采用聚类算法将文本分类成若干簇,然后再对每簇中的数据做话题生成,在话题的生成方法中一般采用监督学习法(如seq2seq算法),由于监督学习法需要对数据进行标注,因此对人工有依赖,且无法通用于所有业务。
技术实现思路
一方面,本说明书一个或多个实施例提供一种话题挖掘方法,包括:提取待处理文本中的热词集,所述待处理文本中包括多个单位文本,所述热词集包括多个热词。针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集。基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相 ...
【技术保护点】
1.一种话题挖掘方法,包括:/n提取待处理文本中的热词集;所述待处理文本中包括多个单位文本;所述热词集包括多个热词;/n针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集;/n基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词;/n从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本;/n从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。/n
【技术特征摘要】
1.一种话题挖掘方法,包括:
提取待处理文本中的热词集;所述待处理文本中包括多个单位文本;所述热词集包括多个热词;
针对所述热词集中的第一热词,从所述待处理文本中聚合包括所述第一热词的第一单位文本,得到第一单位文本集;
基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词;
从所述第一单位文本集中筛选出包括所述第二热词的第二单位文本;
从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题。
2.根据权利要求1所述的方法,所述基于所述第一单位文本集,确定所述热词集中与所述第一热词之间符合预设相关条件的第二热词,包括:
基于所述第一单位文本集及所述热词集,确定所述第一热词的词共现矩阵;所述词共现矩阵中的元素包括所述第一热词与其他所述热词在所述第一单位文本中的共现信息;
根据所述词共现矩阵,确定符合所述预设相关条件的所述第二热词;所述预设相关条件包括以下至少一项:共现次数大于预设次数、共现频率大于预设频率、共现次数位于前N个、共现频率位于前M个、词相关度位于前K个;所述词相关度基于所述共现信息确定。
3.根据权利要求2所述的方法,所述基于所述第一单位文本集及所述热词集,确定所述第一热词的词共现矩阵,包括:
基于所述第一单位文本集,确定所述热词集中与所述第一热词属于共现词的第三热词;
统计所述第一热词与所述第三热词的共现信息;所述共现信息包括所述共现次数和/或所述共现频率;
基于所述共现信息构建所述第一热词的词共现矩阵。
4.根据权利要求1所述的方法,所述从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题,包括:
从所述第二单位文本中选择文本字数最少的单位文本,作为所述第一热词对应的话题。
5.根据权利要求1所述的方法,所述从所述第二单位文本中选择符合预设文本条件的单位文本,作为所述第一热词对应的话题之后,还包括:
从所述热词集中删除所述第二热词,得到更新后的热词集;
确定所述更新后的热词集中的所述热词对应的话题。
6.根据权利要求1所述的方法,还包括:
确定所述待处理文本中不属于所述热词集中各热词对应的话题的剩余文本;
判断所述剩余文本是否符合预设递归条件;所述预设递归条件包括:所述剩余文本中包括话题;
若是,则确定所述剩余文本中的话题。
7.根据权利要求1所述的方法,所述提取待处理文本中的热词集,包括:
对所述待处理文本进行预处理,得到预处理后的所述待处理文本;所述预处理包括以下至少一项:对所述待处理文本进行分词处理、合并所述待处理文本中的同义词、删除所述待处理文本中的预设符号;
提取所述预处理后的所述待处理文本中的热词集。
8.一种话题挖掘装置,包括:
提取模块,提取待处理文本中的热词集;所述待处理文本中包...
【专利技术属性】
技术研发人员:刘凡,黄修添,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。