基于语义相似度的新闻语句聚类方法、装置及存储介质制造方法及图纸

技术编号:17248619 阅读:33 留言:0更新日期:2018-02-11 06:49
本发明专利技术提供了一种基于语义相似度的新闻语句聚类方法,该方法包括以下步骤:对语料库的新闻语句进行预处理,提取出可用词;利用所述可用词对连续词袋模型进行训练,得到每个可用词的初始词向量;利用每个新闻语句的初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量迭代训练所述连续词袋模型,得到该新闻语句中每个可用词的当前词向量和该新闻语句的最终句子向量;将每个新闻语句的所有可用词的词向量的平均值、高频词的one‑hot向量及最终句子向量合并,得到该新闻语句的语义向量;计算语义向量之间的距离,得到不同新闻语句间的语义相似度,依此对所述语料库的新闻语句聚类。本发明专利技术还提供一种电子装置以及一种计算机可读存储介质。

【技术实现步骤摘要】
基于语义相似度的新闻语句聚类方法、装置及存储介质
本专利技术涉及计算机
,尤其涉及一种基于语义相似度的新闻语句聚类方法、装置及存储介质。
技术介绍
随着互联网技术的发展,人类拥有的信息量呈现爆炸式增长,新闻文本数据量也在急速增加。面对数量庞大的新闻语料,对语句进行聚类,可方便对同类新闻进行归纳分析,实现对新闻数据的综合利用。当前常用的新闻聚类方法在计算并比较语句相似性时往往忽略字词元素的重要性,大量多义词的存在使得此等聚类方法容易将不同类的信息聚集在一起。也有些新闻聚类方法考虑到了关键词表面文本信息背后的语义信息的作用,利用具有丰富语义概念的知识平台作为中间参考空间计算新闻语句的相似度,但难以克服聚类质量与效率之间存在的矛盾。
技术实现思路
鉴于以上原因,有必要提供一种基于语义相似度的新闻语句聚类方法、装置及存储介质,可以根据新闻语句的语义向量计算新闻语句之间的语义相似度,实现对新闻语句准确高效的聚类。为实现上述目的,本专利技术提供一种基于语义相似度的新闻语句聚类方法,该方法包括:预处理步骤:对语料库的新闻语句进行预处理,包括分词和去停用词处理,提取出所述新闻语句的可用词;词向量训本文档来自技高网...
基于语义相似度的新闻语句聚类方法、装置及存储介质

【技术保护点】
一种基于语义相似度的新闻语句聚类方法,其特征在于,该方法包括:预处理步骤:对语料库的新闻语句进行预处理,包括分词和去停用词处理,提取出所述新闻语句的可用词;词向量训练步骤:利用所述可用词对连续词袋模型进行训练,得到每个可用词的初始词向量;句子向量训练步骤:为每个新闻语句标注句子ID,将句子ID映射为对应新闻语句的初始句子向量,将该初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型,预测得到该可用词的当前词向量,每次预测更新该新闻语句的句子向量,直至预测得到该新闻语句中每个可用词的当前词向量,以最后一次更新后的句子向量作为该新闻语句的最终句子向量;向量合并步骤...

【技术特征摘要】
1.一种基于语义相似度的新闻语句聚类方法,其特征在于,该方法包括:预处理步骤:对语料库的新闻语句进行预处理,包括分词和去停用词处理,提取出所述新闻语句的可用词;词向量训练步骤:利用所述可用词对连续词袋模型进行训练,得到每个可用词的初始词向量;句子向量训练步骤:为每个新闻语句标注句子ID,将句子ID映射为对应新闻语句的初始句子向量,将该初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型,预测得到该可用词的当前词向量,每次预测更新该新闻语句的句子向量,直至预测得到该新闻语句中每个可用词的当前词向量,以最后一次更新后的句子向量作为该新闻语句的最终句子向量;向量合并步骤:从所述可用词中统计出高频词,将所述高频词以one-hot向量的形式表示,计算每个新闻语句中所有可用词的词向量的平均值,将所述新闻语句中所有可用词的词向量的平均值、高频词的one-hot向量以及最终句子向量合并,得到该新闻语句的语义向量;相似度计算步骤:计算新闻语句的语义向量之间的距离,得到新闻语句之间的语义相似度;及聚类步骤:将语义相似度大于预设阈值的新闻语句归为同一类别。2.根据权利要求1所述的新闻语句聚类方法,其特征在于,所述预处理还包括对所述新闻语句进行去除广告噪声和统一编码格式的处理。3.根据权利要求1所述的新闻语句聚类方法,其特征在于,所述预处理步骤中的分词处理可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。4.根据权利要求1所述的新闻语句聚类方法,其特征在于,所述向量合并步骤中所述可用词的词向量为初始词向量或当前词向量。5.根据权利要求1或4所述的新闻语句聚类方法,其特征在于,所述可用词的词向量采取分布式的编码方式。6.根据权利要求1所述的新闻语句聚类方...

【专利技术属性】
技术研发人员:徐冰汪伟肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1