一种相似文本确定方法及装置制造方法及图纸

技术编号:23932885 阅读:64 留言:0更新日期:2020-04-25 02:05
本发明专利技术实施例提出的一种相似文本确定方法及装置,先通过预设的语义相似度算法计算两个文本的语义相似度,当语义相似度不小于预设第一阈值时确定两个文本是相似文本,当两个文本的语义相似度小于预设第一阈值且不小于预设第二阈值时,通过字面相似度算法计算两个文本的字面相似度,进一步从字面上判断两个文本是否属于相似文本,若两个文本的字面相似度不小于预设第一阈值就确定两个文本为相似文本。本方案通过采用两个相似度算法和两个阈值的方式来确定相似文本,与现有技术只通过一个相似度算法来确定相似文本相比,结果更加准确。

A method and device for determining similar text

【技术实现步骤摘要】
一种相似文本确定方法及装置
本专利技术实施例涉及语言处理
,具体涉及一种相似文本确定方法及装置。
技术介绍
热点(hotspot)通常是指比较受广大群众关注,或者欢迎的新闻或者信息,现在很多用户都会对热点事件进行关注,为了方便用户可以了解到更多的与热点事件相关的内容,现急需一种能针对信息流进行分析,提取与热点事件相关的信息(例如视频、文章、新闻报道等),从而可以推送与热点事件相关信息,为网站访问者提供更加主动的、智能化的服务。上述对问题的发现过程的描述,仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本专利技术实施例提供了一种相似文本确定方法及装置。有鉴于此,第一方面,本专利技术实施例提供一种相似文本确定方法,包括:根据预设的语义相似度算法计算两个文本之间的语义相似度;若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本;若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则本文档来自技高网...

【技术保护点】
1.一种相似文本确定方法,其特征在于,包括:/n根据预设的语义相似度算法计算两个文本之间的语义相似度;/n若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本;/n若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则根据预设的字面相似度算法计算所述两个文本之间的字面相似度,其中,所述预设第一阈值大于所述预设第二阈值;/n若所述字面相似度不小于所述预设第一阈值,则确定所述两个文本为相似文本。/n

【技术特征摘要】
1.一种相似文本确定方法,其特征在于,包括:
根据预设的语义相似度算法计算两个文本之间的语义相似度;
若所述语义相似度不小于预设第一阈值,则确定所述两个文本为相似文本;
若所述语义相似度小于所述预设第一阈值且不小于预设第二阈值,则根据预设的字面相似度算法计算所述两个文本之间的字面相似度,其中,所述预设第一阈值大于所述预设第二阈值;
若所述字面相似度不小于所述预设第一阈值,则确定所述两个文本为相似文本。


2.根据权利要求1所述的方法,其特征在于,所述语义相似度算法为余弦相似度算法;
所述根据预设的语义相似度算法计算两个文本之间的语义相似度,包括:
将所述两个文本分别输入预设的词向量转换模型,得到所述两个文本分别对应的词向量;
采用预设的余弦相似度算法计算所述两个文本分别对应的词向量之间的余弦相似度,以作为所述两个文本之间的语义相似度。


3.根据权利要求1所述的方法,其特征在于,所述根据预设的字面相似度算法计算所述两个文本之间的字面相似度,包括:
采用预设的关键词提取算法分别提取所述两个文本的关键词;
采用预设的字面相似度算法计算所述两个文本的关键词之间的相似度,以作为所述两个文本之间的字面相似度。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在预设取值区间内确定多个阈值组合,每个阈值组合包含一个第一阈值和一个小于第一阈值的第二阈值;
获取多个文本对作为样本,每个文本对中包含两个关系已知的文本,所述关系为相似文本或非相似文本;
采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,所述相关指标包括准确率、精确率、召回率和/或F1值;
确定相关指标满足预设条件的阈值组合中的第一阈值为预设第一阈值,第二阈值为预设第二阈值;
所述预设条件为阈值组合对应的一个或多个相关指标的值为所述多个阈值组合中相应的相关指标的最大值。


5.根据权利要求4所述的方法,其特征在于,采用所述样本、所述语义相似度计算方法和所述字面相似度计算方法分别计算与各个阈值组合对应的相关指标,包括:
分别选取所述多个阈值组合中的各个阈值组合作为候选阈值组合;
采用预设的语义相似度算法计算样本中各个文本对的语义相似度;
分别将各个文本对的语义相似度与所述候选阈值组合中的第一阈值进行比较,确定语义相似度不小于所述第一阈值的文本对中两个文本的关系为相似文本;
将语义相似度小于所述第一阈值的各个文本对的语义相似度分别与所述候选阈值组合中的第二阈值进行比较,确定语义相似度小于所述第二阈值的文本对中的两个文本的关系为非相似文本;
采用预设的字面相似度算法计算语义相似度小于所述第一阈值且大于所述第二阈值的各个文本对的字面相似度;
将所述字面相似度与所述第一阈值进行比较,确定字面相似度不小于所述第一阈值的文本对中的两个文本的关系为相似文本,确定字面相似度小于第二阈值的文本对中的两个文本的关系为非相似文本;
根据所述样本中各文本已知的关系以及通过计算得到的关系,计算所述候选阈值组合对应的准确率、精确率、...

【专利技术属性】
技术研发人员:付元宝顾伟王玉东
申请(专利权)人:上海众源网络有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1