基于互联网社区的文本相似度确定方法及装置制造方法及图纸

技术编号:34036692 阅读:8 留言:0更新日期:2022-07-06 12:28
本发明专利技术是关于一种基于互联网社区的文本相似度确定方法及装置,方法包括:对互联网社区的海量语料库进行分词处理,得到分词后的语料库;统计分词后的语料库中每个词语对应的逆文档频率;根据每个词语对应的逆文档频率,计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度;根据第一相似度所属的目标相似度区间,按照预设比例采集评论文本对,组成标注集,并对标注集进行二次标注;对二次标注后的相似评论文本对进行数据增强处理,得到数据增强后的数据集;利用预设的Bert模型和数据集进行循环迭代训练,以得到目标文本相似度确定模型;利用目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。间的相似度。间的相似度。

【技术实现步骤摘要】
基于互联网社区的文本相似度确定方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种基于互联网社区的文本相似度确定方法及装置。

技术介绍

[0002]互联网社区产品的核心在于贴评互动,大量同质化的内容无法引起用户的讨论,长久下去就会降低社区的活跃度,造成用户流失。如果能够提前识别相似的文本,对相似对文本数量进行一些控制,就能够达到让社区的观点百花齐放,活跃社区的效果。
[0003]常规的计算文本相似度的算法首先需要使用TF

IDF算法对两段文本进行向量转化,然后再计算两个向量间的余弦夹角,即为两段文本的余弦相似度,不过这种方法只能反映出两条文本包含词的相似程度,并不能反映两条文本语义上的相似度。
[0004]现有技术用TF

IDF算法实现对文本做向量转化,受限于TF

IDF自身的特性,TF

IDF只会对句子中包含的词做频率统计,而不会考虑其前后顺序。也就是说,对于两段分词后词完全相同,只是词顺序不同的文本,两段文本的向量是完全相同的。这就会导致这两条文本的相似度为1,即两条文本相似。常规句子中的词语互换可能并不影响句子表达的意思,然而如果一句话中的主语和宾语互换,比如“我吃苹果”和“苹果吃我”,就有完全不同的意思表达。

技术实现思路

[0005]为克服相关技术中存在的问题,本专利技术提供一种基于互联网社区的文本相似度确定方法及装置,同时解决相似文本数据集构建难,标出率低,常规计算文本相似度算法无法计算语义相似度、无法区分词语顺序等问题。
[0006]根据本专利技术实施例的第一方面,提供一种基于互联网社区的文本相似度确定方法,所述方法包括:
[0007]对互联网社区的海量语料库进行分词处理,得到分词后的语料库;
[0008]统计所述分词后的语料库中每个词语对应的逆文档频率;
[0009]根据所述每个词语对应的逆文档频率,计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度,其中,将所述同一帖子下的评论文本进行两两组合,得到多个所述评论文本对;
[0010]根据所述第一相似度所属的目标相似度区间,按照预设比例采集评论文本对,组成标注集,并对所述标注集进行二次标注;
[0011]对二次标注后的相似评论文本对进行数据增强处理,得到数据增强后的数据集;
[0012]利用预设的Bert模型和所述数据集进行循环迭代训练,以得到目标文本相似度确定模型;
[0013]利用所述目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。
[0014]在一个实施例中,优选地,采用以下第一计算公式统计所述分词后的语料库中每个词语对应的逆文档频率:
[0015][0016]在一个实施例中,优选地,根据所述每个词语对应的逆文档频率,计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度,包括:
[0017]对每个评论文本对进行分词处理,得到分词后的第一评论文本和第二评论文本;
[0018]分别计算所述第一评论文本和所述第二评论文本中每个词语的TF

IDF值,并将所有词语按照TF

IDF值从大到小的顺序进行排列;
[0019]分别从所述第一评论文本和所述第二评论文本中选取排列在前的n个词语,并对所述n个词语进行向量化,得到所述第一分词向量和所述第二分词向量;
[0020]计算所述第一分词向量和所述第二分词向量之间的余弦夹角,以得到所述第一相似度。
[0021]在一个实施例中,优选地,根据所述第一相似度所属的目标相似度区间,按照预设比例采集评论文本对,组成标注集,包括:
[0022]当所述第一相似度大于第一阈值时,确定所述第一相似度对应的评论文本对为词汇高度相似的文本对;
[0023]当所述第一相似度小于或等于所述第一阈值且大于第二阈值时,确定所述第一相似度对应的评论文本对为词汇中度相似的文本对;
[0024]当所述第一相似度小于或等于所述第二阈值时,确定所述第一相似度对应的评论文本对为词汇少量相似的文本对;
[0025]将所述词汇高度相似的文本对,词汇中度相似的文本对和词汇少量相似的文本对,按照预设的比例进行采样,组成所述标注集。
[0026]在一个实施例中,优选地,利用预设的Bert模型和所述数据集进行循环迭代训练,以得到目标文本相似度确定模型,包括:
[0027]使用所述数据集对所述预设的Bert模型进行微调,得到初级文本相似度确定模型;
[0028]使用所述初级文本相似度确定模型确定同一帖子下的评论文本对的第二相似度;
[0029]根据所述第二相似度所属的目标相似度区间,按照预设比例采集评论文本对,补充至所述标注集,并对补充后的标注集进行二次标注;
[0030]对二次标注后的相似评论文本对进行数据增强处理,得到数据增强后的补充数据集;
[0031]利用预设的Bert模型和所述补充数据集进行循环迭代训练,直至得到精度满足要求的目标文本相似度确定模型。
[0032]根据本专利技术实施例的第二方面,提供一种基于互联网社区的文本相似度确定装置,所述装置包括:
[0033]分词模块,用于对互联网社区的海量语料库进行分词处理,得到分词后的语料库;
[0034]统计模块,用于统计所述分词后的语料库中每个词语对应的逆文档频率;
[0035]计算模块,用于根据所述每个词语对应的逆文档频率,计算同一帖子下每个评论
文本对的第一分词向量和第二分词向量之间的第一相似度,其中,将所述同一帖子下的评论文本进行两两组合,得到多个所述评论文本对;
[0036]处理模块,用于根据所述第一相似度所属的目标相似度区间,按照预设比例采集评论文本对,组成标注集,并对所述标注集进行二次标注;
[0037]数据增强模块,用于对二次标注后的相似评论文本对进行数据增强处理,得到数据增强后的数据集;
[0038]训练模块,用于利用预设的Bert模型和所述数据集进行循环迭代训练,以得到目标文本相似度确定模型;
[0039]确定模块,用于利用所述目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。
[0040]在一个实施例中,优选地,采用以下第一计算公式统计所述分词后的语料库中每个词语对应的逆文档频率:
[0041][0042]在一个实施例中,优选地,所述计算模块包括:
[0043]分词单元,用于对每个评论文本对进行分词处理,得到分词后的第一评论文本和第二评论文本;
[0044]第一计算单元,用于分别计算所述第一评论文本和所述第二评论文本中每个词语的TF

IDF值,并将所有词语按照TF

IDF值从大到小的顺序进行排列;
[0045]处理单元,用于分别从所述第一评论文本和所述第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于互联网社区的文本相似度确定方法,其特征在于,所述方法包括:对互联网社区的海量语料库进行分词处理,得到分词后的语料库;统计所述分词后的语料库中每个词语对应的逆文档频率;根据所述每个词语对应的逆文档频率,计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度,其中,将所述同一帖子下的评论文本进行两两组合,得到多个所述评论文本对;根据所述第一相似度所属的目标相似度区间,按照预设比例采集评论文本对,组成标注集,并对所述标注集进行二次标注;对二次标注后的相似评论文本对进行数据增强处理,得到数据增强后的数据集;利用预设的Bert模型和所述数据集进行循环迭代训练,以得到目标文本相似度确定模型;利用所述目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。2.根据权利要求1所述的方法,其特征在于,采用以下第一计算公式统计所述分词后的语料库中每个词语对应的逆文档频率:3.根据权利要求1所述的方法,其特征在于,根据所述每个词语对应的逆文档频率,计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度,包括:对每个评论文本对进行分词处理,得到分词后的第一评论文本和第二评论文本;分别计算所述第一评论文本和所述第二评论文本中每个词语的TF

IDF值,并将所有词语按照TF

IDF值从大到小的顺序进行排列;分别从所述第一评论文本和所述第二评论文本中选取排列在前的n个词语,并对所述n个词语进行向量化,得到所述第一分词向量和所述第二分词向量;计算所述第一分词向量和所述第二分词向量之间的余弦夹角,以得到所述第一相似度。4.根据权利要求1所述的方法,其特征在于,根据所述第一相似度所属的目标相似度区间,按照预设比例采集评论文本对,组成标注集,包括:当所述第一相似度大于第一阈值时,确定所述第一相似度对应的评论文本对为词汇高度相似的文本对;当所述第一相似度小于或等于所述第一阈值且大于第二阈值时,确定所述第一相似度对应的评论文本对为词汇中度相似的文本对;当所述第一相似度小于或等于所述第二阈值时,确定所述第一相似度对应的评论文本对为词汇少量相似的文本对;将所述词汇高度相似的文本对,词汇中度相似的文本对和词汇少量相似的文本对,按照预设的比例进行采样,组成所述标注集。5.根据权利要求1所述的方法,其特征在于,利用预设的Bert模型和所述数据集进行循环迭代训练,以得到目标文本相似度确定模型,包括:使用所述数据集对所述预设的Bert模型进行微调,得到初级文本相似度确定模型;使用所述初级文本相似度确定模型确定同一帖子下的评论文本对的第二相似度;
根据所述第二相似度所属的目标相似度区间,按照预设比例采集评论文本对,补充至所述标注集,并对补充后的标注集进行二次标注;对二次标注后的相似评论文本对进行数据增强处理,得到数据增强后的补充数据集;利用预设的Bert模型和所述补充数据集进行循环迭代训练,直至得到精度满足要求的目标文本相似度确定模型。6.一种基于互联网社区的文本相似度确定装置,其特征在...

【专利技术属性】
技术研发人员:刘堡萱文成明
申请(专利权)人:深圳市百川数安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1