基于互联网社区的文本相似度确定方法及装置制造方法及图纸

技术编号：34036692 阅读：30 留言：0更新日期：2022-07-06 12:28

本发明专利技术是关于一种基于互联网社区的文本相似度确定方法及装置，方法包括：对互联网社区的海量语料库进行分词处理，得到分词后的语料库；统计分词后的语料库中每个词语对应的逆文档频率；根据每个词语对应的逆文档频率，计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度；根据第一相似度所属的目标相似度区间，按照预设比例采集评论文本对，组成标注集，并对标注集进行二次标注；对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的数据集；利用预设的Bert模型和数据集进行循环迭代训练，以得到目标文本相似度确定模型；利用目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。间的相似度。间的相似度。

全部详细技术资料下载

【技术实现步骤摘要】
基于互联网社区的文本相似度确定方法及装置

[0001]本专利技术涉及数据处理
，尤其涉及一种基于互联网社区的文本相似度确定方法及装置。

技术介绍

[0002]互联网社区产品的核心在于贴评互动，大量同质化的内容无法引起用户的讨论，长久下去就会降低社区的活跃度，造成用户流失。如果能够提前识别相似的文本，对相似对文本数量进行一些控制，就能够达到让社区的观点百花齐放，活跃社区的效果。
[0003]常规的计算文本相似度的算法首先需要使用TF
‑
IDF算法对两段文本进行向量转化，然后再计算两个向量间的余弦夹角，即为两段文本的余弦相似度，不过这种方法只能反映出两条文本包含词的相似程度，并不能反映两条文本语义上的相似度。
[0004]现有技术用TF
‑
IDF算法实现对文本做向量转化，受限于TF
‑
IDF自身的特性，TF
‑
IDF只会对句子中包含的词做频率统计，而不会考虑其前后顺序。也就是说，对于两段分词后词完全相同，只是词顺序不同的文本，两段文本的...

【技术保护点】

【技术特征摘要】
1.一种基于互联网社区的文本相似度确定方法，其特征在于，所述方法包括：对互联网社区的海量语料库进行分词处理，得到分词后的语料库；统计所述分词后的语料库中每个词语对应的逆文档频率；根据所述每个词语对应的逆文档频率，计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度，其中，将所述同一帖子下的评论文本进行两两组合，得到多个所述评论文本对；根据所述第一相似度所属的目标相似度区间，按照预设比例采集评论文本对，组成标注集，并对所述标注集进行二次标注；对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的数据集；利用预设的Bert模型和所述数据集进行循环迭代训练，以得到目标文本相似度确定模型；利用所述目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。2.根据权利要求1所述的方法，其特征在于，采用以下第一计算公式统计所述分词后的语料库中每个词语对应的逆文档频率：3.根据权利要求1所述的方法，其特征在于，根据所述每个词语对应的逆文档频率，计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度，包括：对每个评论文本对进行分词处理，得到分词后的第一评论文本和第二评论文本；分别计算所述第一评论文本和所述第二评论文本中每个词语的TF
‑
IDF值，并将所有词语按照TF
‑
IDF值从大到小的顺序进行排列；分别从所述第一评论文本和所述第二评论文本中选取排列在前的n个词语，并对所述n个词语进行向量化，得到所述第一分词向量和所述第二分词向量；计算所述第一分词向量和所述第二分词向量之间的余弦夹角，以得到所述第一相似度。4.根据权利要求1所述的方法，其特征在于，根据所述第一相似度所属的目标相似度区间，按照预设比例采集评论文本对，组成标注集，包括：当所述第一相似度大于第一阈值时，确定所述第一相似度对应的评论文本对为词汇高度相似的文本对；当所述第一相似度小于或等于所述第一阈值且大于第二阈值时，确定所述第一相似度对应的评论文本对为词汇中度相似的文本对；当所述第一相似度小于或等于所述第二阈值时，确定所述第一相似度对应的评论文本对为词汇少量相似的文本对；将所述词汇高度相似的文本对，词汇中度相似的文本对和词汇少量相似的文本对，按照预设的比例进行采样，组成所述标注集。5.根据权利要求1所述的方法，其特征在于，利用预设的Bert模型和所述数据集进行循环迭代训练，以得到目标文本相似度确定模型，包括：使用所述数据集对所述预设的Bert模型进行微调，得到初级文本相似度确定模型；使用所述初级文本相似度确定模型确定同一帖子下的评论文本对的第二相似度；
根据所述第二相似度所属的目标相似度区间，按照预设比例采集评论文本对，补充至所述标注集，并对补充后的标注集进行二次标注；对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的补充数据集；利用预设的Bert模型和所述补充数据集进行循环迭代训练，直至得到精度满足要求的目标文本相似度确定模型。6.一种基于互联网社区的文本相似度确定装置，其特征在...

【专利技术属性】
技术研发人员：刘堡萱，文成明，
申请(专利权)人：深圳市百川数安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人