【技术实现步骤摘要】
基于互联网社区的文本相似度确定方法及装置
[0001]本专利技术涉及数据处理
,尤其涉及一种基于互联网社区的文本相似度确定方法及装置。
技术介绍
[0002]互联网社区产品的核心在于贴评互动,大量同质化的内容无法引起用户的讨论,长久下去就会降低社区的活跃度,造成用户流失。如果能够提前识别相似的文本,对相似对文本数量进行一些控制,就能够达到让社区的观点百花齐放,活跃社区的效果。
[0003]常规的计算文本相似度的算法首先需要使用TF
‑
IDF算法对两段文本进行向量转化,然后再计算两个向量间的余弦夹角,即为两段文本的余弦相似度,不过这种方法只能反映出两条文本包含词的相似程度,并不能反映两条文本语义上的相似度。
[0004]现有技术用TF
‑
IDF算法实现对文本做向量转化,受限于TF
‑
IDF自身的特性,TF
‑
IDF只会对句子中包含的词做频率统计,而不会考虑其前后顺序。也就是说,对于两段分词后词完全相同,只是词顺序不同的文本,两段文本的向量是完全相同的。这就会导致这两条文本的相似度为1,即两条文本相似。常规句子中的词语互换可能并不影响句子表达的意思,然而如果一句话中的主语和宾语互换,比如“我吃苹果”和“苹果吃我”,就有完全不同的意思表达。
技术实现思路
[0005]为克服相关技术中存在的问题,本专利技术提供一种基于互联网社区的文本相似度确定方法及装置,同时解决相似文本数据集构建难,标出率低,常规计算文本相似度算法 ...
【技术保护点】
【技术特征摘要】
1.一种基于互联网社区的文本相似度确定方法,其特征在于,所述方法包括:对互联网社区的海量语料库进行分词处理,得到分词后的语料库;统计所述分词后的语料库中每个词语对应的逆文档频率;根据所述每个词语对应的逆文档频率,计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度,其中,将所述同一帖子下的评论文本进行两两组合,得到多个所述评论文本对;根据所述第一相似度所属的目标相似度区间,按照预设比例采集评论文本对,组成标注集,并对所述标注集进行二次标注;对二次标注后的相似评论文本对进行数据增强处理,得到数据增强后的数据集;利用预设的Bert模型和所述数据集进行循环迭代训练,以得到目标文本相似度确定模型;利用所述目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。2.根据权利要求1所述的方法,其特征在于,采用以下第一计算公式统计所述分词后的语料库中每个词语对应的逆文档频率:3.根据权利要求1所述的方法,其特征在于,根据所述每个词语对应的逆文档频率,计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度,包括:对每个评论文本对进行分词处理,得到分词后的第一评论文本和第二评论文本;分别计算所述第一评论文本和所述第二评论文本中每个词语的TF
‑
IDF值,并将所有词语按照TF
‑
IDF值从大到小的顺序进行排列;分别从所述第一评论文本和所述第二评论文本中选取排列在前的n个词语,并对所述n个词语进行向量化,得到所述第一分词向量和所述第二分词向量;计算所述第一分词向量和所述第二分词向量之间的余弦夹角,以得到所述第一相似度。4.根据权利要求1所述的方法,其特征在于,根据所述第一相似度所属的目标相似度区间,按照预设比例采集评论文本对,组成标注集,包括:当所述第一相似度大于第一阈值时,确定所述第一相似度对应的评论文本对为词汇高度相似的文本对;当所述第一相似度小于或等于所述第一阈值且大于第二阈值时,确定所述第一相似度对应的评论文本对为词汇中度相似的文本对;当所述第一相似度小于或等于所述第二阈值时,确定所述第一相似度对应的评论文本对为词汇少量相似的文本对;将所述词汇高度相似的文本对,词汇中度相似的文本对和词汇少量相似的文本对,按照预设的比例进行采样,组成所述标注集。5.根据权利要求1所述的方法,其特征在于,利用预设的Bert模型和所述数据集进行循环迭代训练,以得到目标文本相似度确定模型,包括:使用所述数据集对所述预设的Bert模型进行微调,得到初级文本相似度确定模型;使用所述初级文本相似度确定模型确定同一帖子下的评论文本对的第二相似度;
根据所述第二相似度所属的目标相似度区间,按照预设比例采集评论文本对,补充至所述标注集,并对补充后的标注集进行二次标注;对二次标注后的相似评论文本对进行数据增强处理,得到数据增强后的补充数据集;利用预设的Bert模型和所述补充数据集进行循环迭代训练,直至得到精度满足要求的目标文本相似度确定模型。6.一种基于互联网社区的文本相似度确定装置,其特征在...
【专利技术属性】
技术研发人员:刘堡萱,文成明,
申请(专利权)人:深圳市百川数安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。