【技术实现步骤摘要】
谣言类文章的识别方法及装置
[0001]本专利技术涉及人工智能
,尤其涉及一种谣言类文章的识别方法及装置。
技术介绍
[0002]人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。自然语言处理(NLP,Nature Language processing)是人工智能领域中的一个重要方向,能够实现人与计算机之间用自然语言进行有效通信,文本理解是自然语言处理技术所包括的重要技术之一。
[0003]随着自媒体的兴起,在每天产生大量文章的同时也产生了许多垃圾信息,而谣言类文章就属于这些垃圾信息中较为严重的一种。由于谣言类文章的内容大都为虚假信息,而这些虚假信息很容易对用户造成误导,甚者危害用户的健康,因此对谣言类文章的识别刻不容缓。
[0004]在实际应用中,谣言类文章所归属的内容类别繁多,如娱乐类、体育类、健康类等,不同类别的谣言类文章的识别难度千差万别,而相关 ...
【技术保护点】
【技术特征摘要】
1.一种谣言类文章的识别方法,其特征在于,所述方法包括:确定待识别文章的内容所归属的内容类别;当所述内容类别为目标类别时,将所述待识别文章的内容与文章谣言库中的文本内容进行匹配,当匹配成功时,确定所述待识别文章归属于谣言类文章;当所述内容类别为非目标类别时,获取所述待识别文章的内容对应的内容向量,并将所述内容向量输入至第一谣言识别模型中,对所述待识别文章进行谣言识别,当得到的第一谣言识别结果表征所述待识别文章归属于谣言类文章的概率值超过第一预设阈值时,确定所述待识别文章归属于谣言类文章。2.如权利要求1所述的方法,其特征在于,所述文章谣言库包括第一文章谣言库和第二文章谣言库,所述第一文章谣言库中的文本内容的辨识度高于所述第二文章谣言库中的文本内容的辨识度;所述将所述待识别文章的内容与文章谣言库中的文本内容进行匹配,包括:将所述待识别文章的内容与第一文章谣言库中的文本内容进行相似度匹配,得到第一相似度值;当所述第一相似度值超过第一相似度阈值时,确定匹配成功;当所述第一相似度值未超过所述第一相似度阈值时,将所述待识别文章的内容与第二文章谣言库中的文本内容进行相似度匹配,得到第二相似度值;当所述第二相似度值超过第二相似度阈值时,确定匹配成功。3.如权利要求1所述的方法,其特征在于,所述待识别文章的内容包括标题内容和正文内容,所述获取所述待识别文章的内容对应的内容向量,包括:基于所述正文内容,确定对应所述待识别文章的摘要内容;分别对所述标题内容及所述摘要内容进行向量转换,得到对应的标题向量及摘要向量;将所述标题向量及所述摘要向量进行拼接处理,得到所述待识别文章的内容对应的内容向量。4.如权利要求3所述的方法,其特征在于,所述基于所述正文内容,确定对应所述待识别文章的摘要内容,包括:对所述正文内容进行句提取,得到对应所述待识别文章的多个目标句;根据各所述目标句中多个关键词的词权重,确定对应所述目标句的句权重;基于各所述句权重,对所述目标句进行降序排序,得到对应的句序列;从所述句序列中第一个目标句开始,选取目标数量的目标句,并将所述目标数量的目标句,作为对应所述待识别文章的摘要内容。5.如权利要求4所述的方法,其特征在于,所述根据各所述目标句中多个关键词的词权重,确定对应所述目标句的句权重,包括:分别对各所述目标句执行以下操作:对所述目标句进行关键词提取,得到对应的多个关键词;分别获取各所述关键词在所述正文内容中对应的词频、及各所述关键词的逆向文件频率;基于所述词频及所述逆向文件频率,确定对应的所述关键词的词权重;
将各所述关键词的词权重进行求和处理,得到对应所述目标句的句权重。6.如权利要求3所述的方法,其特征在于,所述分别对所述标题内容及所述摘要内容进行向量转换,得到对应的标题向量及摘要向量,包括:分别对所述标题内容及所述摘要内容进行关键词提取,得到对应所述标题内容的多个第一关...
【专利技术属性】
技术研发人员:刘飞,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。