基于自媒体信息的信息溯源方法、装置和设备制造方法及图纸

技术编号:38274534 阅读:17 留言:0更新日期:2023-07-27 10:27
本发明专利技术涉及一种基于自媒体信息的信息溯源方法、装置和设备,属于文件溯源技术领域,对待溯源文本进行拆分并确定标识待溯源文本突发性的主体部分特征和描述部分特征,组合后去除无效组合特征,交叉验证有效组合特征,在属于同一事件时对拆解后的实体部分和描述部分进行扩展,组合得到无歧义表达式,在回溯特征库中进行全文检索,得到时间最早的文本信息为目标溯源文本信息。采用本申请的技术方案,由于在插接待溯源文本后,根据待溯源文本的突发特异性得到具体特征,并根据该特征进行溯源处理,提升了溯源准确性;由于对目标文本信息的主体部分(地域或实体)和描述部分进行了扩展,提升了与自媒体形态的匹配性,从而提升了溯源的准确性。的准确性。的准确性。

【技术实现步骤摘要】
基于自媒体信息的信息溯源方法、装置和设备


[0001]本专利技术涉及文件溯源
,具体涉及一种基于自媒体信息的信息溯源方法、装置和设备。

技术介绍

[0002]信息溯源在信息处理、保护知识产权等多方面具有重要作用。当前,传统的互联网信息溯源方式通常为人工提取每条事件信息中的主要描述句或者使用TF

IDF(term frequency

inverse document frequency,)等方式提取事件信息中文本的主题词,然后在ES(ElsticSearch,搜索服务)等全文检索数据库中进行检索,获取最早发布的一条信息作为信息的首发溯源地。
[0003]但是在自媒体时代,微博和短视频等往往是信息的首发点,然后才会进行新闻类语言转化后进行传播,而微博和短视频等通常会将信息以自媒体形态进行发送,自媒体形态的信息中可能并不具备传统的主要描述句或主题词,这就使得传统的互联网信息溯源方式难以适应自媒体时代的信息溯源。
[0004]因此,如何在自媒体时代准确对信息进行溯源,成为现有技术中亟待解决的技术问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种基于自媒体信息的信息溯源方法、装置和设备,以克服目前自媒体形态的信息中可能并不具备传统的主要描述句或主题词,使得传统的互联网信息溯源方式难以适应自媒体时代的信息溯源的问题。
[0006]为实现以上目的,本专利技术采用如下技术方案:
[0007]一方面,一种基于自媒体信息的信息溯源方法,包括:
[0008]确定待溯源文本;
[0009]对所述待溯源文本进行拆解,得到所述待溯源文本的至少一个主体部分和至少一个描述部分;
[0010]在所述至少一个主体部分和至少一个描述部分中确定主体部分特征和描述部分特征,并对所述主体部分特征和描述部分特征进行组合,得到不同组合特征;其中,所述主体部分特征和描述部分特征标识所述待溯源文本的特性;
[0011]基于每个组合特征的哈希结果在回溯特征库中查找每个所述组合特征的出现时间,所述出现时间包括出现日期和出现分钟点;其中,所述回溯特征库内存储有不同组合特征和对应的出现时间;
[0012]基于预设无效特征排除规则和每个组合特征对应的出现时间,排除无效组合特征,得到有效组合特征;其中,所述预设无效特征排除规则标识了无效特征和出现时间对应关系;
[0013]交叉判断每个所述有效组合特征是否属于同一事件,当所述有效组合特征属于同
一事件时,将每个有效组合特征对应的目标文本信息进行特征拆解,得到每个目标文本信息的主体部分和描述部分;
[0014]分别扩展每个目标文本信息的主体部分和描述部分,并组合扩展后的每个目标文本信息的主体部分和描述部分,得到无歧义表达式;
[0015]根据所述无歧义表达式的哈希结果在所述回溯特征库中查找与所述无歧义表示式相匹配的组合特征,作为目标组合特征,并确定出现时间最早的目标组合特征对应的文本信息为所述待溯源文本的目标溯源文本信息。
[0016]可选的,还包括:
[0017]获取预设时长内的自媒体信息,每条所述自媒体信息包括:文本信息和出现时间;
[0018]将每条所述文本信息进行特征拆解,得到至少一个主体部分和至少一个描述部分,并对所述主体部分和描述部分进行组合,得到不同组合特征;
[0019]将所述组合特征哈希化,存储每个组合特征的哈希结果及出现时间,构建回溯特征库。
[0020]可选的,所述预设无效特征排除规则,包括:
[0021]若任一组合特征在预设时长的每个单位时长中出现的单位时长的个数与所述预设时长的总共单位时长的个数之比大于第一阈值,则确定所述组合特征为常规特征,需要排除;其中,所述预设时长为所述回溯特征库在构建时所采用的数据的对应时长;和/或,
[0022]若任一组合特征的出现日期早于所有组合特征的最大共现日期至少第二阈值,则确定所述组合特征为无效组合特征;其中,所述最大共现日期为出现日期的出现次数最多的出现日期。
[0023]可选的,所述交叉判断每个所述有效组合特征是否属于同一事件,包括:
[0024]获取每个所述有效组合特征对应的目标文本信息,两两计算每个目标文本信息之间的海明距离;
[0025]若所述海明距离大于等于第三阈值,则判断所述海明距离对应的有效组合特征属于同一事件。
[0026]可选的,还包括:
[0027]若所述海明距离小于第三阈值,则判断所述海明距离对应的有效组合特征属于不同事件;
[0028]删除所述不同事件对应的有效组合特征中的目标有效组合特征;其中,所述目标有效组合特征为与其他有效组合特征均属于不同事件的有效组合特征。
[0029]可选的,所述分别扩展每个目标文本信息的主体部分和描述部分,包括:
[0030]将每个目标文本信息的主体部分利用地域关联性或实体关联性进行扩展,得到扩展后的目标文本信息的主体部分;
[0031]将每个目标文本信息的描述部分利用word2vec算法进行扩展,得到扩展后的目标文本信息的描述部分。
[0032]可选的,所述将每个目标文本信息的主体部分利用地域关联性或实体关联性进行扩展,还包括:将每个目标文本信息的主体部分利用所述目标文本信息的内容地址或所述目标文本信息的作者地域进行扩展;其中,所述目标文本信息的内容地址和所述目标文本信息的作者地域为根据所述目标文本信息获得。
[0033]可选的,所述组合扩展后的每个目标文本信息的主体部分和描述部分,得到无歧义表达式,包括:
[0034]在所述扩展后的每个目标文本信息的主体部分和描述部分中确定扩展后主体部分特征和扩展后描述部分特征;
[0035]组合扩展后主体部分特征和扩展后描述部分特征,得到无歧义表达式。
[0036]又一方面,一种基于自媒体信息的信息溯源装置,包括:
[0037]确定模块,用于确定待溯源文本;
[0038]拆解模块,用于对所述待溯源文本进行拆解,得到所述待溯源文本的至少一个主体部分和至少一个描述部分;
[0039]确定组合模块,用于在所述至少一个主体部分和至少一个描述部分中确定主体部分特征和描述部分特征,并对所述主体部分特征和描述部分特征进行组合,得到不同组合特征;其中,所述主体部分特征和描述部分特征标识所述待溯源文本的特性;
[0040]查找模块,用于基于每个组合特征的哈希结果在回溯特征库中查找每个所述组合特征的出现时间,所述出现时间包括出现日期和出现分钟点;其中,所述回溯特征库内存储有不同组合特征和对应的出现时间;
[0041]排除模块,用于基于预设无效特征排除规则和每个组合特征对应的出现时间,排除无效组合特征,得到有效组合特征;其中,所述预设无效特征排除规则标识了无效特征和出现时间对应关系;
[0042]判断模块,用于交叉判断每个所述有效组合特征是否属于同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自媒体信息的信息溯源方法,其特征在于,包括:确定待溯源文本;对所述待溯源文本进行拆解,得到所述待溯源文本的至少一个主体部分和至少一个描述部分;在所述至少一个主体部分和至少一个描述部分中确定主体部分特征和描述部分特征,并对所述主体部分特征和描述部分特征进行组合,得到不同组合特征;其中,所述主体部分特征和描述部分特征标识所述待溯源文本的特性;基于每个组合特征的哈希结果在回溯特征库中查找每个所述组合特征的出现时间,所述出现时间包括出现日期和出现分钟点;其中,所述回溯特征库内存储有不同组合特征和对应的出现时间;基于预设无效特征排除规则和每个组合特征对应的出现时间,排除无效组合特征,得到有效组合特征;其中,所述预设无效特征排除规则标识了无效特征和出现时间对应关系;交叉判断每个所述有效组合特征是否属于同一事件,当所述有效组合特征属于同一事件时,将每个有效组合特征对应的目标文本信息进行特征拆解,得到每个目标文本信息的主体部分和描述部分;分别扩展每个目标文本信息的主体部分和描述部分,并组合扩展后的每个目标文本信息的主体部分和描述部分,得到无歧义表达式;根据所述无歧义表达式的哈希结果在所述回溯特征库中查找与所述无歧义表示式相匹配的组合特征,作为目标组合特征,并确定出现时间最早的目标组合特征对应的文本信息为所述待溯源文本的目标溯源文本信息。2.根据权利要求1所述的方法,其特征在于,还包括:获取预设时长内的自媒体信息,每条所述自媒体信息包括:文本信息和出现时间;将每条所述文本信息进行特征拆解,得到至少一个主体部分和至少一个描述部分,并对所述主体部分和描述部分进行组合,得到不同组合特征;将所述组合特征哈希化,存储每个组合特征的哈希结果及出现时间,构建回溯特征库。3.根据权利要求1所述的方法,其特征在于,所述预设无效特征排除规则,包括:若任一组合特征在预设时长的每个单位时长中出现的单位时长的个数与所述预设时长的总共单位时长的个数之比大于第一阈值,则确定所述组合特征为常规特征,需要排除;其中,所述预设时长为所述回溯特征库在构建时所采用的数据的对应时长;和/或,若任一组合特征的出现日期早于所有组合特征的最大共现日期至少第二阈值,则确定所述组合特征为无效组合特征;其中,所述最大共现日期为出现日期的出现次数最多的出现日期。4.根据权利要求1所述的方法,其特征在于,所述交叉判断每个所述有效组合特征是否属于同一事件,包括:获取每个所述有效组合特征对应的目标文本信息,两两计算每个目标文本信息之间的海明距离;若所述海明距离大于等于第三阈值,则判断所述海明距离对应的有效组合特征属于同一事件。5.根据权利要求4所述的方法,其特征在于,还包括:
若所述海明距离小于第三阈值,则判断所述海明距离对应的有效组合特征属于不同事件;删除所述不同事件对应的有效组合特征中的目标有效组合特征;其中,所述目标有效组合特征为与其他有效组合特征均属于不同事件的有效组合...

【专利技术属性】
技术研发人员:赵冲
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1