The invention discloses an Internet information chain storage method, device, computer equipment and storage medium. The methods include: acquiring the website information of the webpage to be monitored, real-time monitoring the data information published in the webpage to be monitored according to the website information of the webpage to be monitored in order to obtain the new data information; judging whether the file in the new data information is a text file or not; if the file in the new data information is a non-text file, non-text will be recognized through the preset information recognition model. Files are converted to text files; text files and/or converted text files in new data information are saved to the default data link list. The invention is based on data compression storage technology, which can ensure that the information stored in the data link list can not be deleted and modified, and can facilitate users to obtain deleted data information on the Internet to assist users in forensic of relevant data information, and has great practical value.
【技术实现步骤摘要】
互联网信息链式存储方法、装置、计算机设备及存储介质
本专利技术涉及计算机
,尤其涉及一种互联网信息链式存储方法、装置、计算机设备及存储介质。
技术介绍
互联网中各网页上保存有海量的数据信息,且新增数据信息会逐渐更替网页中已保存的数据信息,造成网页中的数据信息发生更迭变化的情况,因而现有对互联网中的数据信息进行存储方法无法对互联网上已删除或已修改的数据信息进行获取,在司法实践中对互联网上所发布的相关数据信息进行取证存在极大的困难。因此,现有的数据信息存储方法无法获取已删除数据信息。
技术实现思路
本专利技术实施例提供了一种互联网信息链式存储方法、装置、计算机设备及存储介质,旨在解决现有技术中数据信息存储方法无法获取已删除数据信息的问题。第一方面,本专利技术实施例提供了一种互联网信息链式存储方法,其包括:获取待监控网页的网址信息,根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息;对新增数据信息中的文件是否为文字文件进行判断;若新增数据信息中的文件为非文字文件,通过预设信息识别模型将非文字文件转换为文字文件;将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中。第二方面,本专利技术实施例提供了一种互联网信息链式存储装置,其包括:网页监控单元,用于获取待监控网页的网址信息,根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息;判断单元,用于对新增数据信息中的文件是否为文字文件进行判断;信息转换单元,用于若新增数据信息中的文件为非文字文件,通过预设信息识别模型将非文字文件转换为文 ...
【技术保护点】
1.一种互联网信息链式存储方法,其特征在于,包括:获取待监控网页的网址信息,根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息;对新增数据信息中的文件是否为文字文件进行判断;若新增数据信息中的文件为非文字文件,通过预设信息识别模型将非文字文件转换为文字文件;将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中。
【技术特征摘要】
1.一种互联网信息链式存储方法,其特征在于,包括:获取待监控网页的网址信息,根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息;对新增数据信息中的文件是否为文字文件进行判断;若新增数据信息中的文件为非文字文件,通过预设信息识别模型将非文字文件转换为文字文件;将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中。2.根据权利要求1所述的互联网信息链式存储方法,其特征在于,所述根据待监控网页的网址信息对待监控网页中所发布的数据信息进行实时监控以获取新增数据信息,包括:若监控到待监控网页中发布数据信息,根据待监控网页的网址信息及所述数据信息的发布人生成发布源信息;根据所述数据信息的发布时间生成发布时间戳;获取所述发布数据信息中的所有文件及发布源信息、发布时间戳以得到新增数据信息。3.根据权利要求1所述的互联网信息链式存储方法,其特征在于,所述通过预设信息识别模型将非文字文件转换为文字文件,包括:获取所述非文字文件的格式信息并判断该文件是否为音频文件,若该文件为音频文件则通过信息识别模型中的音频识别模型对该文件进行识别以得到相应的文字文件;获取所述非文字文件的格式信息并判断该文件是否为图片,若该文件为图片则通过信息识别模型中图片识别模型的对该文件进行识别以得到相应的文字文件;获取所述非文字文件的格式信息并判断该文件是否为视频文件,若该文件为视频文件则通过信息识别模型中的音频识别模型及图片识别模型对该文件进行识别以得到相应的文字文件。4.根据权利要求3所述的互联网信息链式存储方法,其特征在于,所述若该文件为音频文件则通过信息识别模型中的音频识别模型对该文件进行识别以得到相应的文字文件,包括:根据音频识别模型中的声学模型对音频文件中的语音信息进行切分以得到语音信息中所包含的多个音素;根据音频识别模型中的语音特征词典对所得到的音素进行匹配以将所有音素转换为拼音信息;根据音频识别模型中的语义解析模型对所得到的拼音信息进行语义解析以得到包含文字信息的文字文件。5.根据权利要求2所述的互联网信息链式存储方法,其特征在于,所述将新增数据信息中的文字文件和/或转换得到的文字文件保存至预设数据链表中,包括:获取待监控网页中新增数据信息的发布源信息及发布时间戳;根据发布源信息将新增数据信息中...
【专利技术属性】
技术研发人员:吴壮伟,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。