一种与文本背景时间相关的不合规信息检测方法技术

技术编号：39838949 阅读：8 留言：0更新日期：2023-12-29 16:25

在不合规信息中有相当一部分信息与文本背景时间息息相关。本发明专利技术提供了一种与文本背景时间相关的不合规信息的检测方法，通过识别文本语义包含的背景时间，判定与背景时间相关的疑似不合规信息是否合规。文本语义包含的背景时间与文本写作时间、发表时间毫无关联，必须通过背景时间识别算法进行确定。通过识别文本背景时间，可以减少正常信息的误报，提高不合规信息判断的准确率。合规信息判断的准确率。合规信息判断的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种与文本背景时间相关的不合规信息检测方法

[0001]本专利技术涉及中英文自然语言处理、信息检索领域，更具体地说是涉及与文本背景时间相关的不合规信息检测方法。
技术背景
[0002]中文作为一种复杂的象形文字，存在较多形似、音似字，且由于历史文化的发展，还出现了一些异体字。在信息技术普及之前，属于传统的书籍出版时代，各类信息由具备较高文化素养的知识分子撰写，并经过出版社或编辑部编辑的审校，较少出现错别字和不合规信息。但随着信息技术的发展，人们日益使用计算机编写各类文档，尤其在互联网时代，信息传播加速，各类信息呈爆炸性增长。在互联网时代，尤其是自媒体爆炸发展的当今，越来越多的人成为互联网信息的提供者，这些人的文化素养良莠不齐，且不再有专业文字编辑的审校，错误信息的出现日渐频繁。
[0003]信息爆炸使得人工即时检查变得困难。大量的已经产生的信息，随着时间的推移，也可能出现新的与当前经济和政治形势相关的不合规问题。目前，针对上述棘手问题已出现了多种技术手段，最常见的是基于关键词的信息过滤技术。与文本时间相关的不合规信息无法通过基于关键词的信息过滤技术识别。基于搜索引擎文件索引的方法是另一种常见技术手段，该方法适合对大量文件的批量处理，同样无法识别与文本背景时间相关的不合规信息。
[0004]相当数量的不合规信息与文本的背景时间密切相关。举例来说，广西壮族自治区成立于1958年3月5日。假定某2022年发表的文章，讨论的是1955年广西的相关事情，使用“广西省”的说法是可以的。同样，假定某2022年发表的...

【技术保护点】

【技术特征摘要】
1.一种与文本背景时间相关的不合规信息检测方法，其特征在于，所述方法包括：步骤A：整理不合规信息资源，区分是否与文本背景时间相关，并记录相关的背景时间和正确表述；步骤B：对传入的文本流进行段落和句子的划分，通过背景时间识别算法对句子进行背景时间识别，记录句子背景时间；步骤C：根据一定算法确定其它没有背景时间的句子的背景时间；步骤D：对文本的每个句子做正向最大匹配分词处理，顺序扫描切分的词语，如果检测到疑似不合规信息，则根据该信息关联的时间和句子的背景时间，判定是否合规，对判定不合规的信息，返回其正确表述。2.如权利要求1所述的一种与文本背景时间相关的不合规信息检测方法，其特征在于，所述步骤B中的背景时间识别算法具体包括：（1）寻找句子中以阿拉伯数字计数的年份，比如1956年，识别年份；（2）寻找句子中以中文数字计数的年份，比如一九九六年，识别年份；（3）寻找句子中以纪年计数的年份，比如康熙十二年、康德十一年、二十世纪20年代等，换算为公元纪年；（4）寻找句子中特色历史时期或特殊人物，比如某某战争时期、某人等，以特色历史时期或特殊人物定位年份；（5）寻找句子中的特殊时间格式，比如（1949
‑
2009），取最大值作为年份。若某句子中包含多个背景时间，取最大时间为句子背景时间。3.如权利要求1所述的一种与文本背景时间相关的不合规信息检测方法，其特征在于，所述步骤B还包含识别标题的背景时间作为全局重要时间参考。4.如权利要求1所述的一种与文本...

【专利技术属性】
技术研发人员：张庆国，
申请(专利权)人：同方知网数字出版技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人