一种与文本背景时间相关的不合规信息检测方法技术

技术编号:39838949 阅读:8 留言:0更新日期:2023-12-29 16:25
在不合规信息中有相当一部分信息与文本背景时间息息相关。本发明专利技术提供了一种与文本背景时间相关的不合规信息的检测方法,通过识别文本语义包含的背景时间,判定与背景时间相关的疑似不合规信息是否合规。文本语义包含的背景时间与文本写作时间、发表时间毫无关联,必须通过背景时间识别算法进行确定。通过识别文本背景时间,可以减少正常信息的误报,提高不合规信息判断的准确率。合规信息判断的准确率。合规信息判断的准确率。

【技术实现步骤摘要】
一种与文本背景时间相关的不合规信息检测方法


[0001]本专利技术涉及中英文自然语言处理、信息检索领域,更具体地说是涉及与文本背景时间相关的不合规信息检测方法。
技术背景
[0002]中文作为一种复杂的象形文字,存在较多形似、音似字,且由于历史文化的发展,还出现了一些异体字。在信息技术普及之前,属于传统的书籍出版时代,各类信息由具备较高文化素养的知识分子撰写,并经过出版社或编辑部编辑的审校,较少出现错别字和不合规信息。但随着信息技术的发展,人们日益使用计算机编写各类文档,尤其在互联网时代,信息传播加速,各类信息呈爆炸性增长。在互联网时代,尤其是自媒体爆炸发展的当今,越来越多的人成为互联网信息的提供者,这些人的文化素养良莠不齐,且不再有专业文字编辑的审校,错误信息的出现日渐频繁。
[0003]信息爆炸使得人工即时检查变得困难。大量的已经产生的信息,随着时间的推移,也可能出现新的与当前经济和政治形势相关的不合规问题。目前,针对上述棘手问题已出现了多种技术手段,最常见的是基于关键词的信息过滤技术。与文本时间相关的不合规信息无法通过基于关键词的信息过滤技术识别。基于搜索引擎文件索引的方法是另一种常见技术手段,该方法适合对大量文件的批量处理,同样无法识别与文本背景时间相关的不合规信息。
[0004]相当数量的不合规信息与文本的背景时间密切相关。举例来说,广西壮族自治区成立于1958年3月5日。假定某2022年发表的文章,讨论的是1955年广西的相关事情,使用“广西省”的说法是可以的。同样,假定某2022年发表的文章,讨论的是1959年广西的相关事情,则必须使用“广西壮族自治区”或“广西”的说法,使用“广西省”的说法不再合规。这突出反映了文本背景时间的重要性。
[0005]因此,使用技术手段识别文本信息中与背景时间相关的不合规信息,减少误判,提高文本审核效率,是摆在各出版社、报刊杂志、政府网站、新闻网站、论坛网站等信息传播源管理人员面前的亟待解决的问题,也是净化网络环境,营造晴朗网络空间的内在要求。

技术实现思路

[0006]为此,本专利技术提供了一种与文本背景时间相关的不合规信息检测方法,通过自然语言处理技术和信息检索技术,可以完成与文本背景时间相关的不合规信息的实时检测。本专利技术支持中文、英文以及中英文和数字混合的不合规信息的检测。
[0007]为达成上述目标,本专利技术提供的技术方案,包含以下内容:
[0008]1.不合规信息资源整理
[0009]整理不合规信息资源,区分是否与文本背景时间相关,并记录相关的背景时间和正确表述。
[0010]2.背景时间识别
[0011]对传入的文本流,按照GBK编码读入内存。对文本进行段落和句子的划分,记录段落和句子的起始和结束位置。对句子进行背景时间识别,记录句子背景时间,若某句子中包含多个背景时间,取最大时间为句子背景时间。识别标题的背景时间作为全局重要时间参考。
[0012]3.确定其它没有背景时间的句子的背景时间
[0013]根据算法确定其它没有背景时间的句子的背景时间。若标题含有背景时间,则所有没有背景时间的句子的背景时间为标题的背景时间;若标题无背景时间,则按段确定句子背景时间,若某段中所有句子均未识别到背景时间,则该段所有句子背景时间设为当前年份;若某段包含单一背景时间,则全段所有未包含背景时间的句子统一赋值为该单一背景时间;若某段中包含多个句子多个背景时间,则根据算法确定其它没有背景时间的句子的背景时间。
[0014]4.识别与背景时间相关的不合规信息并获取其正确表述
[0015]顺序扫描文本流数据,对文本的每个句子做正向最大匹配分词处理。顺序扫描切分的词语,如果检测到疑似不合规信息,则根据该信息关联的时间和文本的背景时间,判定是否合规。具体判定规则与该不合规信息分类相关。对判定不合规的信息,返回其正确表述。
附图说明
[0016]图1图示出了一种与文本背景时间相关的不合规信息检测方法的示意图。
实施方式
[0017]为使本专利技术的技术方案更加清晰明白,以下对本专利技术所述方案作进一步地详细说明。
[0018]本专利技术提供了一种与文本背景时间相关的不合规信息的检测方法,通过自然语言处理技术和信息检索技术,可以有效检测与文本背景时间相关的不合规信息。参照附图,本专利技术提供的方法包含如下步骤:
[0019]1.不合规信息资源整理
[0020]参考国家相关法律法规和管理规范,整理不合规信息,区分是否与文本背景时间相关,并记录相关的背景时间和正确表述。
[0021]2.句子背景时间识别
[0022]对传入的文本流,按照GBK编码读入内存。对文本进行段落和句子的划分,记录段落和句子的起始和结束位置。对段落和句子进行时间识别,记录句子和段落背景时间。具体的识别方法如下:(1)寻找句子中以阿拉伯数字计数的年份,比如1956年,识别年份;(2)寻找句子中以中文数字计数的年份,比如一九九六年,识别年份;(3)寻找句子中以纪年计数的年份,比如康熙十二年、康德十一年、二十世纪20年代等,换算为公元纪年年份;(4)寻找特色历史时期或特殊人物,比如某某战争时期、某人等,以特色历史时期或特殊人物定位年份;(5)寻找句子中的特殊时间格式,比如(1949

2009)等,取最大值作为年份。
[0023]若某句子中包含多个时间,取最大时间为句子背景时间。
[0024]识别标题的背景时间作为全局重要时间参考。
[0025]3.无背景时间的句子的背景时间设置
[0026]若标题含有背景时间,则所有没有背景时间的句子的背景时间为标题的背景时间;若标题无背景时间,则按段确定句子背景时间,若某段中所有句子均未识别到背景时间,则该段所有句子背景时间设为当前年份;若某段包含单一背景时间,则全段所有未包含背景时间的句子统一赋值为该单一背景时间;若某段中包含多个句子多个背景时间,则根据算法确定其它没有背景时间的句子的背景时间,算法如下:(1)第一个句子如果有背景时间,其后连续的没有背景时间的句子,赋值为第一个句子的背景时间;(2)第一个句子若无背景时间,则顺序查找到第一个具有背景时间的句子N,前N

1个句子的背景时间赋值为第N个句子的背景时间;(3)依次顺序扫描,若句子J

K(K>=J)没有背景时间,则J

K句子的背景时间赋值为J

1句子的背景时间;(4)重复步骤(3)直到所有句子完成背景时间赋值。
[0027]4.与背景时间相关的不合规信息识别并获取正确表述
[0028]与背景时间相关的不合规信息检测以句子为处理单位。对句子进行正向最大匹配分词处理,也可采用其它分词算法。顺序扫描切分的词语,如果检测到疑似不合规信息,则比较该信息关联的时间和文本的背景时间,如果该信息关联的时间小于等于句子的背景时间,通常认为是不合规表述;如果该信息关联的时间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种与文本背景时间相关的不合规信息检测方法,其特征在于,所述方法包括:步骤A:整理不合规信息资源,区分是否与文本背景时间相关,并记录相关的背景时间和正确表述;步骤B:对传入的文本流进行段落和句子的划分,通过背景时间识别算法对句子进行背景时间识别,记录句子背景时间;步骤C:根据一定算法确定其它没有背景时间的句子的背景时间;步骤D:对文本的每个句子做正向最大匹配分词处理,顺序扫描切分的词语,如果检测到疑似不合规信息,则根据该信息关联的时间和句子的背景时间,判定是否合规,对判定不合规的信息,返回其正确表述。2.如权利要求1所述的一种与文本背景时间相关的不合规信息检测方法,其特征在于,所述步骤B中的背景时间识别算法具体包括:(1)寻找句子中以阿拉伯数字计数的年份,比如1956年,识别年份;(2)寻找句子中以中文数字计数的年份,比如一九九六年,识别年份;(3)寻找句子中以纪年计数的年份,比如康熙十二年、康德十一年、二十世纪20年代等,换算为公元纪年;(4)寻找句子中特色历史时期或特殊人物,比如某某战争时期、某人等,以特色历史时期或特殊人物定位年份;(5)寻找句子中的特殊时间格式,比如(1949

2009),取最大值作为年份。若某句子中包含多个背景时间,取最大时间为句子背景时间。3.如权利要求1所述的一种与文本背景时间相关的不合规信息检测方法,其特征在于,所述步骤B还包含识别标题的背景时间作为全局重要时间参考。4.如权利要求1所述的一种与文本...

【专利技术属性】
技术研发人员:张庆国
申请(专利权)人:同方知网数字出版技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1