一种用于识别失序文本的方法与设备技术

技术编号:8466442 阅读:194 留言:0更新日期:2013-03-23 18:35
本发明专利技术的目的是提供一种用于识别失序文本的方法与设备。其中,识别设备获取待识别的目标文本;根据所述目标文本,获得与所述目标文本相对应的统计信息;根据所述统计信息,识别所述目标文本是否为失序文本。与现有技术相比,本发明专利技术根据获得的与目标文本相对应的统计信息,识别该目标文本是否为失序文本,进而实现有效的文本内容管理。

【技术实现步骤摘要】
一种用于识别失序文本的方法与设备
本专利技术涉及计算机
,尤其涉及一种用于识别失序文本的技术。
技术介绍
互联网技术的发展与应用,向人们提供了更多相互沟通的平台和交流信息的方式,例如人们可以通过论坛、贴吧等沟通平台与他人分享趣闻、对所共同关注的事件发表意见,进而,在开放的交流平台上有效地管理文本内容的需求也日益增加。现有技术可以通过对正常排序的文字进行分析管理,但是对失序文本无法有效识别,从而当有恶意或违法信息以失序文本的形式通过网络沟通平台进行发布时,网络服务器等设备无法对其进行有效识别。因此,如何有效地识别失序文本,成为本领域技术人员亟须解决的问题之一。
技术实现思路
本专利技术的目的是提供一种用于识别失序文本的方法与设备。根据本专利技术的一个方面,提供了一种用于识别失序文本的方法,该方法包括以下步骤:a获取待识别的目标文本;b根据所述目标文本,获得与所述目标文本相对应的统计信息;c根据所述统计信息,识别所述目标文本是否为失序文本。根据本专利技术的另一方面,还提供了一种用于识别失序文本的设备,该设备包括:文本获取装置,用于获取待识别的目标文本;统计信息获取装置,用于根据所述目标文本,获得与所述目标文本相对应的统计信息;识别装置,用于根据所述统计信息,识别所述目标文本是否为失序文本。与现有技术相比,本专利技术根据获得的与目标文本相对应的统计信息,识别该目标文本是否为失序文本,进而实现有效的文本内容管理。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本专利技术一个方面用于识别失序文本的设备示意图;图2示出根据本专利技术一个优选实施例的用于识别失序文本的设备示意图;图3示出根据本专利技术另一个方面用于识别失序文本的方法流程图;图4示出根据本专利技术一个优选实施例的用于识别失序文本的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本专利技术作进一步详细描述。图1示出根据本专利技术一个方面用于识别失序文本的设备示意图。识别设备1包括文本获取装置11、统计信息获取装置12和识别装置13。在此,识别设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。具体地,文本获取装置11获取待识别的目标文本。更具体地,文本获取装置11按预定周期或应事件触发实时地获取待处理的目标文本,例如通过实时监听用户通过用户设备提交的目标文本提交请求,以获取用户输入的目标文本,或者定期地通过约定的通信方式直接从第三方设备读取目标文本。例如,假设识别设备1为网络论坛服务器,用户通过用户设备在网络论坛网页的输入界面输入一段文本信息,然后,用户设备将该信息作为论坛发帖包装成http请求并通过http通信协议提交到识别设备1的文本获取装置11,接着,文本获取装置11通过实时监听用户消息,接收并解析该http请求,获取其中的文本信息并作为目标文本。再如,文本获取装置11按一定周期,定期地通过调用预定的应用编程接口(API)向第三方设备发送获取目标文本的请求,并接收该第三方设备基于该请求返回的目标文本的文档。本领域技术人员应能理解上述获取目标文本的方式仅为举例,其他现有的或今后可能出现的获取目标文本的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。随后,统计信息获取装置12根据所述目标文本,获得与所述目标文本相对应的统计信息。具体地,统计信息获取装置12根据文本获取装置11提供的目标文本,例如通过对该目标文本的每行进行字数统计,并计算获得该目标文本的行平均字数,以获取与该目标文本相对应的字数统计信息;或者通过对该目标文本进行分词处理,并统计获得分词处理后的分词处理结果中单字分词与多字分词的分布信息,如单字分词与多字分词的比例值,以获取与该目标文本相对应的统计信息。例如,统计信息获取装置12根据文本获取装置11提供的目标文本:证速件打办电办理话证将该目标文本中的每行进行字数统计,即该目标文本从上到下各行字数分别为2、2、3、3,并计算获得该目标文本的行平均字数为2.5。再如,统计信息获取装置12根据文本获取装置11提供的目标文本:进竖失行行序分文文词文本处字举理&例对该目标文本的每行文字按照最大反向匹配法进行分词处理,以获得分词处理结果如下:进/竖/失行/行/序分/文/文词/文本处/字/举理/&/例并计算该目标文本的分词处理结果中单字分词数量与多字分词数量的比例值为16∶1。本领域技术人员应能理解上述获得统计信息的方式仅为举例,其他现有的或今后可能出现的获得统计信息的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。接着,识别装置13根据所述统计信息,识别所述目标文本是否为失序文本。具体地,识别装置13根据统计信息获取装置12获取的统计信息,例如若统计信息中包括该目标文本各行的平均字数,则将该各行的平均字数与预定的各行平均字数阈值进行比较,当该各行的平均字数小于预定的各行平均字数阈值时,识别该目标文本为失序文本;若统计信息中包括对该目标文本进行分词处理所获得的分词处理结果中单字分词与多字分词的分布信息,将该分词统计信息与预设的参考统计信息进行比较,识别该目标文本是否为失序文本。例如,假设统计信息获取装置12获取的统计信息为该目标文本各行的平均字数为2.5;识别装置13根据该目标文本各行的平均字数,将该各行的平均字数与预定的各行平均字数阈值6进行比较,即2.5<6,则据该比较结果识别该目标文本为失序文本。又如,假设统计信息获取装置12获取的统计信息为将目标文本进行分词处理后获得的分词处理结果中单字分词与多字分词的分布信息,该分布信息示出该分词处理结果中单字分词数量与多字分词数量的比例值为16∶1;识别装置13根据该单字分词与多字分词的分布信息,将该比例值与自然语言中单字分词数量与多字分词数量的比例阈值3∶5进行比较,即16∶1>3∶5,据此判断该目标文本为失序文本。本领域技术人员应能理解上述识别失序文本的方式仅为举例,其他现有的或今后可能出现的识别失序文本的方式如可适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。优选地,文本获取装置11、统计信息获取装置12和识别装置13之间是持续不断地工作。具体地,文本获取装置11获取待识别的目标文本;随后,统计信息获取装置12根据所述目标文本,获得与所述目标文本相对应的统计信息;接着,识别装置13根据所述统计信息,识别所述目标文本是否为失序文本。在此,本领域技术人员应理解“持续”是指各装置分别按照设定的或实时调整的工作模式要求进行目标文本的获取、统计信息的获取、及失序文本的识别,直至文本获取装置11在较长时间内停止对待识别的目标文本的获取。图2示出根据本专利技术一个优选实施例的用于识别失序文本的设备示意图,统计信息获取装置12’还包括分词处理单元121’和分布信息获取单元122’。具体地,分词处理单元121’对所述目标文本进行分词处理,以获得与本文档来自技高网...
一种用于识别失序文本的方法与设备

【技术保护点】
一种由计算机实现的用于识别失序文本的方法,该方法包括以下步骤:a获取待识别的目标文本;b根据所述目标文本,获得与所述目标文本相对应的统计信息;c根据所述统计信息,识别所述目标文本是否为失序文本。

【技术特征摘要】
1.一种由计算机实现的用于识别失序文本的方法,该方法包括以下步骤:a获取待识别的目标文本;b根据所述目标文本,获得与所述目标文本相对应的统计信息,其中所述统计信息包括字数统计信息或分词统计信息;c根据所述统计信息,识别所述目标文本是否为失序文本,其中所述识别所述目标文本是否为失序文本的步骤包括以下任一项:-将各行的平均字数与预定的各行平均字数阈值进行比较,以识别所述目标文本是否为失序文本;-将所述目标文本的单字分词或多字分词数量作为所述分词统计信息来与预设的参考统计信息进行比较,以识别所述目标文本是否为失序文本。2.根据权利要求1所述的方法,其中,所述步骤b还包括:-对所述目标文本进行分词处理,以获得与所述目标文本相对应的分词处理结果;-对所述分词处理结果进行统计分析,以获得与所述目标文本相对应的单字分词或多字分词的统计分布信息;其中,所述步骤c还包括:-将所述统计分布信息与预设的参考分布信息进行比较,以识别所述目标文本是否为失序文本。3.根据权利要求2所述的方法,其中,所述参考分布信息包括以下至少任一项:-基于自然语言的标准分布信息;-与所述目标文本所对应的应用相关的分布信息。4.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:-按照预置的文本抽样规则,从所述目标文本中选取优选文本;其中,所述步骤b还包括:-根据所述优选文本,获得与所述优选文本相对应的统计信息。5.根据权利要求4所述的方法,其中,所述文本抽样规则基于以下至少任一项来从所述目标文本中选取所述优选文本:-选取所述目标文本中的若干行文本;-选取所述目标文本的各行中具有相同列数的文字组成的列文本。6.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:X对所述目标文本进行预处理,获得预处理文本;其中,所述步骤b还包括:-根据所述预处理文本,获得与所述预处理文本相对应的统计信息。7.根据权利要求6所述的方法,其中,所述预处理操作包括以下至少任一项:-滤除所述目标文本中的特定字符;-将所述目标文本中的异型文字转化为正常文字。8.根据权利要求7所述的方法,其中,所述预处理操作包括将所述目标文本中的异型文字转化为正常文字;其中,所述步骤X还包括:-将所述目标文本在异型文字库进行匹配映射,以使所述目标文本中的异型文字转化为正常文字。9.根据权利要求7或8所述的方法,其中,所述异型文字包括以下至少任一项:-火星文;-菊花文。10.根据权利要求1至3中任一项所述的方法,其中,所述步骤a还包括:-获取用户通过用户设备提交的待识别的目标文本;其中,该方法还包括:-将所述目标文本的识别结果提供给所述用户设备。11.一种由计算机实现的用于识别失序文本的装置,该装置包括:文本获取装置,用于获取待识...

【专利技术属性】
技术研发人员:李彦宏舒迅帅帅王波
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1