一种用于识别失序文本的方法与设备技术

技术编号：8466442 阅读：215 留言：0更新日期：2013-03-23 18:35

本发明专利技术的目的是提供一种用于识别失序文本的方法与设备。其中，识别设备获取待识别的目标文本；根据所述目标文本，获得与所述目标文本相对应的统计信息；根据所述统计信息，识别所述目标文本是否为失序文本。与现有技术相比，本发明专利技术根据获得的与目标文本相对应的统计信息，识别该目标文本是否为失序文本，进而实现有效的文本内容管理。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于识别失序文本的方法与设备
本专利技术涉及计算机
，尤其涉及一种用于识别失序文本的技术。
技术介绍
互联网技术的发展与应用，向人们提供了更多相互沟通的平台和交流信息的方式，例如人们可以通过论坛、贴吧等沟通平台与他人分享趣闻、对所共同关注的事件发表意见，进而，在开放的交流平台上有效地管理文本内容的需求也日益增加。现有技术可以通过对正常排序的文字进行分析管理，但是对失序文本无法有效识别，从而当有恶意或违法信息以失序文本的形式通过网络沟通平台进行发布时，网络服务器等设备无法对其进行有效识别。因此，如何有效地识别失序文本，成为本领域技术人员亟须解决的问题之一。
技术实现思路
本专利技术的目的是提供一种用于识别失序文本的方法与设备。根据本专利技术的一个方面，提供了一种用于识别失序文本的方法，该方法包括以下步骤：a获取待识别的目标文本；b根据所述目标文本，获得与所述目标文本相对应的统计信息；c根据所述统计信息，识别所述目标文本是否为失序文本。根据本专利技术的另一方面，还提供了一种用于识别失序文本的设备，该设备包括：文本获取装置，用于获取待识别的目标文本；统计信息获取装...
一种用于识别失序文本的方法与设备

【技术保护点】
一种由计算机实现的用于识别失序文本的方法，该方法包括以下步骤：a获取待识别的目标文本；b根据所述目标文本，获得与所述目标文本相对应的统计信息；c根据所述统计信息，识别所述目标文本是否为失序文本。

【技术特征摘要】
1.一种由计算机实现的用于识别失序文本的方法，该方法包括以下步骤：a获取待识别的目标文本；b根据所述目标文本，获得与所述目标文本相对应的统计信息，其中所述统计信息包括字数统计信息或分词统计信息；c根据所述统计信息，识别所述目标文本是否为失序文本，其中所述识别所述目标文本是否为失序文本的步骤包括以下任一项：-将各行的平均字数与预定的各行平均字数阈值进行比较，以识别所述目标文本是否为失序文本；-将所述目标文本的单字分词或多字分词数量作为所述分词统计信息来与预设的参考统计信息进行比较，以识别所述目标文本是否为失序文本。2.根据权利要求1所述的方法，其中，所述步骤b还包括：-对所述目标文本进行分词处理，以获得与所述目标文本相对应的分词处理结果；-对所述分词处理结果进行统计分析，以获得与所述目标文本相对应的单字分词或多字分词的统计分布信息；其中，所述步骤c还包括：-将所述统计分布信息与预设的参考分布信息进行比较，以识别所述目标文本是否为失序文本。3.根据权利要求2所述的方法，其中，所述参考分布信息包括以下至少任一项：-基于自然语言的标准分布信息；-与所述目标文本所对应的应用相关的分布信息。4.根据权利要求1至3中任一项所述的方法，其中，该方法还包括：-按照预置的文本抽样规则，从所述目标文本中选取优选文本；其中，所述步骤b还包括：-根据所述优选文本，获得与所述优选文本相对应的统计信息。5.根据权利要求4所述的方法，其中，所述文本抽样规则基于以下至少任一项来从所述目标文本中选取所述优选文本：-选取所述目标文本中的若干行文本；-选取所述目标文本的各行中具有相同列数的文字组成的列文本。6.根据权利要求1至3中任一项所述的方法，其中，该方法还包括：X对所述目标文本进行预处理，获得预处理文本；其中，所述步骤b还包括：-根据所述预处理文本，获得与所述预处理文本相对应的统计信息。7.根据权利要求6所述的方法，其中，所述预处理操作包括以下至少任一项：-滤除所述目标文本中的特定字符；-将所述目标文本中的异型文字转化为正常文字。8.根据权利要求7所述的方法，其中，所述预处理操作包括将所述目标文本中的异型文字转化为正常文字；其中，所述步骤X还包括：-将所述目标文本在异型文字库进行匹配映射，以使所述目标文本中的异型文字转化为正常文字。9.根据权利要求7或8所述的方法，其中，所述异型文字包括以下至少任一项：-火星文；-菊花文。10.根据权利要求1至3中任一项所述的方法，其中，所述步骤a还包括：-获取用户通过用户设备提交的待识别的目标文本；其中，该方法还包括：-将所述目标文本的识别结果提供给所述用户设备。11.一种由计算机实现的用于识别失序文本的装置，该装置包括：文本获取装置，用于获取待识...

【专利技术属性】
技术研发人员：李彦宏，舒迅，帅帅，王波，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人