基于反识别渲染的文本内容识别率测试方法及装置制造方法及图纸

技术编号:13187533 阅读:77 留言:0更新日期:2016-05-11 17:25
本发明专利技术提供一种基于反识别渲染的文本内容识别率测试方法及装置,所述方法包括:接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合;通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。本发明专利技术的基于反识别渲染的文本内容识别率测试方法及装置,可实时地对文本内容识别的有效性算法进行测试评估,以通过该测试结果对文本内容识别算法进行优化,不仅提升了文本内容识别算法优化的及时性,也大大的节约了人力成本。

【技术实现步骤摘要】

本专利技术属于计算机
,具体涉及一种基于反识别渲染的文本内容识别率测试方法及装置
技术介绍
随着计算机技术的飞速发展,互联网技术应用中,很多场景都需要对文本内容进行识别,例如舆情识别,其用于收集各种社交媒体渠道的实时信息,并对信息的文本内容进行识别。然而,在现有技术中,缺少对文本内容识别算法的测试体系,尤其是对反识别渲染后的文本内容识别算法缺少测试体系,导致每次对文本内容识别算法优化后,无法测试其识别效果是否提升,只能依靠人为的经验对其做出判断后,不断尝试对文本内容识别算法进行修改,费时费力。
技术实现思路
本专利技术的目的在于提供一种基于反识别渲染的文本内容识别率测试方法及装置。为实现上述专利技术目的之一,本专利技术一实施方式提供了一种基于反识别渲染的文本内容识别率测试方法,其包括:接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合;通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。“接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合”具体包括:接收关键词;根据反识别模板将所述关键词渲染为识别率测试样本,所述反识别模板包括反识别元素及反识别元素与所述关键词的对应关系。作为本专利技术一实施方式的进一步改进,所述方法还包括:接收与所述关键词对应的误报关键词,以及与所述误报关键词对应的误报率测试样本,所述误报率测试样本为所述误报关键词和反识别元素的组合;通过文本内容识别算法计算所述误报率测试样本,以获得所述关键词对应的误报率,其中,所述误报率=误识别数/误报率测试样本的数量,所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。作为本专利技术一实施方式的进一步改进,“接收与所述关键词对应的误报关键词,以及与所述误报关键词对应的误报率测试样本,所述误报率测试样本为所述误报关键词和反识别元素的组合”具体包括:接收与所述关键词对应的误报关键词;根据反识别模板将所述误报关键词渲染为误报率测试样本,所述反识别模板包括反识别元素及反识别元素与所述误报关键词的对应关系。作为本专利技术一实施方式的进一步改进,“接收与所述关键词对应的误报关键词”具体包括:对所述关键词中的至少一个字进行组词,以将所述关键词生成为至少一个误报关键词。作为本专利技术一实施方式的进一步改进,所述方法还包括计算所述反识别渲染文本内容的识别有效性,所述识别有效性=/2。为实现上述专利技术目的之一,本专利技术一实施方式提供了一种基于反识别渲染的文本内容识别率测试装置,其包括:样本获取模块,用于接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合;计算模块,用于通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。作为本专利技术一实施方式的进一步改进,所述样本获取模块用于:接收关键词;根据反识别模板将所述关键词渲染为识别率测试样本,所述反识别模板包括反识别元素及反识别元素与所述关键词的对应关系。作为本专利技术一实施方式的进一步改进,所述样本获取模块还用于:接收与所述关键词对应的误报关键词,以及与所述误报关键词对应的误报率测试样本,所述误报率测试样本为所述误报关键词和反识别元素的组合;所述计算模块还用于:通过文本内容识别算法计算所述误报率测试样本,以获得所述关键词对应的误报率,其中,所述误报率=误识别数/误报率测试样本的数量,所述误识别数为通过所述算法将所述误报率测试样本识别为所述关键词的数量。作为本专利技术一实施方式的进一步改进,所述样本获取模块还具体用于:接收与所述关键词对应的误报关键词;根据反识别模板将所述误报关键词渲染为误报率测试样本,所述反识别模板包括反识别元素及反识别元素与所述误报关键词的对应关系。作为本专利技术一实施方式的进一步改进,所述样本获取模块还具体用于:对所述关键词中的至少一个字进行组词,以将所述关键词生成为至少一个误报关键词。作为本专利技术一实施方式的进一步改进,所述计算模块还用于:计算所述反识别渲染文本内容的识别有效性,所述识别有效性=/2。与现有技术相比,本专利技术的有益效果是:本专利技术的基于反识别渲染的文本内容识别率测试方法及装置,可实时地对文本内容识别的有效性算法进行测试评估,以通过该测试结果对文本内容识别算法进行优化,不仅提升了文本内容识别算法优化的及时性,也大大的节约了人力成本。【附图说明】图1是本专利技术一实施方式中基于反识别渲染的文本内容识别率测试方法的流程示意图;图2是本专利技术一实施方式的基于反识别渲染的文本内容识别率测试装置的模块示意图。【具体实施方式】以下将结合附图所示的各实施方式对本专利技术进行详细描述。但这些实施方式并不限制本专利技术,本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上的变换均包含在本专利技术的保护范围内。如图1所示,在本专利技术一实施方式中,所述基于反识别渲染的文本内容识别率测试方法包括:接收关键词和与所述关键词对应的识别率测试样本。具体的,接收关键词;所述关键词为一些网络上的出现的词汇,例如敏感词汇,当其在网络上出现时,可通过网络抓取或人为添加获得该关键词。例如:所述关键词为“支付宝” “发票” “老虎” “迷药” “办证” “六四”等。在通过网络自动获得关键词后,可将这些关键词存储至关键词数据库,通常情况下,所述关键词数据库中存储的关键词越多,最终对识别率、误报率、算法有效性的评测就越精确。在本实施方式中,所述识别率测试样本为所述关键词和反识别元素的组合。...

【技术保护点】
一种基于反识别渲染的文本内容识别率测试方法,其特征在于,所述方法包括:接收关键词和与所述关键词对应的识别率测试样本,所述识别率测试样本为所述关键词和反识别元素的组合;通过文本内容识别算法计算所述识别率测试样本,以获得所述关键词对应的识别率,其中,所述识别率=成功识别数/识别率测试样本的数量,所述成功识别数为通过所述算法将识别率测试样本识别为所述关键词的数量。

【技术特征摘要】

【专利技术属性】
技术研发人员:张翔
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1