传统蒙古文网页识别方法和装置制造方法及图纸

技术编号:11410730 阅读:89 留言:0更新日期:2015-05-06 10:07
本发明专利技术涉及一种传统蒙古文网页识别方法和装置,所述方法包括:获取并统计传统蒙古文网页语料库中的各个词的词频和文档频率,并计算各个词的调和平均值;根据所述调和平均值由大到小,选取前第一数量个词,并对所述前第一数量个词的调和平均值进行累加,得到第一累加和;获取并统计待识别网页中所述前第一数量个词的词频,并对其进行累加,得到第二累加和;当所述第一累加和与所述第二累加和之间的差值小于等于第一阈值时,确定所述待识别网页为传统蒙古文网页。本发明专利技术提供的传统蒙古文网页识别方法,可以以较高准确率和较高效率实现传统蒙古文网页的识别,进而有助于传统蒙古文网页的搜集以及传统蒙古文全文搜索引擎的实现。

【技术实现步骤摘要】
传统蒙古文网页识别方法和装置
本专利技术涉及网络
,尤其涉及一种传统蒙古文网页识别方法和装置。
技术介绍
传统蒙古文是中国内蒙古自治区的蒙古语的官方书写方式(即用蒙古字母书写蒙古语的正写法)。传统蒙古文网络资源是蒙古族群众用本民族文字传递信息、共享资源的重要途径,也是蒙古族传统文化传承的主要平台,传统蒙古文网络资源对于研究蒙古语、蒙古族文化以及实现传统蒙古文全文搜索引擎具有重要意义。我国的传统蒙古文网络资源相对中文、英文网络资源数量较少,且编码复杂,因此,准确、高效地搜集传统蒙古文网络资源至关重要,前期研究发现,准确、高效地搜集传统蒙古文网络资源关键在于传统蒙古文网页的准确识别。目前,网页识别方法包括以下几种:1)根据超文本标记语言(HyperTextMark-upLanguage,HTML)的LANG属性判断网页文字所属语言。HTML语言的LANG属性需要申明网页所用的文字,该属性能使搜索引擎和浏览器准确地读取网页的内容。2)根据HTML的“font-family”和“charset”属性判断网页文字所属语言。HTML语言提供网页的字符编码,不同的字符编码会使用不同的字体,因此可通过HTML的“font-family”属性来判断网页的文字。例如:网页“charset”为GB2312,且“font-family”为“BZDBT”、“TIBETBT”或网页的“charset”为UTF8,且“fontfamily”为“MicrosoftHimalaya”,则可判断该网页为藏文。3)基于特定语种的高频词识别网页文字所属语言。每种语种都有自己的高频语法单元,因此可以通过判断待分析网页中高频词出现的频率判断网页语言。例如根据藏文音节点及高频词出现的频率判断网页是否为藏文。对于根据HTML的LANG属性判断网页文字的方法,根据万维网联盟(WorldWideWebConsortium,W3C)标准,每个网页都应该申明LANG属性,由于很多传统蒙古文网页中没有HTML语言的LANG属性,因此,不能仅仅根据网页的LANG属性判断网页语言是否为传统蒙古文。对于根据HTML的“font-family”和“charset”属性判断网页文字所属语言的方法,很多传统蒙古文网页仅有“charset”信息、没有“font-family”信息,因此不能根据“charset”和“font-family”来判断网页文字是否为传统蒙古文。对于基于特定语种的高频词识别网页文字所属语言,不同的语言有自己的语言特点,因此各种语言的高频词是不相同的,例如:“的”、“了”是中文使用频率较高的词,“it”、“the”是英文中使用频率较高的词,(他、她、它)、(和)是维吾尔文中使用频率较高的词,面向同一种语言、不同数据统计出来的高频语法单元也有很大不同。现有的三种识别网页语言的技术中,基于高频词的网页语言识别技术相对其它两种方法较为有效,但是该技术仅仅考虑了语言单元的绝对频率、没有考虑不同领域文本中的用词特点,因此网页语言的识别精度差异较大。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供一种传统蒙古文网页识别方法,以较高准确率和较高效率实现传统蒙古文网页的识别。为实现上述目的,本专利技术提供了一种传统蒙古文网页识别方法,所述方法包括:获取并统计传统蒙古文网页语料库中各个词的词频TFi和文档频率DFi,其中,i≥0;根据分别得到所述传统蒙古文网页语料库中各个词的调和平均值Fi;由所述传统蒙古文网页语料库的各个词中,根据Fi的值由大到小,选取前第一数量个词,并对所述前第一数量个词的Fi值进行累加,得到第一累加和;获取并统计待识别网页中所述前第一数量个词的词频TFj,其中,j≥0;对所述待识别网页中前第一数量个词的TFj值进行累加,得到第二累加和;当所述第一累加和与所述第二累加和之间的差值小于等于第一阈值时,确定所述待识别网页为传统蒙古文网页。另一方面,本专利技术还提供了一种传统蒙古文网页识别装置,所述装置包括:第一获取单元,用于获取并统计传统蒙古文网页语料库中各个词的词频TFi和文档频率DFi,其中,i≥0;第一计算单元,用于根据分别得到所述传统蒙古文网页语料库中各个词的调和平均值Fi;第二计算单元,用于由所述传统蒙古文网页语料库的各个词中,根据Fi的值由大到小,选取前第一数量个词,并对所述前第一数量个词的Fi值进行累加,得到第一累加和;第二获取单元,用于获取并统计待识别网页中所述前第一数量个词的词频TFj,其中,j≥0;第三计算单元,对所述待识别网页中前第一数量个词的TFj值进行累加,得到第二累加和;决策单元,用于当所述第一累加和与所述第二累加和之间的差值小于等于第一阈值时,确定所述待识别网页为传统蒙古文网页。本专利技术提供的传统蒙古文网页识别方法和装置,基于传统蒙古文网页语料库的词频及文档频率的调和平均值来判断一个网页的语言是否为传统蒙古文,可以以较高准确率和较高效率实现传统蒙古文网页的识别,进而有助于传统蒙古文网页的搜集以及传统蒙古文全文搜索引擎的实现。附图说明图1为本专利技术实施例一提供的传统蒙古文网页识别方法流程图;图2为本专利技术实施例二提供的传统蒙古文网页识别装置示意图。具体实施方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。图1是本实施例一提供的传统蒙古文网页识别方法流程图,如图1所示,所述方法包括:步骤S101,获取并统计传统蒙古文网页语料库中的各个词的词频和文档频率。具体地,获取传统蒙古文网页语料库中各个词,统计各个词的词频TFi和文档频率DFi,其中,i≥0。其中,在一份给定的文件里,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。在给定的文件集里,文档频率(DocumentFrequency,DF)指的是某一个给定的文件在该文件集中出现的次数。可选地,在获取并统计传统蒙古文网页语料库中的各个词的词频和文档频率之前,还包括:下载传统蒙古文网页,并对所述传统蒙古文网页进行预处理;构建传统蒙古文网页语料库。需要说明的是,构建传统蒙古文语料库时要注意以下问题:(1)语料规模大语料规模至少为100万词级,时间跨度为某一网站、某一年度的网页。(2)语料覆盖类型全本语料库应包含新闻、教育、文化(尤其是民族文化)、科技、娱乐、论坛、商业、其它类型的网页。(3)语料构成比例合理根据传统蒙古文的语言特点以及网络资源情况,这几种类型的语料比例情况约为:新闻、文化和论坛各20%,教育、娱乐、商业及其他类型各10%。(4)网站编码类型全由于传统蒙古文网页的编码较为复杂,因为实现所有传统蒙古文编码的网页识别,需要下载目前处于的传统蒙古文编码的网页,如:蒙科立编码、Unicode编码、赛音、明安图等编码的网页。构建大规模、多领域传统蒙古文网页语料库需要下载一批兼顾编码类型、网站类型、语料比例等网页;并对下载好的蒙古文网页进行垃圾信息过滤、可扩展标记语言(ExtensibleMarkupLanguage,XML)格式转换及编码转换(其他类型编码转换为Unicode编码)等预处理。步骤S102,根据调和平均值计算公式计算所述传统蒙古文网页语料库中各个词的调和平均值。具体地,根据调和平均值计算公式计算传统蒙古文网页语料本文档来自技高网
...
传统蒙古文网页识别方法和装置

【技术保护点】
一种传统蒙古文网页识别方法,其特征在于,所述方法包括:获取并统计传统蒙古文网页语料库中各个词的词频TFi和文档频率DFi,其中,i≥0;根据分别得到所述传统蒙古文网页语料库中各个词的调和平均值Fi;由所述传统蒙古文网页语料库的各个词中,根据Fi的值由大到小,选取前第一数量个词,并对所述前第一数量个词的Fi值进行累加,得到第一累加和;获取并统计待识别网页中所述前第一数量个词的词频TFj,其中,j≥0;对所述待识别网页中前第一数量个词的TFj值进行累加,得到第二累加和;当所述第一累加和与所述第二累加和之间的差值小于等于第一阈值时,确定所述待识别网页为传统蒙古文网页。

【技术特征摘要】
1.一种传统蒙古文网页识别方法,其特征在于,所述方法包括:获取并统计传统蒙古文网页语料库中各个词的词频TFi和文档频率DFi,其中,i≥0;根据分别得到所述传统蒙古文网页语料库中各个词的调和平均值Fi;由所述传统蒙古文网页语料库的各个词中,根据Fi的值由大到小,选取前第一数量个词,并对所述前第一数量个词的Fi值进行累加,得到第一累加和;获取并统计待识别网页中所述前第一数量个词的词频TFj,其中,j≥0;对所述待识别网页中前第一数量个词的TFj值进行累加,得到第二累加和;当所述第一累加和与所述第二累加和之间的差值小于等于第一阈值时,确定所述待识别网页为传统蒙古文网页;其中,所述前第一数量为所取词的个数与所取对象中词的个数之比。2.根据权利要求1所述的传统蒙古文网页识别方法,其特征在于,在所述获取并统计传统蒙古文网页语料库中各个词的词频TFi和文档频率DFi之前,所述方法还包括:下载传统蒙古文网页,并对所述传统蒙古文网页进行预处理;构建传统蒙古文网页语料库。3.根据权利要求1所述的传统蒙古文网页识别方法,其特征在于,在获取并统计待识别网页中所述前第一数量个词的词频TFj之前,所述方法还包括:对所述待识别网页进行垃圾信息过滤、格式转换和编码转换,得到处理后的待识别网页。4.根据权利要求1-3任一项所述的传统蒙古文网页识别方法,其特征在于,所述传统蒙古文网页语料库至少包括100万个传统蒙古文词。5.一种...

【专利技术属性】
技术研发人员:王志娟
申请(专利权)人:中央民族大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1