传统蒙古文网页识别方法和装置制造方法及图纸

技术编号：11410730 阅读：89 留言：0更新日期：2015-05-06 10:07

本发明专利技术涉及一种传统蒙古文网页识别方法和装置，所述方法包括：获取并统计传统蒙古文网页语料库中的各个词的词频和文档频率，并计算各个词的调和平均值；根据所述调和平均值由大到小，选取前第一数量个词，并对所述前第一数量个词的调和平均值进行累加，得到第一累加和；获取并统计待识别网页中所述前第一数量个词的词频，并对其进行累加，得到第二累加和；当所述第一累加和与所述第二累加和之间的差值小于等于第一阈值时，确定所述待识别网页为传统蒙古文网页。本发明专利技术提供的传统蒙古文网页识别方法，可以以较高准确率和较高效率实现传统蒙古文网页的识别，进而有助于传统蒙古文网页的搜集以及传统蒙古文全文搜索引擎的实现。

全部详细技术资料下载

【技术实现步骤摘要】
传统蒙古文网页识别方法和装置
本专利技术涉及网络
，尤其涉及一种传统蒙古文网页识别方法和装置。
技术介绍
传统蒙古文是中国内蒙古自治区的蒙古语的官方书写方式(即用蒙古字母书写蒙古语的正写法)。传统蒙古文网络资源是蒙古族群众用本民族文字传递信息、共享资源的重要途径，也是蒙古族传统文化传承的主要平台，传统蒙古文网络资源对于研究蒙古语、蒙古族文化以及实现传统蒙古文全文搜索引擎具有重要意义。我国的传统蒙古文网络资源相对中文、英文网络资源数量较少，且编码复杂，因此，准确、高效地搜集传统蒙古文网络资源至关重要，前期研究发现，准确、高效地搜集传统蒙古文网络资源关键在于传统蒙古文网页的准确识别。目前，网页识别方法包括以下几种：1)根据超文本标记语言(HyperTextMark-upLanguage，HTML)的LANG属性判断网页文字所属语言。HTML语言的LANG属性需要申明网页所用的文字，该属性能使搜索引擎和浏览器准确地读取网页的内容。2)根据HTML的“font-family”和“charset”属性判断网页文字所属语言。HTML语言提供网页的字符编码，不同的字符编码会使用不同的字体，因此可通过HTML的“font-family”属性来判断网页的文字。例如：网页“charset”为GB2312，且“font-family”为“BZDBT”、“TIBETBT”或网页的“charset”为UTF8，且“fontfamily”为“MicrosoftHimalaya”，则可判断该网页为藏文。3)基于特定语种的高频词识别网页文字所属语言。每种语种都有自己的高频语法单元，...
传统蒙古文网页识别方法和装置

【技术保护点】
一种传统蒙古文网页识别方法，其特征在于，所述方法包括：获取并统计传统蒙古文网页语料库中各个词的词频TFi和文档频率DFi，其中，i≥0；根据分别得到所述传统蒙古文网页语料库中各个词的调和平均值Fi；由所述传统蒙古文网页语料库的各个词中，根据Fi的值由大到小，选取前第一数量个词，并对所述前第一数量个词的Fi值进行累加，得到第一累加和；获取并统计待识别网页中所述前第一数量个词的词频TFj，其中，j≥0；对所述待识别网页中前第一数量个词的TFj值进行累加，得到第二累加和；当所述第一累加和与所述第二累加和之间的差值小于等于第一阈值时，确定所述待识别网页为传统蒙古文网页。

【技术特征摘要】
1.一种传统蒙古文网页识别方法，其特征在于，所述方法包括：获取并统计传统蒙古文网页语料库中各个词的词频TFi和文档频率DFi，其中，i≥0；根据分别得到所述传统蒙古文网页语料库中各个词的调和平均值Fi；由所述传统蒙古文网页语料库的各个词中，根据Fi的值由大到小，选取前第一数量个词，并对所述前第一数量个词的Fi值进行累加，得到第一累加和；获取并统计待识别网页中所述前第一数量个词的词频TFj，其中，j≥0；对所述待识别网页中前第一数量个词的TFj值进行累加，得到第二累加和；当所述第一累加和与所述第二累加和之间的差值小于等于第一阈值时，确定所述待识别网页为传统蒙古文网页；其中，所述前第一数量为所取词的个数与所取对象中词的个数之比。2.根据权利要求1所述的传统蒙古文网页识别方法，其特征在于，在所述获取并统计传统蒙古文网页语料库中各个词的词频TFi和文档频率DFi之前，所述方法还包括：下载传统蒙古文网页，并对所述传统蒙古文网页进行预处理；构建传统蒙古文网页语料库。3.根据权利要求1所述的传统蒙古文网页识别方法，其特征在于，在获取并统计待识别网页中所述前第一数量个词的词频TFj之前，所述方法还包括：对所述待识别网页进行垃圾信息过滤、格式转换和编码转换，得到处理后的待识别网页。4.根据权利要求1-3任一项所述的传统蒙古文网页识别方法，其特征在于，所述传统蒙古文网页语料库至少包括100万个传统蒙古文词。5.一种...

【专利技术属性】
技术研发人员：王志娟，
申请(专利权)人：中央民族大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人