基于文本编码识别的热点信息采集方法和装置制造方法及图纸

技术编号:16152883 阅读:57 留言:0更新日期:2017-09-06 18:17
本发明专利技术涉及一种基于文本编码识别的热点信息采集方法,包括:获取待识别文本,确定待识别文本对应的多个编码种类;根据多个编码种类分别对待识别文本进行编码,生成与每个编码种类对应的文本编码结果;将每个文本编码结果与预设字符库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对多个编码种类进行排序;获取多个编码种类对应的匹配字符数量最多的编码种类,根据匹配字符数量最多的编码种类对待识别文本进行编码;提取多个经过编码后的待识别文本所包含的主题相同的信息;检测主题相同的信息的热度值是否达到预设阈值,若是,则确定主题相同的信息为热点信息。通过高效地、准确地进行文本编码识别,实现对网络中热点信息的采集。

【技术实现步骤摘要】
基于文本编码识别的热点信息采集方法和装置
本专利技术涉及计算机
,特别是涉及一种基于文本编码识别的热点信息采集方法和装置。
技术介绍
伴随着互联网的快速发展,全世界的网民之间的联系越来越紧密,越来越多的人依赖于通过网络获取信息。如今,网民习惯在网络中对于事件、人物或产品等内容发布评论,使得网络中涌现了大量带有主观情感的信息,获取信息中的观点并加以分析利用,可实时的获取网络中的热点信息。但是由于世界各地使用多种不同的语言,而每种语言又使用多种不同的文本编码,如果不对信息进行编码识别和转换的话,就会出现乱码的问题,导致信息传递出现障碍。传统技术中,基于文本编码范围的编码识别方法指的是基于每种文本编码的特定范围,判断信息是否在该范围之内,若是则判定该信息采用此种文本编码。但是由于各种文本编码之间往往存在重叠的部分,所以此种基于文本编码范围的编码识别方法经常会出现错误,造成乱码的问题。基于字符分布的编码识别方法的基本思路是:每种语言都有其特定的字符分布规律。所以可事先建立每种语言的字符分布模型,通过字符分布模型对信息进行编码识别,此种方法的问题在于,不仅难以避免不出现识别错误,还会花费本文档来自技高网...
基于文本编码识别的热点信息采集方法和装置

【技术保护点】
一种基于文本编码识别的热点信息采集方法,所述方法包括:获取待识别文本,确定所述待识别文本对应的多个编码种类;根据所述多个编码种类分别对所述待识别文本进行编码,生成与每个编码种类对应的文本编码结果;将每个所述文本编码结果与预设字符库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行排序;获取所述多个编码种类对应的匹配字符数量最多的编码种类,根据所述匹配字符数量最多的编码种类对所述待识别文本进行编码;提取多个经过编码后的待识别文本所包含的主题相同的信息;检测所述主题相同的信息的热度值是否达到预设阈值,若是,则确定所述主题相同的信息为热点信息。

【技术特征摘要】
1.一种基于文本编码识别的热点信息采集方法,所述方法包括:获取待识别文本,确定所述待识别文本对应的多个编码种类;根据所述多个编码种类分别对所述待识别文本进行编码,生成与每个编码种类对应的文本编码结果;将每个所述文本编码结果与预设字符库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行排序;获取所述多个编码种类对应的匹配字符数量最多的编码种类,根据所述匹配字符数量最多的编码种类对所述待识别文本进行编码;提取多个经过编码后的待识别文本所包含的主题相同的信息;检测所述主题相同的信息的热度值是否达到预设阈值,若是,则确定所述主题相同的信息为热点信息。2.根据权利要求1所述的方法,其特征在于,所述获取待识别文本的步骤之后,还包括:判断所述待识别文本是否存在字节顺序标记,若否,则进入确定所述待识别文本对应的多个编码种类的步骤;若所述待识别文本存在字节顺序标记,则根据所述字节顺序标记确定所述待识别文本的编码种类;根据字节顺序标记确定的编码种类对所述待识别文本进行编码。3.根据权利要求1所述的方法,其特征在于,获取所述多个编码种类对应的匹配字符数量最多的编码种类,根据所述匹配字符数量最多的编码种类对所述待识别文本进行编码,包括:获取经过排序的多个编码种类中匹配字符数量最多的编码种类对应的文本编码结果;获取所述文本编码结果与所述预设字符库中的字符进行匹配得到的匹配字符的数量;判断所述匹配字符的数量占所述待识别文本字符数量的比例是否超过预设的阈值,若是,则确定所述多个编码种类对应的匹配字符数量最多的编码种类为所述待识别文本的编码种类;根据确定的编码种类对所述待识别文本进行编码。4.根据权利要求1所述的方法,其特征在于,所述将每个所述文本编码结果与预设字符库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行排序的步骤,包括:从所述待识别文本中提取字符串,根据所述多个编码种类分别对所述字符串进行编码,生成与每个编码种类对应的字符串编码结果;将每个所述字符串编码结果与预设样本库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行第一次排序;将每个所述字符串编码结果与预设全字符库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行第二次排序;根据所述多个编码种类分别对所述待识别文本进行编码,生成与每个编码种类对应的文本编码结果;将每个所述文本编码结果与所述预设全字符库中的字符进行匹配,得到匹配字符的数量,按照匹配字符的数量对所述多个编码种类进行第三次排序。5.根据权利要求1所述的方法,其特征在于,在所述获取待识别文本,确定所述待识别文本对应的多个编码种类的步骤之后,还包括:从所述待识别文本中提取字符串,检测所述字符串是否超出所述多个编码种类中的任意一个编码种类的范围,若是,则将超出范围的编码种类从所述多个编码种类中删除。6.一种基于文本...

【专利技术属性】
技术研发人员:符晓杨风雷李沙沙
申请(专利权)人:东莞中国科学院云计算产业技术创新与育成中心
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1