一种基于文本规则的公司简称识别方法及系统技术方案

技术编号:16700709 阅读:45 留言:0更新日期:2017-12-02 13:03
本发明专利技术公开了一种基于文本规则的公司简称识别方法及系统,方法包括:根据需要识别的公司全称,通过对应的上市公司公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析;根据需要识别的公司全称,通过网络搜索进行简称识别。系统包括公告文本分析单元和搜索分析单元。本发明专利技术通过公告文本挖掘和网络搜索规则相结合的方式进行简称识别,从而在保证中文公司简称准确率的同时,大大提高了查全率,有效提升识别效果。本发明专利技术可广泛应用于识别领域中。

A method and system for identification of company abbreviations based on text rules

The invention discloses a system identification method and referred to, the text of the rules of the company include: according to the need of recognition method based on the company name, are referred to as selected by corresponding listed companies to obtain the text of the announcement, referred to as detection and treat, referred to as the analysis detection effectiveness; according to the recognition of company name, through the network search referred to as recognition. The system includes the bulletin text analysis unit and the search analysis unit. The invention is short for identification through the combination of announcement text mining and web search rules, so as to ensure the accuracy rate of Chinese companies, and greatly improve the recall rate, and effectively enhance the recognition effect. The invention can be widely used in the field of recognition.

【技术实现步骤摘要】
一种基于文本规则的公司简称识别方法及系统
本专利技术涉及识别处理领域,尤其涉及一种基于文本规则的公司简称识别方法及系统。
技术介绍
由于中文公司名称命名的用字规律不强,使用比较随意,经常以简称的形式出现,如“中国银行股份有限公司”经常以简称的形式出现,如“中国银行”或“中行”,这为公司名的识别、应用带来了困难。目前市面并没有一套可以能查全率比较高的简称识别方法。一般中文公司简称识别的难点在于,在不同领域和场景下,命名简称的外延有差异,名称变化频繁,并且没有严格的规律可以遵循,表达形式多样,而且在中文文本的处理中,由于中文分词效果很容易影响识别效果,导致识别准确率较低。
技术实现思路
为了解决上述技术问题,本专利技术的目的提供是一种能提高识别准确率,基于文本规则的公司简称识别方法及系统。本专利技术所采取的技术方案是:一种基于文本规则的公司简称识别方法,包括以下步骤:根据需要识别的公司全称,通过对应的上市公司公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析;根据需要识别的公司全称,通过网络搜索进行简称识别。作为所述的一种基于文本规则的公司简称识别方法的进一步改进,所述的根据需要识别的公司全称,通过对应的证券公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析,这一步骤具体包括:根据需要识别的公司全称,加载该公司的上市公司公告资讯文本;从上市公司公告资讯文本中抽取含有该公司全称的句子和段落,得到抽取样本;从抽取样本中根据预设的抽取规则进行简称抽取,并从上市公司公告资讯文本中根据预设的表格特征进行简称抽取,得到若干的待检测简称;判断待检测简称是否有效,若是,则结束识别过程;反之,则继续识别过程。作为所述的一种基于文本规则的公司简称识别方法的进一步改进,所述根据需要识别的公司全称,通过网络搜索进行简称识别,这一步骤具体包括:根据需要识别的公司全称,结合预设的搜索规则进行网络搜索,得到网络搜索结果;对网络搜索结果进行分析,对每项网络搜索结果的摘要进行抽取;根据预设的抽取规则,对得到的摘要进行简称抽取,得到若干的待测公司简称;对待测公司简称进行数据清洗,得到并保存清洗后的公司简称。本专利技术所采用的另一技术方案是:一种基于文本规则的公司简称识别系统,包括:公告文本分析单元,用于根据需要识别的公司全称,通过对应的上市公司公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析;搜索分析单元,用于根据需要识别的公司全称,通过网络搜索进行简称识别。作为所述的一种基于文本规则的公司简称识别系统的进一步改进,所述公告文本分析单元具体包括:公告加载单元,用于根据需要识别的公司全称,加载该公司的上市公司公告资讯文本;样本抽取单元,用于从上市公司公告资讯文本中抽取含有该公司全称的句子和段落,得到抽取样本;简称抽取单元,用于从抽取样本中根据预设的抽取规则进行简称抽取,并从上市公司公告资讯文本中根据预设的表格特征进行简称抽取,得到若干的待检测简称;简称检测单元,用于判断待检测简称是否有效,若是,则结束识别过程;反之,则继续识别过程。作为所述的一种基于文本规则的公司简称识别系统的进一步改进,所述搜索分析单元具体包括:搜索单元,用于根据需要识别的公司全称,结合预设的搜索规则进行网络搜索,得到网络搜索结果;摘要抽取单元,用于对网络搜索结果进行分析,对每项网络搜索结果的摘要进行抽取;简称分析单元,用于根据预设的抽取规则,对得到的摘要进行简称抽取,得到若干的待测公司简称;数据清洗单元,用于对待测公司简称进行数据清洗,得到并保存清洗后的公司简称。本专利技术的有益效果是:本专利技术一种基于文本规则的公司简称识别方法及系统通过公告文本挖掘和网络搜索规则相结合的方式进行简称识别,从而在保证中文公司简称准确率的同时,大大提高了查全率,有效提升识别效果。附图说明下面结合附图对本专利技术的具体实施方式作进一步说明:图1是本专利技术一种基于文本规则的公司简称识别方法的步骤流程图;图2是本专利技术一种基于文本规则的公司简称识别方法中公告文本分析的步骤流程图;图3是本专利技术一种基于文本规则的公司简称识别方法中搜索分析的步骤流程图;图4是本专利技术一种基于文本规则的公司简称识别系统的模块方框图。具体实施方式参考图1,本专利技术一种基于文本规则的公司简称识别方法,包括以下步骤:根据需要识别的公司全称,通过对应的上市公司公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析;根据需要识别的公司全称,通过网络搜索进行简称识别。参考图2,进一步作为优选的实施方式,所述的根据需要识别的公司全称,通过对应的证券公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析,这一步骤具体包括:根据需要识别的公司全称,加载该公司的上市公司公告资讯文本;从上市公司公告资讯文本中抽取含有该公司全称的句子和段落,得到抽取样本;从抽取样本中根据预设的抽取规则进行简称抽取,并从上市公司公告资讯文本中根据预设的表格特征进行简称抽取,得到若干的待检测简称;判断待检测简称是否有效,若是,则结束识别过程;反之,则继续识别过程。参考图3,进一步作为优选的实施方式,所述根据需要识别的公司全称,通过网络搜索进行简称识别,这一步骤具体包括:根据需要识别的公司全称,结合预设的搜索规则进行网络搜索,得到网络搜索结果;对网络搜索结果进行分析,对每项网络搜索结果的摘要进行抽取;根据预设的抽取规则,对得到的摘要进行简称抽取,得到若干的待测公司简称;对待测公司简称进行数据清洗,得到并保存清洗后的公司简称。本实施例中,所述抽取规则为中文分词和上下文特征规则,对中文公司简称分析发现其构成与全称之间存在一定关系,并且在文本语法有一定的规则。中文分词为对公司全称进行分词,提取文本中每个N元组(N-gram)作为候选的公司简称,然后建立N元组与每个全称的最优对齐关系,然后对其进行评价筛选,所通过筛选的简称,再进行一次百度搜索认证,确定简称的真实性。对于文本挖掘识别不到简称的公司全称,进行基于规则的百度搜索识别方法。某句子出现“某某有限公司(以下简称‘某某简称’)”,或者“某某有限公司(简称‘某某简称’)”,利用互联网的庞大资讯数据网,有效地增加简称的查全率。本专利技术具体实施例如下:S01、加载需要识别的公司全称;S02、根据需要识别的公司全称,加载该公司的上市公司公告资讯文本;S03、对每一篇上市公司公告资讯文本(记为Artitle_1),在Artitle_1中抽取出现全称的句子、段落(记为Sect_1);S04、通过中文分词、上下文规则特征对Sect_1进行抽取简称S05、在Artitle_1中,抽取表格形式的文本块(记为table_1),对table_1进行基于表格特征的简称抽取;S06、判断待检测简称是否有效,若是,则结束识别过程;反之,则继续识别过程;S07、根据需要识别的公司全称,结合预设的搜索规则(例如“某某简称以下简称”)去百度网页搜索;例如识别全称为“中国银行股份有限公司”简称时,百度网页搜索“中国银行股份有限公司以下简称”,搜索结果内容记为BaiduSearch_1;S08、解析百度搜索结果,分析BaiduSearch_1,抽取出每一个搜索结果的摘要,记为searchItem_1;S09、抽本文档来自技高网...
一种基于文本规则的公司简称识别方法及系统

【技术保护点】
一种基于文本规则的公司简称识别方法,其特征在于,包括以下步骤:根据需要识别的公司全称,通过对应的上市公司公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析;根据需要识别的公司全称,通过网络搜索进行简称识别。

【技术特征摘要】
1.一种基于文本规则的公司简称识别方法,其特征在于,包括以下步骤:根据需要识别的公司全称,通过对应的上市公司公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析;根据需要识别的公司全称,通过网络搜索进行简称识别。2.根据权利要求1所述的一种基于文本规则的公司简称识别方法,其特征在于:所述的根据需要识别的公司全称,通过对应的证券公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析,这一步骤具体包括:根据需要识别的公司全称,加载该公司的上市公司公告资讯文本;从上市公司公告资讯文本中抽取含有该公司全称的句子和段落,得到抽取样本;从抽取样本中根据预设的抽取规则进行简称抽取,并从上市公司公告资讯文本中根据预设的表格特征进行简称抽取,得到若干的待检测简称;判断待检测简称是否有效,若是,则结束识别过程;反之,则继续识别过程。3.根据权利要求1所述的一种基于文本规则的公司简称识别方法,其特征在于:所述根据需要识别的公司全称,通过网络搜索进行简称识别,这一步骤具体包括:根据需要识别的公司全称,结合预设的搜索规则进行网络搜索,得到网络搜索结果;对网络搜索结果进行分析,对每项网络搜索结果的摘要进行抽取;根据预设的抽取规则,对得到的摘要进行简称抽取,得到若干的待测公司简称;对待测公司简称进行数据清洗,得到并保存清洗后的公司简称。4.一种基于...

【专利技术属性】
技术研发人员:吴远辉
申请(专利权)人:广州市万隆证券咨询顾问有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1