The invention discloses a system identification method and referred to, the text of the rules of the company include: according to the need of recognition method based on the company name, are referred to as selected by corresponding listed companies to obtain the text of the announcement, referred to as detection and treat, referred to as the analysis detection effectiveness; according to the recognition of company name, through the network search referred to as recognition. The system includes the bulletin text analysis unit and the search analysis unit. The invention is short for identification through the combination of announcement text mining and web search rules, so as to ensure the accuracy rate of Chinese companies, and greatly improve the recall rate, and effectively enhance the recognition effect. The invention can be widely used in the field of recognition.
【技术实现步骤摘要】
一种基于文本规则的公司简称识别方法及系统
本专利技术涉及识别处理领域,尤其涉及一种基于文本规则的公司简称识别方法及系统。
技术介绍
由于中文公司名称命名的用字规律不强,使用比较随意,经常以简称的形式出现,如“中国银行股份有限公司”经常以简称的形式出现,如“中国银行”或“中行”,这为公司名的识别、应用带来了困难。目前市面并没有一套可以能查全率比较高的简称识别方法。一般中文公司简称识别的难点在于,在不同领域和场景下,命名简称的外延有差异,名称变化频繁,并且没有严格的规律可以遵循,表达形式多样,而且在中文文本的处理中,由于中文分词效果很容易影响识别效果,导致识别准确率较低。
技术实现思路
为了解决上述技术问题,本专利技术的目的提供是一种能提高识别准确率,基于文本规则的公司简称识别方法及系统。本专利技术所采取的技术方案是:一种基于文本规则的公司简称识别方法,包括以下步骤:根据需要识别的公司全称,通过对应的上市公司公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析;根据需要识别的公司全称,通过网络搜索进行简称识别。作为所述的一种基于文本规则的公司简称识别方法的进一步改进,所述的根据需要识别的公司全称,通过对应的证券公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析,这一步骤具体包括:根据需要识别的公司全称,加载该公司的上市公司公告资讯文本;从上市公司公告资讯文本中抽取含有该公司全称的句子和段落,得到抽取样本;从抽取样本中根据预设的抽取规则进行简称抽取,并从上市公司公告资讯文本中根据预设的表格特征进行简称抽取,得到若干的待检测简称;判断待检 ...
【技术保护点】
一种基于文本规则的公司简称识别方法,其特征在于,包括以下步骤:根据需要识别的公司全称,通过对应的上市公司公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析;根据需要识别的公司全称,通过网络搜索进行简称识别。
【技术特征摘要】
1.一种基于文本规则的公司简称识别方法,其特征在于,包括以下步骤:根据需要识别的公司全称,通过对应的上市公司公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析;根据需要识别的公司全称,通过网络搜索进行简称识别。2.根据权利要求1所述的一种基于文本规则的公司简称识别方法,其特征在于:所述的根据需要识别的公司全称,通过对应的证券公告文本进行简称抽取,得到待检测简称,并对待检测简称进行有效性分析,这一步骤具体包括:根据需要识别的公司全称,加载该公司的上市公司公告资讯文本;从上市公司公告资讯文本中抽取含有该公司全称的句子和段落,得到抽取样本;从抽取样本中根据预设的抽取规则进行简称抽取,并从上市公司公告资讯文本中根据预设的表格特征进行简称抽取,得到若干的待检测简称;判断待检测简称是否有效,若是,则结束识别过程;反之,则继续识别过程。3.根据权利要求1所述的一种基于文本规则的公司简称识别方法,其特征在于:所述根据需要识别的公司全称,通过网络搜索进行简称识别,这一步骤具体包括:根据需要识别的公司全称,结合预设的搜索规则进行网络搜索,得到网络搜索结果;对网络搜索结果进行分析,对每项网络搜索结果的摘要进行抽取;根据预设的抽取规则,对得到的摘要进行简称抽取,得到若干的待测公司简称;对待测公司简称进行数据清洗,得到并保存清洗后的公司简称。4.一种基于...
【专利技术属性】
技术研发人员:吴远辉,
申请(专利权)人:广州市万隆证券咨询顾问有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。