System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,特别涉及一种公司名称识别方法及系统。
技术介绍
1、随着信息技术的发展,大数据技术和算法的不断商业化应用,有很多企业在获取信息的时候,拿到的一般都是非结构化的一个文本信息,比如法院公告、招投标等,这些信息都是文本非结构化数据,而非结构化的数据是很难进行业务应用,比如招投标,很难回答是谁发的招标公告、是谁中标了等信息,想回答这些信息,只能进行全局搜索,全局搜索硬件成本投入和技术要求都很高。因此,需要把非结构化的文本信息进行结构化处理,这类问题的结构化处理一般都是采用nlp短文本抽取,先训练模型然后再在进行文本抽取。
2、而nlp短文本抽取一般是在有限的领域和有限的实体类型中能够取得较好的结果,比如新闻语料中的人名、地名和公司实体名称识别。而对于公司实体来说,由于公司实体众多,大概有3亿多实体名称,利用这3亿多数据进行模型训练需要投入很大的成本,训练完模型以后进行实体识别,识别的准确率也不是很高。而随着深度学习方法的深入,利用深度学习来提高学习的准确率,虽然在一定程度上提高了识别准确度,但是要投入的人力成本、物力成本、时间成本和学习成本巨大,消耗的资金也很大,让小公司望而却步。
3、因此,如何提供一种不需要进行模型训练就能进行公司实体抽取的技术,是目前亟待解决的问题。
技术实现思路
1、本专利技术实施例提供了一种公司名称识别方法及系统,以解决现有技术中的上述技术问题。
2、为了对披露的实施例的一些方面有一个基本的理解,下面
3、根据本专利技术实施例的第一方面,提供了一种公司名称识别方法。
4、在一个实施例中,所述公司名称识别方法,包括:
5、获取历史公司名称实体数据,并基于所述历史公司名称实体数据,构造名称分词结构,所述名称分词结构包括基于预定字数的公司名称前序字项构成的前项分词结构和基于预定字数的公司名称后续字项构成的后项分词结构;
6、利用所述前项分词结构和所述后向分词结构,对待识别的文本信息进行遍历识别,并对所述文本信息中分别符合所述前项分词结构和所述后向分词结构的数据信息进行标记,得到对应前项标记数据集和后项标记数据集;
7、对前项标记数据集和后项标记数据集进行分词组合,得到标记名称数据集,将标记名称数据集与预先配置的公司名称数据库进行比对,获取正确的公司名称。
8、在一个实施例中,基于所述历史公司名称实体数据,构造名称分词结构包括:基于所述历史公司名称实体数据,取公司实体名称前n个字,利用数据字典树从前往后对公司实体名称压缩,得到前项分词结构;基于所述历史公司名称实体数据,取公司实体名称后n个字,利用数据字典树从后往前对公司实体名称压缩,得到后项分词结构。
9、在一个实施例中,所述n大于或等于3。
10、在一个实施例中,在利用数据字典树对公司实体名称进行压缩时,每一个字作为一个节点,当节点内的字相等时,不新增节点,公用相等的节点,当节点的字不相等时,在前置相等的节点最后一个节点上增加一个新的子节点,以此构成分词结构。
11、在一个实施例中,所述公司名称识别方法,还包括:在得到标记名称数据集后,对所述标记名称数据集进行去重处理。
12、根据本专利技术实施例的第二方面,提供了一种公司名称识别系统。
13、在一个实施例中,所述公司名称识别系统,包括:
14、分词构造模块,用于获取历史公司名称实体数据,并基于所述历史公司名称实体数据,构造名称分词结构,所述名称分词结构包括基于预定字数的公司名称前序字项构成的前项分词结构和基于预定字数的公司名称后续字项构成的后项分词结构;
15、分词识别模块,用于利用所述前项分词结构和所述后向分词结构,对待识别的文本信息进行遍历识别,并对所述文本信息中分别符合所述前项分词结构和所述后向分词结构的数据信息进行标记,得到对应前项标记数据集和后项标记数据集;
16、名称确定模块,用于对前项标记数据集和后项标记数据集进行分词组合,得到标记名称数据集,将标记名称数据集与预先配置的公司名称数据库进行比对,获取正确的公司名称。
17、在一个实施例中,所述分词构造模块在基于所述历史公司名称实体数据,构造名称分词结构时,基于所述历史公司名称实体数据,取公司实体名称前n个字,利用数据字典树从前往后对公司实体名称压缩,得到前项分词结构;基于所述历史公司名称实体数据,取公司实体名称后n个字,利用数据字典树从后往前对公司实体名称压缩,得到后项分词结构。
18、在一个实施例中,所述n大于或等于3。
19、在一个实施例中,所述分词构造模块在利用数据字典树对公司实体名称进行压缩时,每一个字作为一个节点,当节点内的字相等时,不新增节点,公用相等的节点,当节点的字不相等时,在前置相等的节点最后一个节点上增加一个新的子节点,以此构成分词结构。
20、在一个实施例中,所述公司名称识别系统,还包括:数据去重模块,用于在得到标记名称数据集后,对所述标记名称数据集进行去重处理。
21、本专利技术实施例提供的技术方案可以包括以下有益效果:
22、本专利技术利用字典树对公司名称实体进行分词构造,以实现结构化处理,得到前项和后项分词,再对前项分词和后向分词组合得到标记数据,将标记数据与预定实体名称数据库进行比对,得到比对结果一致的数据即可判定为识别出的正确公司名称,而由于不需要模型训练,只是通过字典树进行结构化处理来进行实体抽取的,进而大大的降低了实体抽取的难度,同时也减少了投入成本。
23、此外,由于字典树是通用的数据结构,因此在利用字典树进行分词构造后得到标记数据集,并基于预定数据库对标记数据集进行对比验证得到公司名称,使得公司名称实体抽取的准确度,得到了大大的提升。
24、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
本文档来自技高网...【技术保护点】
1.一种公司名称识别方法,其特征在于,包括:
2.根据权利要求1所述的公司名称识别方法,其特征在于,基于所述历史公司名称实体数据,构造名称分词结构包括:
3.根据权利要求2所述的公司名称识别方法,其特征在于,所述N大于或等于3。
4.根据权利要求2所述的公司名称识别方法,其特征在于,在利用数据字典树对公司实体名称进行压缩时,每一个字作为一个节点,当节点内的字相等时,不新增节点,公用相等的节点,当节点的字不相等时,在前置相等的节点最后一个节点上增加一个新的子节点,以此构成分词结构。
5.根据权利要求1所述的公司名称识别方法,其特征在于,还包括:在得到标记名称数据集后,对所述标记名称数据集进行去重处理。
6.一种公司名称识别系统,其特征在于,包括:
7.根据权利要求6所述的公司名称识别系统,其特征在于,所述分词构造模块在基于所述历史公司名称实体数据,构造名称分词结构时,基于所述历史公司名称实体数据,取公司实体名称前N个字,利用数据字典树从前往后对公司实体名称压缩,得到前项分词结构;基于所述历史公司名称实体数据,取
8.根据权利要求7所述的公司名称识别系统,其特征在于,所述N大于或等于3。
9.根据权利要求7所述的公司名称识别系统,其特征在于,所述分词构造模块在利用数据字典树对公司实体名称进行压缩时,每一个字作为一个节点,当节点内的字相等时,不新增节点,公用相等的节点,当节点的字不相等时,在前置相等的节点最后一个节点上增加一个新的子节点,以此构成分词结构。
10.根据权利要求6所述的公司名称识别系统,其特征在于,还包括:数据去重模块,用于在得到标记名称数据集后,对所述标记名称数据集进行去重处理。
...【技术特征摘要】
1.一种公司名称识别方法,其特征在于,包括:
2.根据权利要求1所述的公司名称识别方法,其特征在于,基于所述历史公司名称实体数据,构造名称分词结构包括:
3.根据权利要求2所述的公司名称识别方法,其特征在于,所述n大于或等于3。
4.根据权利要求2所述的公司名称识别方法,其特征在于,在利用数据字典树对公司实体名称进行压缩时,每一个字作为一个节点,当节点内的字相等时,不新增节点,公用相等的节点,当节点的字不相等时,在前置相等的节点最后一个节点上增加一个新的子节点,以此构成分词结构。
5.根据权利要求1所述的公司名称识别方法,其特征在于,还包括:在得到标记名称数据集后,对所述标记名称数据集进行去重处理。
6.一种公司名称识别系统,其特征在于,包括:
7.根据权利要求6所述的公司名称识别系统,其特征在于,所述分词构造模块在基于...
【专利技术属性】
技术研发人员:迟金莹,罗洪,陈思,杨杰,
申请(专利权)人:北京动态时序科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。