一种基于NLP的企业供应关系自动抽取分析方法技术

技术编号:20425295 阅读:55 留言:0更新日期:2019-02-23 08:32
本发明专利技术属于智能分析技术领域,涉及一种基于NLP的企业供应关系自动抽取分析方法,包括公司名称识别、产品名称识别和供求关系判断三个步骤,利用规则和词典的方法改进Stanford NER工具包,有效的提高了该工具对公司简称的识别效果,并将多种特征融入到条件随机场模型中,通过结合规则后处理,有效的识别了文本中的产品类别词,能够高效准确的从文本中获取企业间供求关系信息,为投资者和消费者提供宝贵的参考情报,具有重要的理论研究和实际应用价值。

【技术实现步骤摘要】
一种基于NLP的企业供应关系自动抽取分析方法
:本专利技术属于智能分析
,涉及一种基于NLP(语言技术平台)的企业供应关系自动抽取分析方法。
技术介绍
:随着经济全球化的进程不断加深,企业与企业之间的合作不断发展,制造业早已脱离了闭门造车的时代,现代工业中,某一个终端产品的零部件和生产工艺往往来自不同的国家和企业,这就引出了供应链和供应链管理的概念。供应链管理作为企业运营的重要组成部分,对于企业有着极为重要的作用,一个企业想要发展壮大,一个好的供应链是必不可少的,而一条供应链,实际上就是由一个个供应关系组成的。对于现代企业来说,企业与企业之间的关系越来越复杂,企业与企业之间,企业和供应商之前往往存在多重委托,以小米手机为例,小米手机没有实体工厂,核心零部件全部来自于供应商,核心供应商数量达到40多家,供应商之间也存在复杂的合作和竞争关系,小米手机的成功离不开对供应链的精确掌控,由此可见,对供应商之间供求关系的分析对企业经营者来说具有极为重要的现实意义。除此之外,对企业供求关系的分析对投资者和消费者来说也具有极为重要的意义,对投资者而言,掌握了企业之间的供求关系,能在关键时候做出本文档来自技高网...

【技术保护点】
1.一种基于NLP的企业供应关系自动抽取分析方法,其特征在于具体过程包括公司名称识别、产品名称识别和供求关系判断三个步骤,具体为:(一)公司名称识别:(1)文本处理:读取年报自然句,使用哈工大的LTP自然语言处理工具对该句进行分词、词性标注、依存句法分析处理分别得到分词结果、词性标注结果、依存句法分析结果,将得到的分词结果作为Stanford NER的输入源进行公司名称识别;(2)公司名称识别:将分词结果输入Stanford NER提供的条件随机场模型和自构建的公司名称词典进行公司名称匹配识别,将识别结果在分词结果上进行汇总整合得到公司名称识别结果;(3)公司实体组处理:(31)获取:对文本处...

【技术特征摘要】
1.一种基于NLP的企业供应关系自动抽取分析方法,其特征在于具体过程包括公司名称识别、产品名称识别和供求关系判断三个步骤,具体为:(一)公司名称识别:(1)文本处理:读取年报自然句,使用哈工大的LTP自然语言处理工具对该句进行分词、词性标注、依存句法分析处理分别得到分词结果、词性标注结果、依存句法分析结果,将得到的分词结果作为StanfordNER的输入源进行公司名称识别;(2)公司名称识别:将分词结果输入StanfordNER提供的条件随机场模型和自构建的公司名称词典进行公司名称匹配识别,将识别结果在分词结果上进行汇总整合得到公司名称识别结果;(3)公司实体组处理:(31)获取:对文本处理步骤中得到的依存句法分析结果中具有直接或间接并列关系的词放到一起形成并列词组并组成候选实体组;(32)筛选:根据公司名称识别结果和公司实体组的词性特征判断该候选实体组是不是一个公司实体组并进行筛选;公司实体组的筛选按照以下两点规则进行:一是:如果候选实体组中的一个并列词组为一个公司实体组,那么该词组至少要有一个词语在公司名称识别阶段被标注为公司名;二是:公司实体组中至少含有一个词性为其他专有名词nz的词;(33)规则后处理:(331)将公司实体组中未标注为公司名称的词语标注为公司名,将非公司实体组的并列词组中标注为公司名称的词语标注为非公司名;(332)利用依存句法补全新扩展出的公司名称,主要是利用句法规则补全新扩展出的公司名称,当公司实体组中的词被重新标注为公司名时,考虑到公司名的完整性,对该公司名的左边界进行重新计算,判断当前词与其左侧第一个词之间的依存关系,若为定中关系,则把其左侧的词也标注为公司名称;(二)产品名称识别:(1)文本处理:读取年报自然句,使用哈工大的LTP自然语言处理工具对该句进行分词、词性标注、依存句法分析处理分别得到分词结果、词性标注结果、依存句法分析结果;(2)产品名称识别:使用现有CRF++0.58开源工具包来构建条件随机场(CRF)模型进行产品名称识别,具体过程为:(21)实体类别标注:使用BIEO标注方式来对语料进行标注,用B_PRODUCT标签来标注产品名称的左边界,用E_PRODUCT标签来标注产品名称的右边界,用I_PRODUCT标签来标注左边界和右边界的中间字符,用O标签来标注其他的非产品名称的词语;其中语料是指用于训练条件随机场模型所需的人工标注的语料;(22)语料库构建:先读取语料文本,对文本中的每条自然句使用哈工大LTP自然语言处理对其进行分词、词性标注;再人工对分词结果进行产品名称标注,遍历分词结果,当该词出现在边界词表中时,边界词特征为Y,否则为N;然后遍历分词结果,当该词出现在产品名称词表中时,词典特征为Y,否则为N;将分词、词性、边界词特征、词典特征、人工标注组合为一行token,将每个自然句的处理结果之间空一行,一行表示一个token,每个token包含多个特征,各个特征之前以空格或者制表符来间隔,最后一个特征为类别标签,也就是需要训练的正确的标注;在训练语料的文本进行人工标注后,还需要对语料格式进行转换后才能输入到CRF++中进行训练;(23)条件随机场模型特征选取:选取词特征、词性特征、边界词特征和词典特征用于条件随机场模型的训练,其中词特征表示当前词自身,或者是与左右窗口中其他词的组合;词性特征是指把词的特点当做依据从而划分词类的依据,包含名词、动词、形容词、副词、连词、介词;边界词特征是指出现在产品名称附近的词特征;词典采用与公司识别过程中相同的构建方法进行构建;(3)规则后处理:(31)利用哈工大LTP对自然句进行依存句法分析,通过对结果的分析,找出句子中具有并列关系的实体,确定潜在实体组,一个句子中的潜在实体组可能由多个{G1,G2…Gn},n为句中实体组的总数,其中的任意一个实体组Gi={E1,E2…Em},其中m为实体的个...

【专利技术属性】
技术研发人员:王金龙杨传龙房斐斐张云天
申请(专利权)人:青岛理工大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1