System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于文本分析,尤其涉及一种特定金融词库的自动化制采方法、系统、设备及存储介质。
技术介绍
1、目前,随着科技的进步和人工智能的发展,以数据的生成、采集、存储、加工、分析、服务为主的战略性产业就是大家所熟悉的大数据产业。目前,大数据产业已经渗透到各个领域,逐渐改变着人们的思维模式和工作形式,成为支撑我国经济社会发展的优势产业,也是激活数据要素潜能的关键支撑。由于社会对大数据认识参差不齐,大数据思维尚未普及,就导致了数据价值难以充分释放。为了获取基础信息中的隐藏信息,为了提高信息的附加值,数据挖掘应运而生。但是近年来,大量数据还未被挖掘,文本分析领域也尚未形成完整的体系。在面对不用领域的数据时,要想有针对性的深度挖掘各个领域的隐藏信息也就成为数据挖掘领域的难点和痛点。大数据赋予了每个行业新的机会,金融行业也不例外。目前,金融领域正以其数据量大、对数据变现渴望强烈而发展得最快、最引人瞩目。但是,即使文本分析具有普适性,也很难应用在所有场景,面对数据挖掘难点和个性化信息挖掘工具的缺失,金融数据价值挖掘正陷入无法进一步完善的困境。因此,通过构建金融信息深度挖掘模型,建立特定金融词库,可以实现对企业信息和新闻资讯的快速提取,提高对信息的效能附加,为建立金融企业、新闻资讯、风险预警等标签库奠定坚实的基础。
2、通过上述分析,现有技术存在的问题及缺陷为:
3、1)数据量很大,但数据价值无法充分释放。金融领域产生的数据量非常大,但由于对数据的认知和理解不够,数据的潜在价值未被充分挖掘和利用。
4、2)
5、3)无法建立完整的金融信息体系。由于数据挖掘技术和方法不成熟,难以建立涵盖企业信息、新闻资讯、风险预警等的金融信息标签库和知识图谱。
6、4)数据挖掘面临技术难点。在海量复杂的数据中发现有价值的信息,建立起数据之间的关联,这些都是数据挖掘技术需要解决的难点,而这些难点在金融领域的数据分析中尤为突出。
技术实现思路
1、针对现有技术存在的问题,本专利技术提供了一种特定金融词库的自动化制采方法、系统、设备及存储介质。
2、本专利技术是这样实现的,一种特定金融词库的自动化制采方法,所述特定金融词库的自动化制采方法基于隐性要素关联的短语抽取模型,根据文章语言规则和语句构成,以动词为原点,结合n-gram语言模型,自动化统计词语间的关联概率,智能定位适配名词,构建重要动名词短语,实现关键智能化短语抽取;基于多因子单边计算分级鉴定模型,根据各因子计算公式,单向获取每个动名词短语的三因子值:位置值、频率值和关联值,利用因子判断公式鉴定所涉因子对于短语的限定有效性,结合重要值计算公式,实现动名词短语重要程度的自动化鉴定;有效集合量级as抽取模型,通过深度挖掘短语的总数量、最终短语抽取数量、短语集合聚类的均值与总和的关系,构建均值-总和对数内关联关系公式,实现有效短语的最大量级实时抽取。
3、进一步,所述特定金融词库的自动化制采方法包括以下步骤:
4、第一步,采集数据,确定数据采集方法,通过技术爬虫的方法前往各大网站采集相关数据;确定数据采集来源,从大型知名金融、经济、新闻、国家网站采集金融经济类文章,组成语料集;
5、第二步,清洗数据,对采集回来的数据进行清洗,去掉重复数据或重复率80%以上的文章;去掉全文不包含公司名称的文章,获取有效数据;
6、第三步,聚合数据,根据公司全称、简称、股票名称、股票代码进行全文匹配,抽取文章主题,再根据公司名称分别抽取各名称所在句,以“。”为分界线,组成目标集;
7、第四步,数据分词,对采集回来的有效文本,利用n-gram语言模型进行智能分词,以方便文本挖掘与分析,根据基础词典进行词性标记;
8、第五步,抽取短语,根据基于隐性要素关联的短语抽取模型,基于文章语言规则和语句构成,以动词为原点,利用n-gram语言模型统计词语间的关联概率,智能定位适配名词组成动名词短语,并抽取出来组成待处理动名词短语集;
9、第六步,合并数据,去掉含有无效和无意义词语的短语;添加满足条件的短语至待处理动名词短语集;将前次剩余的待处理动名词短语集与本次的待处理动名词短语集合并;
10、第七步,计算重要值,确定短语重要值参考因子为位置值、频率值、关联值;
11、第八步,抽取特征词,根据第七步得出的三因子的限定有效性,分别通过不同的抽取规则进行特征短语抽取;
12、第九步,建立特定词库,将最终的特征短语集经过语法精简和人工核验后,与公司名称建立一对一的关联关系,并添加到特定词库中;
13、第十步,扩充词库,设定文章采集频率,根据预设时间和频率,自动采集最新的文章,并重复以上所有步骤扩充特定金融词库。
14、进一步,所述第一步采集数据包括:
15、①确定采集数据的对象名单,名单包括大型知名金融、经济、新闻、国家信息网站;
16、②确定采集数据的内容,内容涵盖标题、正文、发布时间、发布平台;
17、③确定采集数据的方法,通过爬虫技术的方法前往各大网站采集相关数据。
18、所述第二步清洗数据包括:
19、①清洗重复数据,对采集回来的数据检测重复率,去掉重复数据或重复率80%以上的文章;
20、②清洗无效数据,去掉全文不包含公司名称的文章,删除无效、过时、关联性弱的数据,保证数据的有效性。
21、所述第三步数据聚合包括:
22、①定位抽取主题,识别文章中所有的公司名称,根据公司名称分别定位各名称所在句;
23、②确定抽取规则,将上述步骤中定位的语句,以“。”为结尾完整的抽取出来。
24、进一步,所述第四步数据分词包括:
25、①智能分词,对采集回来的有效文本,利用n-gram语言模型进行智能分词,以方便文本挖掘与分析;
26、②进行词性标记,基于基础词典,对所有分词进行词性标记。
27、所述第五步抽取短语包括:根据基于隐性要素关联的短语抽取模型,基于文章语言规则和语句构成,以动词为原点,利用n-gram语言模型统计词语间的关联概率,智能定位适配名词组成动名词短语,并抽取出来组成待处理动名词短语集;
28、①判断组合词,根据语言规则和语句构成法则,判断两个及两个以上相邻的词语之前是否存在必然联系;若存在必然联系,则将两个及以上的词语视作一个组合词;
29、②标记动词,根据主题、特殊词、特殊字筛选出最相关语句,基于语法规则,重点标记所有关键动词;
30、③定位名词,基于n-gram语言模型,根据下述公式,统计语句中每一组相邻两个词语的关联概率p(wi|wi-1),寻找关键动词与所有名词之间的关联关系,本文档来自技高网...
【技术保护点】
1.一种特定金融词库的自动化制采方法,其特征在于,所述特定金融词库的自动化制采方法基于隐性要素关联的短语抽取模型,根据文章语言规则和语句构成,以动词为原点,结合N-Gram语言模型,自动化统计词语间的关联概率,智能定位适配名词,构建重要动名词短语,实现关键智能化短语抽取;基于多因子单边计算分级鉴定模型,根据各因子计算公式,单向获取每个动名词短语的三因子值:位置值、频率值和关联值,利用因子判断公式鉴定所涉因子对于短语的限定有效性,结合重要值计算公式,实现动名词短语重要程度的自动化鉴定;有效集合量级AS抽取模型,通过深度挖掘短语的总数量、最终短语抽取数量、短语集合聚类的均值与总和的关系,构建均值-总和对数内关联关系公式,实现有效短语的最大量级实时抽取。
2.如权利要求1所述的特定金融词库的自动化制采方法,其特征在于,所述特定金融词库的自动化制采方法包括以下步骤:
3.如权利要求2所述的特定金融词库的自动化制采方法,其特征在于,所述第一步采集数据包括:
4.如权利要求2所述的特定金融词库的自动化制采方法,其特征在于,所述第四步数据分词包括:
< ...【技术特征摘要】
1.一种特定金融词库的自动化制采方法,其特征在于,所述特定金融词库的自动化制采方法基于隐性要素关联的短语抽取模型,根据文章语言规则和语句构成,以动词为原点,结合n-gram语言模型,自动化统计词语间的关联概率,智能定位适配名词,构建重要动名词短语,实现关键智能化短语抽取;基于多因子单边计算分级鉴定模型,根据各因子计算公式,单向获取每个动名词短语的三因子值:位置值、频率值和关联值,利用因子判断公式鉴定所涉因子对于短语的限定有效性,结合重要值计算公式,实现动名词短语重要程度的自动化鉴定;有效集合量级as抽取模型,通过深度挖掘短语的总数量、最终短语抽取数量、短语集合聚类的均值与总和的关系,构建均值-总和对数内关联关系公式,实现有效短语的最大量级实时抽取。
2.如权利要求1所述的特定金融词库的自动化制采方法,其特征在于,所述特定金融词库的自动化制采方法包括以下步骤:
3.如权利要求2所述的特定金融词库的自动化制采方法,其特征在于,所述第一步采集数据包括:
4.如权利要求2所述的特定金融词库的自动化制采方法,其特征在于,所述第四步数据分词包括:
【专利技术属性】
技术研发人员:郜卓琪,夏维,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。