【技术实现步骤摘要】
本专利技术属于文本分析,尤其涉及一种特定金融词库的自动化制采方法、系统、设备及存储介质。
技术介绍
1、目前,随着科技的进步和人工智能的发展,以数据的生成、采集、存储、加工、分析、服务为主的战略性产业就是大家所熟悉的大数据产业。目前,大数据产业已经渗透到各个领域,逐渐改变着人们的思维模式和工作形式,成为支撑我国经济社会发展的优势产业,也是激活数据要素潜能的关键支撑。由于社会对大数据认识参差不齐,大数据思维尚未普及,就导致了数据价值难以充分释放。为了获取基础信息中的隐藏信息,为了提高信息的附加值,数据挖掘应运而生。但是近年来,大量数据还未被挖掘,文本分析领域也尚未形成完整的体系。在面对不用领域的数据时,要想有针对性的深度挖掘各个领域的隐藏信息也就成为数据挖掘领域的难点和痛点。大数据赋予了每个行业新的机会,金融行业也不例外。目前,金融领域正以其数据量大、对数据变现渴望强烈而发展得最快、最引人瞩目。但是,即使文本分析具有普适性,也很难应用在所有场景,面对数据挖掘难点和个性化信息挖掘工具的缺失,金融数据价值挖掘正陷入无法进一步完善的困境。因此,
...【技术保护点】
1.一种特定金融词库的自动化制采方法,其特征在于,所述特定金融词库的自动化制采方法基于隐性要素关联的短语抽取模型,根据文章语言规则和语句构成,以动词为原点,结合N-Gram语言模型,自动化统计词语间的关联概率,智能定位适配名词,构建重要动名词短语,实现关键智能化短语抽取;基于多因子单边计算分级鉴定模型,根据各因子计算公式,单向获取每个动名词短语的三因子值:位置值、频率值和关联值,利用因子判断公式鉴定所涉因子对于短语的限定有效性,结合重要值计算公式,实现动名词短语重要程度的自动化鉴定;有效集合量级AS抽取模型,通过深度挖掘短语的总数量、最终短语抽取数量、短语集合聚类的均
...【技术特征摘要】
1.一种特定金融词库的自动化制采方法,其特征在于,所述特定金融词库的自动化制采方法基于隐性要素关联的短语抽取模型,根据文章语言规则和语句构成,以动词为原点,结合n-gram语言模型,自动化统计词语间的关联概率,智能定位适配名词,构建重要动名词短语,实现关键智能化短语抽取;基于多因子单边计算分级鉴定模型,根据各因子计算公式,单向获取每个动名词短语的三因子值:位置值、频率值和关联值,利用因子判断公式鉴定所涉因子对于短语的限定有效性,结合重要值计算公式,实现动名词短语重要程度的自动化鉴定;有效集合量级as抽取模型,通过深度挖掘短语的总数量、最终短语抽取数量、短语集合聚类的均值与总和的关系,构建均值-总和对数内关联关系公式,实现有效短语的最大量级实时抽取。
2.如权利要求1所述的特定金融词库的自动化制采方法,其特征在于,所述特定金融词库的自动化制采方法包括以下步骤:
3.如权利要求2所述的特定金融词库的自动化制采方法,其特征在于,所述第一步采集数据包括:
4.如权利要求2所述的特定金融词库的自动化制采方法,其特征在于,所述第四步数据分词包括:
【专利技术属性】
技术研发人员:郜卓琪,夏维,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。