一种文本内容划词标识的方法及装置制造方法及图纸

技术编号:20866276 阅读:30 留言:0更新日期:2019-04-17 09:18
本发明专利技术公开了一种文本内容划词标识的方法及装置,所述方法包括:识别鼠标手势;在预定义库中查询与所述鼠标手势对应的维度,并确定与所述维度对应的目标表和匹配方法;将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户;根据选定的匹配结果,生成标签,并将所述标签存入用户页面缓存区;重复上述步骤,直至响应用户的保存指令,将所述用户页面缓存区的所有标签插入到数据库表中,作为文本内容的标识数据。本发明专利技术能够提高内容文本人工标识的速度和准确率。

【技术实现步骤摘要】
一种文本内容划词标识的方法及装置
本专利技术涉及资源共享
,尤其涉及一种文本内容划词标识的方法及装置。
技术介绍
内容标识又称内容标引,即给内容添加关键字标签或分类标签,是内容检索、分类基础。总体来说,内容标识分为人工标识、计算机自动标识、计算机辅助标识(推荐标识,让人工进一步选择确认)。近年来,随着自然语言处理技术的发展,文本内容的计算机自动标识技术取得了长足的进步,在通用领域如财经、体育有着较高的准确度。但在许多应用场景、特别是垂直行业领域,依然是人工标识的方法。手势的应用在移动设备上应用较多,但基本都是对应预设的指令,比如翻页、解锁,切换等动作。鼠标手势(按住鼠标左键或右键,移动鼠标形成轨迹)应用相对较少,但也全都是对应指定的动作。划词功能在搜索上应用较多,但在内容标识上未见报道。现有技术中,自动标识系统在垂直行业的应用有以下难点:1.准确度不高,无法满足企业高标准的需求。2.第三方开放平台无法满足企业的个性化需求。垂直行业领域,需要建立专门的行业本体,并需求大量的行业语料做样本训练,才可以做关键词提取、内容分类。腾讯、阿里、百度到那个第三方NLP(自然语言处理)类开放平台虽然可以对普通内容(财经、体育等)进行关键词提取,但这些企业作为通用性开放平台,没有强大的市场需求和预期收益(不是单个企业能承受的),是不会做就某些垂直行业建行业本体和语料库。应用第三方开发平台提取的关键词无法与企业应用系统直接关联(比如提取的关键词是A,企业想要的是数据库定义的A的近义词A’)。3.企业应用自动标识系统的结果后无法将修正的内容反馈到第三方平台,以便下一次得到更准确的标识。4.定制化部署的内容自动标识系统成本高,技术门槛高,实施周期长,中小型企业无法承受。常规人工标识需要人工手动选择分类属性,输入关键词,效率低。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种文本内容划词标识的方法及装置,能够提高内容文本人工标识的速度和准确率,且技术成本低。为解决上述问题,本专利技术的一个实施例提供的一种文本内容划词标识的方法,适于在计算设备中执行,至少包括如下步骤:识别鼠标手势;在预定义库中查询与所述鼠标手势对应的维度,并确定与所述维度对应的目标表和匹配方法;将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户;根据选定的匹配结果,生成标签,并将所述标签存入用户页面缓存区;重复上述步骤,直至响应用户的保存指令,将所述用户页面缓存区的所有标签插入到数据库表中,作为文本内容的标识数据。进一步地,当用户只选定匹配结果时,所述标签为二元组标签,包括维度和属性值;当用户同时选定匹配结果和关联度时,所述标签为三元组标签,包括维度、属性值和关联度。进一步地,所述的文本内容划词标识的方法,在识别鼠标手势之前,还包括:预定义鼠标手势和维度的关系,以及维度与目标表和匹配方法的关系。进一步地,所述鼠标手势为以选定文本内容中的部分连续字符串区域为起始位置,划词的移动轨迹。进一步地,所述的文本内容划词标识的方法,在所述将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户之后,还包括:当所述匹配结果为两个及以上时,根据用户选定的匹配结果获取数据表中对应的ID;当所述匹配结果为一个时,直接选定该匹配结果,并获取数据表中对应的ID。进一步地,所述标识数据的标签记录表包括内容ID、维度ID、属性值ID、属性值和关联度;当匹配结果为空时,所述属性值ID为空。本专利技术的另一个实施例还提供了一种文本内容划词标识的装置,包括:识别模块,用于识别鼠标手势;查询模块,用于在预定义库中查询与所述鼠标手势对应的维度,并确定与所述维度对应的目标表和匹配方法;匹配模块,用于将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户;标签生成模块,根据选定的匹配结果,生成标签,并将所述标签存入用户页面缓存区;存储模块,用于重复上述步骤,直至响应用户的保存指令,将所述用户页面缓存区的所有标签插入到数据库表中,作为文本内容的标识数据。进一步地,当用户只选定匹配结果时,所述标签为二元组标签,包括维度和属性值;当用户同时选定匹配结果和关联度时,所述标签为三元组标签,包括维度、属性值和关联度;所述鼠标手势为以选定文本内容中的部分连续字符串区域为起始位置,划词的移动轨迹。进一步地,所述的文本内容划词标识的装置,还包括:预定义模块,用于预定义鼠标手势和维度的关系,以及维度与目标表和匹配方法的关系。进一步地,所述的文本内容划词标识的装置,在所述将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户之后,还包括:当所述匹配结果为两个及以上时,根据用户选定的匹配结果获取数据表中对应的ID;当所述匹配结果为一个时,直接选定该匹配结果,并获取数据表中对应的ID。本专利技术实施例提供的一种文本内容划词标识的方法及装置,技术成本低,通过预先定义鼠标手势与标识维度的关系;维度与目标表、匹配方法的关系,然后选定关键词后的划词鼠标手势的操作为,以选定的字符串为关键词,从鼠标手势对应的表中去搜索匹配此关键词,即此过程完成了关键词输入、维度表(属性类别)选择的过程,从而能够提高内容文本人工标识的速度和准确率,满足企业高标准的需求和个性化需求。附图说明图1是本专利技术的一个实施例提供的一种文本内容划词标识的方法的流程示意图;图2是本专利技术的一个实施例提供的一种文本内容划词标识的方法的另一流程示意图;图3是本专利技术的一个实施例提供的标识数据的标签记录表;图4是本专利技术的一个实施例提供的一种文本内容划词标识的装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当说明的是,实施例各个步骤前的序号仅是为了方便说明,不应当视为对各个步骤执行顺序的限定。第一方面,请参阅图1-3。本专利技术的一个实施例提供的一种文本内容划词标识的方法,适于在计算设备中执行,至少包括如下步骤:S1、识别鼠标手势。其中,所述鼠标手势为以选定文本内容中的部分连续字符串区域为起始位置,划词的移动轨迹。即,用鼠标选定文本内容中的部分连续字符串,以选定字符串区域为起始位置,按住鼠标(左键或右键,预先定义)移动鼠标形成的轨迹(屏幕上显示此轨迹便于用户区别)。在识别鼠标手势之前,还包括:预定义鼠标手势和维度的关系,以及维度与目标表和匹配方法的关系。具体的,定义鼠标手势与维度(属性类别)的关系(鼠标手势维度关系表),定义每个维度对应标签值(属性值)所在的目标表、字符的匹配方法。其中,匹配方法如首字匹配,中间开始匹配,完全匹配,区分大小写,中文拼音匹配、输入多少字符以内不匹配(为了性能)等。S2、在预定义库中查询与所述鼠标手势对应的维度,并确定与所述维度对应的目标表和匹配方法。在具体的实施本文档来自技高网
...

【技术保护点】
1.一种文本内容划词标识的方法,适于在计算设备中执行,其特征在于,至少包括如下步骤:识别鼠标手势;在预定义库中查询与所述鼠标手势对应的维度,并确定与所述维度对应的目标表和匹配方法;将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户;根据选定的匹配结果,生成标签,并将所述标签存入用户页面缓存区;重复上述步骤,直至响应用户的保存指令,将所述用户页面缓存区的所有标签插入到数据库表中,作为文本内容的标识数据。

【技术特征摘要】
1.一种文本内容划词标识的方法,适于在计算设备中执行,其特征在于,至少包括如下步骤:识别鼠标手势;在预定义库中查询与所述鼠标手势对应的维度,并确定与所述维度对应的目标表和匹配方法;将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户;根据选定的匹配结果,生成标签,并将所述标签存入用户页面缓存区;重复上述步骤,直至响应用户的保存指令,将所述用户页面缓存区的所有标签插入到数据库表中,作为文本内容的标识数据。2.根据权利要求1所述的文本内容划词标识的方法,其特征在于,当用户只选定匹配结果时,所述标签为二元组标签,包括维度和属性值;当用户同时选定匹配结果和关联度时,所述标签为三元组标签,包括维度、属性值和关联度。3.根据权利要求1所述的文本内容划词标识的方法,其特征在于,在识别鼠标手势之前,还包括:预定义鼠标手势和维度的关系,以及维度与目标表和匹配方法的关系。4.根据权利要求1所述的文本内容划词标识的方法,其特征在于,所述鼠标手势为以选定文本内容中的部分连续字符串区域为起始位置,划词的移动轨迹。5.根据权利要求1所述的文本内容划词标识的方法,其特征在于,在所述将所述鼠标手势所选定的字符串作为关键词,在所述目标表中使用所述匹配方法,对所述关键词进行匹配,并将匹配结果呈现给用户之后,还包括:当所述匹配结果为两个及以上时,根据用户选定的匹配结果获取数据表中对应的ID;当所述匹配结果为一个时,直接选定该匹配结果,并获取数据表中对应的ID。6.根据权利要求1所述的文本内容划词标识的方法,其特征在于,所述标识数据的...

【专利技术属性】
技术研发人员:成洪山吴忠辉
申请(专利权)人:广州市西美信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1