18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 行业动态 > 提升非规范化敏感数据识别率,为数据安全保驾护航

提升非规范化敏感数据识别率,为数据安全保驾护航

时间:2022-03-23 17:36:01 | 来源:行业动态

时间:2022-03-23 17:36:01 来源:行业动态

首先,数据脱敏系统需要采集业务系统数据库中的元数据,包括模式名、表名、字段名、字段类型、注释信息,系统会根据字段类型对数据的类型进行初步的判断。随后,数据脱敏系统会采集业务系统的样本数据,对每张数据表进行随机抽样,抽样时需要剔除噪声数据,包括空字符、null对象等,从而提高数据样本质量。

样本采集后,系统会对样本数据进行清洗和标准化处理。如果样本数据是规范且具有某种数据特征,数据脱敏系统会对样本数据进行精准识别。但通常会有一些样本数据并不规范,会导致系统识别出现误差。比如客户在录入电话号码的时候,可能将88188286写成02888188286、028-88188286、(028)-88188286、88188286。对此,系统需要对样本数据进行清洗和标准化处理,比如:将影响识别的字符诸如空格、非常用特殊字符、括号、中横杠等去掉;将全角类字符自动转换为半角字符;将乱码字符替换成汉字或剔除等。

最后,数据脱敏系统会对获取的样本数据进行分类与识别。在初步的分类中,系统会根据样本数据的数据类型进行归类,比如字符类型的数据通常不会存储金额类数据;数值类型的数据不会存储名称、地址类数据;日期类型的数据只能是日期时间类数据;大对象字段通常存储有文本、图片、报文等特殊的数据。

在对样本数据的识别上,数据脱敏系统会进行三轮识别。首轮识别中,系统根据数据的词汇特点进行初步匹配,对数据进行敏感信息大类划分,例如,全是汉字或汉字占比较高的可能是名称、地址等敏感信息类,全是数字或数字占比较高的可能是电话、账号等敏感信息类。首轮的识别和分类,可以减少数据脱敏系统对敏感数据识别的总体时间,提升识别效率;第二轮精确识别中,系统通过内置的高级识别算法对样本数据特征进行词法分析,并完成敏感数据的精确识别,识别成功的数据根据分类自动归纳到某种敏感信息类,识别失败的数据则交给AI敏感数据扫描引擎处理;AI敏感数据扫描引擎会加载某敏感类型和训练模型,经过模型运算输出敏感信息识别率,通过敏感信息识别率与敏感类型阀值大小比较判断是否识别成功,完成第三轮深度扫描识别。

通过AI敏感数据扫描引擎识别非规范化敏感数据的精确度会远远高于非AI识别算法。以下面的扫描对比情况为例:ADDRESS的数据是规范化数据,CLIENT_ADDRESS的数据是非规范化数据,通过非AI识别算法,扫描CLIENT_ADDRESS的识别率仅仅13.33,而使用AI敏感数据扫描引擎后,识别率能达到73.33%。





基于强大的数据安全管理能力,目前,神州数码TDMP数据脱敏系统已在银行、保险、证券等领域多个头部客户的实际应用场景中落地。未来,以数据安全法提出的更高要求为目标,神州数码将继续积极探索,为企业的数据安全保驾护航,为数字经济发展提供安全稳定的保障。

关键词:数据,安全,保驾

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭