数据脱敏方案V1.1

2026/4/29 20:07:34

个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等，这些都是人的隐私，也是我们所关注的一类敏感信息，在大数据价值挖掘的基础上如何保护人的隐私信息，也将是数据脱敏必须解决的难题。 1.3. 数据脱敏需求

随着国家电网数据应用的不断深入，有许多应用需要和外部系统对接，数据需要对外提供服务才能体现出它的价值，大数据时代是数据融合的时代，如何在数据融合的过程中，保证数据在开发、测试、生产、应用等各个环节的安全，成为信息安全部门的重要任务。

国家电网数据脱敏需求包括：通过数据抽取、数据漂白、数据混淆等处理过程，用来满足测试、开发、培训、数据共享和数据融合场景下的敏感数据保护需求，并使得数据处理过程满足国家电网的敏感数据防护的政策规定。

具体脱敏需求包括：

? 防止生产库中的敏感数据泄漏

通过对生产库中的身份、地址、用户卡号、手机号等敏感信息进行混淆、打乱后再提供给第三方使用，防止生产库中的敏感数据泄漏。

? 保证测试、开发、应用阶段的数据关联性

通过脱敏策略和算法，保证脱敏数据有效性（保持原有数据类型和业务格式不变）、完整性（保证长度不变、数据含义不丢失）、关系性（保持表间、表内数据关联关系）。以提升测试、开发、应用环节的数据真实性和可用性。

? 保证数据维护和数据共享的安全

对数据库访问者的用户名、IP、工具类型、时间等进行监控，控制数据访问结果的差异化，数据结果可以划分为真实数据、掩码数据、数据阻断、行限定数据等，通过访问者的不同访问策略，满足细粒度的数据访问需求。例如DBA可维护但无法查看敏感数据、业务系统可以访问真实数据、分析系统可以访问脱敏后的数据。

? 保证隐私数据管理的政策合规性

数据的脱敏和数据处理必须在国家电网的相关政策规定允许的情况下进行，脱敏规则符合国家电网的数据管理要求。

第5页

2. 脱敏方案

2.1. 脱敏流程

数据脱敏的流程一般分为：敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行四大步骤，结合数据脱敏算法、数据脱敏规则以及脱敏的环境来达到最佳的数据脱敏效果。

2.1.1. 敏感数据发现

敏感数据的发现分为人工发现和自动发现两种。对于国家电网相对固定的业务数据，可以采用人工甄别，明确指定那些列、那些库的数据是需要脱敏，这些数据一般数据结构和数据长度不会有变化，大部分为数值型和固定长度的字符。比如：单位代码、户号、户名、用电地址等标识列，针对这些数据可以通过人工指定脱敏规则和不同的数据访问策略，保证敏感信息不被泄漏。自动识别根据人工指定或预定义的敏感数据特征，借助敏感数据信息库和分词系统，自动识别数据库中包含的敏感信息，相对于人工识别可以减少工作量和防止遗漏。一般采用自动发现为主，结合人工发现和审核，来完成敏感数据的发现和定义，最终形成完善的敏感数据字典。

2.1.2. 敏感数据梳理

在敏感数据发现的基础上，完成敏感数据列、敏感数据关系的调整，以保证数据的关联关系。通过屏蔽、变形、替换、随机、格式保留加密、强加密等数据脱敏算法，针对不同的数据类型进行数据掩码扰乱。

2.1.3. 脱敏方案制定

对于不同的数据脱敏需求，在基础脱敏算法的基础上，可配置专门的脱敏策略。脱敏方案的制定主要依靠脱敏策略和脱敏算法的复用来实现，通过配置和扩展脱密算法以制定最优方案。

第6页

2.1.4. 脱敏任务执行

脱敏任务的停止、启动、暂停等操作，支持任务并行处理，支持脱敏任务的中断续延等。

2.2. 脱敏算法

2.2.1. 脱敏算法特征

通常根据不同数据特征选择不同的脱敏算法，对常见数据如姓名、证件号、银行账户、金额、日期、住址、电话号码、Email 地址、车牌号、车架号、企业名称、工商注册号、组织机构代码、纳税人识别号等敏感数据进行脱敏，脱敏算法通常包括屏蔽、变形、替换、随机、格式保留加密（FPE）和强加密算法（如AES ）。脱敏算法具有如下特性：

? 同义替换

使用相同含义的数据替换原有的敏感数据，如姓名脱敏后仍然为有意义的姓名，住址脱敏后仍然为住址。

? 部分数据遮蔽

将原数据中部分或全部内容，用“*”或“# ”等字符进行替换，遮盖部分或全部原文。

? 混合屏蔽

将相关的列作为一个组进行屏蔽，以保证这些相关列中被屏蔽的数据保持同样的关系，例如，城市、省、邮编在屏蔽后保持一致。

? 确定性屏蔽

确保在运行屏蔽后生成可重复的屏蔽值。可确保特定的值（如，客户号、身份证号码、银行卡号）在所有数据库中屏蔽为同一个值。

? 可逆脱敏

确保脱敏后的数据可还原，便于将第三方分析机构和内部分析团队基于脱敏后数据上的分析的结果还原为业务数据。

2.2.2. K-Anonymity (K-匿名)

算法描述：

第7页

要求对于任意一行记录，其所属的相等集内记录数量不小于k，即至少有k-1条记录半标识列属性值与该条记录相同。

理论上来说，对于 K-Anonymity 数据集，对于任意记录，攻击者只有 1/k 的概率将该记录与具体用户关联。算法步骤：

? 先移除标识列 ? 泛化半标识列

算法优缺点：

? 优点：

可以用于保护个人标识泄漏的风险。

? 缺点：

容易受到链接式攻击，无法保护属性泄露的风险。对于 K-Anonymity 的数据集，攻击者可能通过同质属性攻击与背景知识攻击两种方式攻击用户的属性信息。对移除标识列的数据根据半标识列进行分组，每组最少有 k 条记录，每组中至少有 k-1 条记录的半标识列的值与该记录相同。

2.2.3. L-Diversity

算法描述：

? 如果对于任意相等集内所有记录对应的敏感数据的集合，包含 L 个 “合

第8页

数据脱敏方案V1.1.doc 将本文的Word文档下载到电脑

下载这篇word文档