1、敏感数据识别
数据分类分级的准确度和效率取决于工具的识别能力是否强大,即"工具是不是真的能够看到数据、看懂数据"。
1.1落地难点
大多数用于数据分类的安全工具都是基于模式匹配和相对敏感度,然后将结果记录在存储库中或作为标签或文档上的标签。敏感数据识别策略是数据识别的核心能力点。
[En]
Most security tools for data classification are based on pattern matching and relative sensitivity, and then record the results in the repository or as tags or tags on documents. Sensitive data recognition strategy is a core capability point of data recognition.
市场上的工具大多选择从数据特征明显的数据中切入。例如,身份证号码有固定的代码,手机号码有固定的数字格式,姓名、国籍等都有容易定义和区分的含义,识别策略也很容易设计。
[En]
Most of the tools on the market choose to cut in from data with obvious data characteristics. For example, the ID card number has a fixed code, the mobile phone number has a fixed digit format, the name, nationality and so on all have the meaning that is easy to define and distinguish, and the recognition strategy is easy to design.
特定客户和不断增长的业务数据往往没有明显的数据特征,甚至在数据分类和分类的框架下可能会有歧义。例如,名称可以是员工或用户,在不同的业务场景和数据类别中具有不同的重要性和敏感度。例如,数字35可以是门牌号、温度-几乎是任何东西,当数据分类和分级产品仅限于模式匹配以进行发现和分类时,如果没有明显的数据特征,几乎不可能找出什么是商业数据。
[En]
Customer-specific and growing business data often do not have obvious data characteristics and may even have ambiguity under the framework of data classification and classification. For example, a name, which may be an employee or a user, has different importance and sensitivity in different business scenarios and data categories. For example, the number 35 can be a house number, temperature-virtually anything, and when data classification and grading products are limited to pattern matching for discovery and classification, it is almost impossible to find out what a business data is without obvious data features.
1.2技术实现
1.2.1常规识别技术
①基于规则 的自动识别, 比如:正则表达式、关键字、算法、数据字典、包含、等于、字段名等规则。
通过用户定义的规则,自动识别敏感数据,并使用其自己的规则或自定义规则将其结构化表格或非结构化文件作为一个整体进行扫描。
[En]
Through user-defined rules, sensitive data is automatically identified, and its structured tables or unstructured files are scanned as a whole using its own rules or custom rules.
如何发现敏感数据字段?
通过定期扫描整个库来识别敏感字段(周期性触发器)。如果增加或修改了表和字段,并通过增量扫描识别敏感字段,则需要监控数据库对表或字段的操作,指定用于敏感标识扫描的表或字段,并结合数据库代理服务。
[En]
Identify sensitive fields (periodic triggers) by periodically scanning the entire library. If tables and fields are added or modified and sensitive fields are identified by incremental scanning, it is necessary to monitor the operation of the database on tables or fields to specify tables or fields for sensitive identification scanning, combined with database agent service.
日常的一些敏感数据识别
银行卡号、证号、手机号,有明确的规则,可以根据正则表达式和算法进行匹配;姓名、特殊字段,没有明确的信息,可以是任意字符串,可以通过配置关键字进行匹配;营业执照、地址、图片等,没有明确的规则,可以通过自然语言算法识别,使用开源算法库。
[En]
Bank card number, certificate number, mobile phone number, there are clear rules, can be matched according to regular expressions and algorithms; names, special fields, no clear information, may be any string, can be matched by configuring keywords; business licenses, addresses, pictures, etc., without clear rules, can be identified through natural language algorithms, using open source algorithm libraries.
②字段名匹配
对于已经做过元数据梳理或手动分类评分的客户,可以派生敏感数据的字段名称,在数据分类评分工具中录入数据库中表字段对应的敏感数据名称,将敏感数据100%与敏感数据直接匹配,避免重复性工作。
[En]
For customers who have done metadata carding or manual classification and grading, you can derive the field names of sensitive data, enter the names of sensitive data corresponding to table fields in the database in the data classification and grading tool, and directly match 100% of sensitive data to sensitive data, which can avoid repetitive work.
③人工辅助的数据资产识别
技术工具识别的结果不如人工准确,在敏感数据识别过程中应保留人工二次确认,以提高准确率。
[En]
The results identified by technical tools are not as accurate as manual, so the manual secondary confirmation should be reserved in the process of sensitive data identification to improve the accuracy.
能落地的数据分类分级工具必须经过大量项目的沉淀,通过深度接触客户的业务,理解具体场景中的数据含义,掌握各种数据处理活动中的数据流动情况,再将这些知识和经验集成到工具中,才能发挥实际作用。
1.2.2AI(人工智能)和ML(机器学习)
理想化的数据分类和分类技术工具应该具有数据分类的语义能力--确定数据和业务场景的实际情况,而不是依赖预配置的标识。
[En]
Idealized technical tools for data classification and classification should have the semantic ability of data classification-to determine the actual situation of the data and business scenarios, rather than relying on preconfigured identifiers.
安全厂商正在努力摆脱算法模式匹配,并正在添加基于人工智能/机器学习的功能,使技术工具的语义功能可以识别出"真正"的数据。
下面简单介绍一下基于人工智能的敏感数据发现。
①基于 NLP 自然语言技术 的自动识别
自然语言处理(NLP)是指机器理解并解释人类paralyzes写作、说话方式的能力。NLP的目标是让计算机/机器在理解语言上像人类一样智能。
插入一段科普:人工智能三大阶段
阶段 1——机器学习:智能系统使用一系列算法从经验中进行学习。
阶段 2——机器智能:机器使用的一系列从经验中进行学习的高级算法,例如深度神经网络。人工智能目前处于此阶段。
阶段 3——机器意识:不需要外部数据就能从经验中自学习。
具体的算法模型不展开讨论,AI技术对于敏感数据的自动识别有关键意义。目前业内智能化打标一般指的是针对敏感数据进行打标。借助正则表达式、关键词、文档指纹、NLP、OCR、机器学习等先进AI技术提取敏感数据特征,建立相应敏感识别规则,然后统一录入规则引擎。
②机器学习
机器学习是未来战略技术的发展趋势之一。当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法。机器学习在当前的大数据技术中扮演着重要的角色。机器学习致力于研究如何通过计算和使用经验来提高系统的性能。在计算机系统中,“经验”通常以“数据”的形式存在。因此,机器学习的主要内容是从计算机上的数据生成“模型”的算法,即“学习算法”。
[En]
Machine learning is one of the trends of strategic technology in the future. today's most advanced machine learning and artificial intelligence systems are surpassing the traditional rule-based algorithms. Machine learning plays an important role in the current big data technology. Machine learning is devoted to studying how to improve the performance of the system by means of computing and using experience. In computer systems, "experience" usually exists in the form of "data". Therefore, the main content of machine learning is about the algorithm of generating "model" from data on computer, that is, "learning algorithm".
- *基于相似度算法
基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。
首先,人工或通过感知算法提取文档指纹特征,以检测检索到的原始文档的受保护文档的部分、草稿或不同版本。第二步是学习和培训敏感文件。在获取包含敏感内容的文档时,利用语义分析技术进行分词,提出需要学习和训练的敏感信息文档的指纹模型,然后使用相同的方法捕获测试文档或内容的指纹,并将获得的指纹与训练后的指纹进行比较。根据预设的相似度阈值确定检测到的文档是否为敏感信息文档。
[En]
First of all, the document fingerprint features are extracted manually or by perceptual algorithm to detect the retrieved parts, drafts or different versions of the protected document of the original document. The second step is to learn and train sensitive documents. When obtaining documents with sensitive content, we use the technology of semantic analysis to segment words, put forward the fingerprint model of sensitive information documents that need to be studied and trained, and then use the same method to capture the fingerprints of the tested documents or contents, and compare the obtained fingerprints with the trained fingerprints. Confirm whether the detected document is a sensitive information document according to the preset similarity threshold.
- *基于非监督学习算法
基于无监督学习算法,人工无需打标签,进行特征设计与提取。
比如敏感图像场景提取目标关键点、文档数据根据语义提取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法,然后将敏感数据待分类的数目赋为聚类"簇"的个数,将输入的样本数据进行聚类,聚类完成形成不同"簇"的数据集合,人工对这些"簇"的部分样本进行分析并确定相应"簇"的类别,比如敏感型、非敏感型。
- *基于监督学习算法
有监督学习算法需要收集一定数量的训练数据,并对数据进行人工标注,如敏感/非敏感标签(两种分类场景)。然后选择相应的监督学习算法,如支持向量、决策树、随机森林、神经网络等,对训练数据进行训练并调整参数。训练完成后,将输出模型应用于新数据进行智能识别和预测,自动输出数据类型敏感/非敏感数据。
[En]
The supervised learning algorithm needs to collect a certain amount of training data and label the data manually, such as sensitive / non-sensitive tags (two classification scenarios). Then select the corresponding supervised learning algorithm, such as support vector, decision tree, random forest, neural network and so on, and then train the training data and adjust the parameters. After the completion of the training, the output model is applied to the new data for intelligent identification and prediction, and the data type-sensitive / non-sensitive data is output automatically.
目前,一些公司声称使用机器学习和聚类算法来实现大规模数据分类,以自动发现个人数据和其他敏感数据,但算法的效率、识别精度和可扩展性仍是一系列具有挑战性的关键问题。
[En]
At present, some companies claim to use machine learning and clustering algorithms to achieve large-scale data classification to automatically discover personal data and other sensitive data, but the efficiency, recognition accuracy and scalability of the algorithm are still a series of challenging key issues.
③深度学习
深度学习是机器学习的一个重要分支。在自然语言处理中,需要应用深度学习模型,如卷积神经网络、循环神经网络等,通过学习生成的词向量来完成自然语言的分类和理解过程。
[En]
Deep learning is a major branch of machine learning. In natural language processing, it is necessary to apply deep learning models, such as convolution neural network, cyclic neural network, etc., to complete the process of natural language classification and understanding by learning the generated word vectors.
与传统机器学习相比,基于深度学习的自然语言处理技术具有以下优势:
[En]
Compared with traditional machine learning, natural language processing technology based on deep learning has the following advantages:
(1)深度学习能够以词或句子的向量化为前提,不断学习语言特征,掌握更高层次、更加抽象的语言特征,满足大量特征工程的自然语言处理要求。
(2)深度学习无需专家人工定义训练集,可通过神经网络自动学习高层次特征
简单例举机器学习中三种敏感数据识别的算法模型,具体技术细节不展开讨论。通过机器学习算法对数据进行多维度元数据特征向量自动提取,对相似字段的数据字段进行聚合归类。数据分类分级工具在有足够数据样板的条件下是可以支持机器学习的,通过各种AI算法自动完成敏感数据识别、分类分级,缩减了所投入的人力成本,敏感数据识别规则的沉淀随着分类分级工作的深入开展,边际成本递减。
1.3敏感数据识别存在的问题
- 全库扫描占用资源较大,是否可以使用采样的方式
- 应对增量数据如何处理,除了执行定期扫描是否还有其他方式
- 脏数据的判断识别,有的字段是NULL或者空格的,是否可以直接默认是定义为敏感级别
- 数据标注,是对整个数据库的字段进行标注,还是只对采样数据进行标注,单独存储,以备日后统计分析。
[En]
data tagging, whether to mark the fields of the whole database or only the sampled data, and store them separately for later statistical analysis.*
- 机器学习和聚类算法是否成熟,需要考虑精确度和效率。
2、分类分级进阶功能
2.1数据资产管理
支持数据源手动添加、自动发现、API 对接三种模式。
- 手工添加数据库,配置数据库的详细连接信息。
- API 通用接口对接其他数据平台的元数据。
- 自动发现在通过IP地址区间和端口扫描自动化发现网络环境中存在的数据库。
2.2数据分类分级
数据的自动分类和分类。利用内置的识别模型和配置的分类分类规则对识别出的数据资产进行分析,自动完成敏感数据识别和数据分类。
[En]
Automatic classification and classification of data. The identified data assets are analyzed with the built-in identification model and configured classification and classification rules, and sensitive data identification and data classification are completed automatically.
显示了分类和分类的结果。分类分类自动标注完成后,需要显示自动识别审批的数据分类和分类结果列表,并支持手动修改。
[En]
The results of classification and classification are displayed. After completing the automatic marking of classification and classification, it is necessary to display the list of data classification and classification results that are automatically identified for review and approval, and support manual modification.
2.3数据资产地图
Original: https://blog.csdn.net/weixin_52069830/article/details/124854196
Author: Financial talent
Title: 数据分类分级的深度思考

TensorFlow笔记——基本函数及概念

tensorflow环境搭建教程

Tensorflow — feature_column

语音识别热词_TICA 2019 小爱同学语音识别评测

机器学习-SVM

深度学习TensorFlow—保存和加载 Keras 模型

【深度学习训练流程】浅析深度学习训练流程

chap1-绪论

深度学习参数初始化(一)Xavier初始化 含代码

语音识别插件_语音识别技术,将语音转换为文本

安装PCL库【完全版】

ConvNeXt原理+代码详解(通透)

Mac m1芯片anaconda上安装tensorflow

ModuleNotFoundError: No module named ‘d2l’
