什么是数据管理?
数据管理是收集、存储、保护和使用组织数据的流程。由于当下组织有一些不同的数据来源,他们必须分析和整合数据,以获得用于战略规划的商业智能。数据管理包括在法律法规范围内提高数据可用性的所有策略、工具和程序。
为什么数据管理非常重要?
现代组织将数据视为宝贵资源。通过访问大量和不同类型的数据,组织在数据存储和管理基础设施方面进行巨额投资。他们使用数据管理系统更高效地运行商业智能和数据分析操作。以下是数据管理的一些优势。
增加收入和利润
数据分析可以更深入地了解业务的各个方面。您可以根据这些见解采取行动,优化业务运营并降低成本。数据分析还可以预测决策的未来影响,改善决策和业务规划。因此,通过改进数据管理技术,组织可实现显著的收入增长和利润。
降低数据不一致性
数据孤岛是组织内只有一个部门或一个小组可以访问的原始数据的集合。数据孤岛会产生不一致性,从而降低数据分析结果的可靠性。数据管理解决方案集成数据并创建集中式数据视图,以提升部门之间的协作。
符合法规合规性
《通用数据保护条例》(GDPR) 和《加州消费者隐私法》(CCPA) 等法律旨在保护客户数据。这些数据保护法包括要求:
-
同意采集数据
-
严格控制数据的位置和使用
-
根据要求安全存储和删除数据
因此,组织需要一个公平、透明和保密的数据管理系统,以保护数据,同时保持准确性。
数据管理有哪些重点领域?
除了数据治理外,数据管理实践还涵盖高质量数据的收集和分发,以控制数据访问权限。
数据治理包括组织为管理数据安全性、完整性和可靠的数据实用工具而实施的策略和程序。其定义数据管理策略并确定哪些人可以访问哪些数据。数据治理策略还建立了团队以及个人访问和使用数据方式的问责制。数据治理职能通常包括:
数据概要分析
数据分析是分析数据以确定其结构、质量和特征的诊断过程。这是了解现有数据集的第一步,用于决定在使用前是否需要重构。
数据世系
数据谱系跟踪组织中的数据流动。带时间戳的数据谱系用于确定数据片段的来源、使用方式以及何时进行转换。这种数据管理过程在审计过程中尤其重要。
数据目录
数据目录是组织数据资产和相关元数据的集合。通过将所有与数据相关的信息存储在中央目录中,它成为组织内的主要数据注册表。用户可以期望数据目录包含有关所有数据资产的最新信息。
数据安全性与访问控制
数据治理可防止未经授权访问数据,并保护数据免受损坏。其包括保护的各个方面,如下所述:
- 防止意外移动或删除数据
- 保护网络访问,从而降低网络攻击的风险
- 验证存储数据的物理数据中心是否满足安全要求
- 即使员工通过个人设备访问数据,也能确保数据安全
- 用户身份验证、授权以及数据访问权限的设置和实施
- 确保存储的数据符合存储数据所在国家/地区的法律
- 为敏感数据添加额外的控制层
数据合规性
数据合规政策降低了监管部门罚款或诉讼的风险。遵守GDPR和CCPA等合规法律对运营至关重要。
合规活动侧重于数据建模、软件控制和员工培训,以便在各个层面都遵守法律。例如,某个组织与外部开发团队协作来改进其数据系统。在将数据传递给外部团队用于测试之前,数据治理经理会验证是否已删除所有个人数据。
数据生命周期管理
数据生命周期管理是指在整个生命周期中管理数据的过程。
例如:
- 数据必须在摄取时定期进行验证
- 出于审计目的,必须在特定的时间段内保存数据
- 不再需要时必须删除数据
数据质量管理
数据用户期望数据对于每个用例都足够可靠和一致。
数据质量经理负责衡量并改进组织的数据质量。数据质量经理需要审查现有数据和新数据,并验证其是否符合标准。数据质量经理还可能需要设置数据管理流程,阻止低质量数据进入系统。数据质量标准通常衡量以下方面:
- 是否缺少关键信息,还是数据完整?(例如,客户遗漏了关键联系信息)
- 数据是否符合基本的数据检查规则? (例如,电话号码应为特定的位数)
- 同一数据在系统中多久出现一次?(例如,同一客户的重复数据条目)
- 数据准确吗?(例如,客户输入了错误的电子邮件地址)
- 整个系统的数据质量是否一致?(例如,出生日期在一个数据集中为 dd/mm/yyyy 格式,但在另一个数据集中为 mm/dd/yyyy 格式)
数据集成
数据分发的端点
对于大多数组织,数据必须分发到(或靠近)需要数据的各个端点。其中包括操作系统、数据湖和数据仓库。由于网络延迟,数据分发是必要的。当操作用途需要数据时,网络延迟可能不足以及时交付数据。将数据副本存储在本地数据库中可以解决网络延迟问题。
数据分发对于数据整合也是必要的。数据仓库和数据湖需要整合来自不同来源的数据,以提供信息的整合视图。数据仓库用于分析和决策,而数据湖是一个整合的枢纽,可以从中提取各种使用案例的数据。
数据复制机制及其对一致性的影响
数据分发机制对数据一致性有潜在影响,这是数据管理中的一个重要考虑因素。
数据的同步复制可达成强大的一致性。在这种方法中,当数据值更改时,所有应用程序和用户都将看到更改后的数据值。如果尚未复制数据的新值,则在更新所有副本之前,将阻止对数据的访问。同步复制确保了一致性优先于性能和数据访问。同步复制最常用于财务数据。
数据的异步复制可产生最终的一致性。当数据更改时,最终会更新副本(通常在几秒钟内),但不会阻止对过期副本的访问。对于许多使用案例,这不是一个问题。例如,社交媒体帖子、点赞和评论不需要很强的一致性。另一个例子是,如果客户在一个应用程序中更改了电话号码,则此更改可以异步级联。
流式传输与批量更新的比较
数据流在发生数据更改时级联数据更改。如果需要访问近实时数据,这是首选方法。数据一经更改,就被提取、转换并传递到其目的地。
如果数据必须在交付前批量处理,则批量更新更为合适。汇总或执行数据的统计分析并仅提供结果就是一个很好的例子。如果在特定时间点提取所有数据,则批量更新还可以保持数据的时间点内部一致性。通过提取、转换和加载(ETL 或 ELT)过程进行的批量更新通常用于数据湖、数据仓库和分析。
主数据管理
主数据管理 (MDM) 是指管理基本业务数据的过程。数据一致性和数据同步都与 MDM 高度相关。
主数据示例包括客户数据、合作伙伴数据和产品数据。这些基本数据主要是持久性的,不经常变化。正在使用的此类数据的示例包括客户关系管理 (CRM) 和企业资源规划 (ERP) 软件。
主数据管理对于确保其跨系统的准确性至关重要,包括更新时的同步和数据集成。

数据管理面临哪些挑战?
以下是数据管理面临的常见挑战。
规模与性能
组织需要的数据管理软件应当做到:即使大规模运行也能高效运行。他们必须持续监控和重新配置数据管理基础设施,确保即使数据呈指数级增长,也能维持峰值响应时间。
不断变化的要求
合规性法规不仅非常复杂,而且随时间不断变化。同样,客户要求和企业需求也在快速变化。组织可选择的数据管理平台较多,但必须持续评估基础设施决策,以维持最高的 IT 敏捷性、法律合规性和更低的成本。
员工培训
在任何组织中启动数据管理流程都具有挑战性。庞大的数据量可能会让人不知所措,部门间的孤岛也可能存在。规划新的数据管理策略并使员工接受新的系统和流程耗时耗力。
数据管理有哪些最佳实践?
数据管理最佳实践构成了成功的数据策略的基础。以下是常见的数据管理原则,可帮助您建立强大的数据基础。
团队协作
企业用户和技术团队必须协作,以确保满足组织的数据要求。所有数据处理和分析都应优先考虑商业智能要求。否则,不仅收集的数据无法使用,而且资源在计划不周的数据管理项目中白白浪费。
自动化
成功的数据管理策略会将自动化整合到大多数数据处理和准备任务中。手动执行数据转换任务很乏味,还会导致系统错误。即使是数量有限的手动任务(例如每周运行批处理任务)也可能导致出现系统瓶颈。数据管理软件可以支持更快速、更高效的扩展。
云计算
企业需要现代化的数据管理解决方案,以为其提供广泛的功能。云解决方案可以在不影响性能的情况下大规模管理数据管理的各个方面。例如,AWS 在单个账户中提供各种功能,例如数据库、数据湖、分析、数据可访问性、数据治理和安全性。
亚马逊云科技如何为数据管理提供帮助?
AWS 是一个全球数据管理平台,可用于构建现代云数据管理策略。这些只是一些可以帮助构建现代云数据基础设施的服务。
Amazon DataZone 是一项数据管理服务,可让客户更快、更轻松地对存储在 AWS、本地和第三方来源的数据进行编目、发现、共享和管理。
AWS G lue 是一项无服务器服务,可让数据集成更简单、更快速、更便宜。您可以发现并连接到 100 多个不同的数据来源,在集中式数据目录中管理您的数据,并以可视化方式创建、运行和监控数据管道,进而将数据加载到数据湖、数据仓库和湖仓中。
亚马逊简单存储服务 (Amazon S3) 是一项对象存储服务,提供业界领先的可扩展性、数据可用性、安全性和性能。数百万不同规模和行业的客户可以为几乎任何使用案例存储、管理、分析和保护任意数量的数据,例如数据湖、云原生应用程序和移动应用程序。
AWS Lake Formation 允许您集中管理、保护和共享用于分析和机器学习的数据。AWS Lake Formation 可帮助您集中管理和扩展细粒度的数据访问权限,并放心地在组织内外共享数据。
亚马逊关系数据库服务 (Amazon RDS) 是一种易于管理的关系数据库服务,针对总拥有成本进行了优化。我们可根据需求进行设置、操作和扩展,非常简便。
亚马逊虚拟私有云 (Amazon VPC) 帮助您在逻辑隔离的虚拟网络中定义和启动 AWS 资源。Amazon VPC 有助于确保整个云环境的数据隐私。
立即创建 AWS 账户,开始在 AWS 上构建您的云数据管理解决方案。