侧边栏壁纸
博主头像
tobehacker

所谓机会主义,就是这里有利就干这件事,那里有利就干那件事,没有一定的原则,没有一定的章程,没有一定的方向,他今天是这样,明天又是那样。

  • 累计撰写 28 篇文章
  • 累计创建 12 个标签
  • 累计收到 4 条评论

目 录CONTENT

文章目录

数据治理-什么是元数据?

tust
2025-02-08 / 0 评论 / 0 点赞 / 11 阅读 / 0 字 / 正在检测是否收录...

元数据概念

元数据(Metadata)简单来说,就是“关于数据的数据”。它用于描述数据的基本信息,让人们更易于理解、管理和使用数据。就好比一本书的目录和前言,目录告诉你书里有哪些章节,前言介绍这本书的创作背景、主题等,这些信息帮助你快速了解这本书的内容架构和核心要点,元数据之于数据就类似这样的作用。

元数据分类

  1. 技术元数据:主要描述数据在技术层面的信息,比如数据的存储位置、数据格式、数据库表结构、数据抽取与转换规则等。例如在企业的数据库系统中,一张员工信息表,技术元数据会记录该表存储在哪个数据库服务器的哪个实例下,表中的字段数据类型(如员工工号是字符型,年龄是数值型),以及从其他数据源抽取数据到这张表时经过了哪些转换操作(如日期格式的转换)。
  2. 业务元数据:侧重于对数据业务含义的解释。它定义了数据在业务场景中的意义、用途、业务规则等。比如员工信息表中的“性别”字段,业务元数据会说明这个字段代表员工的生理性别,取值规则为“男”或“女”,并且在业务流程中,该字段用于统计男女员工比例等业务分析。
  3. 管理元数据:涉及数据管理过程中的相关信息,包括数据的所有者、数据的安全级别、数据的更新频率等。例如员工信息表的管理元数据会表明这张表的数据所有者是人力资源部门,数据的安全级别为内部机密,仅允许特定权限的人员访问,并且数据每周一凌晨会根据最新的员工入职、离职等情况进行更新。

以下以电商场景为例,说明元数据的概念、分类及具体表现:

在电商领域,元数据就像是电商平台庞大数据库的“导航图”与“说明书”。它详细记录关于各类业务数据的关键信息,让电商企业能够精准地理解、高效地管理以及灵活运用这些数据,从而支撑电商业务的各个环节,从商品展示到交易处理,再到客户服务与数据分析。

分类

  1. 技术元数据
    • 数据存储信息:电商平台的商品数据存储在分布式数据库集群中,不同区域的数据分别存储在特定的服务器节点上。例如,华北地区的商品库存数据存储在“server - hb - 01”“server - hb - 02”等服务器中,通过分布式文件系统(如Ceph)进行管理。
    • 数据格式:商品描述信息采用JSON格式,因为其具有良好的可读性与跨平台性,便于在前端页面展示和后端系统处理。例如一款手机的商品描述数据为:
{
    "brand": "小米",
    "model": "14 Pro",
    "description": "搭载骁龙8 Gen 3处理器,拥有2K分辨率屏幕……",
    "price": 4999.00
}
  • 数据处理规则:在订单处理系统中,当顾客下单后,系统会自动从库存数据中减去相应商品的数量。这个数据更新规则通过一系列的SQL存储过程实现,确保库存数量的实时准确性。例如:
CREATE PROCEDURE update_stock(IN product_id INT, IN quantity INT)
BEGIN
    UPDATE products
    SET stock = stock - quantity
    WHERE product_id = product_id;
END;
  1. 业务元数据

    • 业务定义:在电商平台上,“商品评论”是指消费者购买商品后,对商品的质量、性能、外观等方面发表的评价内容。这些评论不仅为其他消费者提供购物参考,也帮助商家了解产品优缺点,改进产品和服务。
    • 业务规则:商品的“促销活动”规则明确规定,参与“满减活动”的商品,只有订单金额达到设定的满减门槛(如满300减50)时,才能享受相应的优惠。而且,同一商品在同一时间只能参与一种促销活动,以避免优惠冲突。
    • 业务含义:“用户购买转化率”这一指标,是指访问商品详情页的用户中,最终完成购买行为的用户比例。它反映了商品页面的吸引力、商品定价的合理性以及购买流程的便捷性等多方面因素,对电商运营策略的制定具有重要指导意义。
  2. 管理元数据

    • 数据所有权:电商平台的用户数据归平台运营公司所有,但平台需严格遵守相关法律法规,保护用户隐私。用户数据的管理和维护由平台的数据安全团队负责,确保数据的安全性与合规性。
    • 数据安全级别:用户的支付信息被设定为最高安全级别,采用加密算法(如AES 256位加密)进行存储和传输,只有经过授权的支付系统模块才能解密和处理这些数据。而商品的基本描述信息安全级别相对较低,可公开访问。
    • 数据生命周期管理:电商平台的“历史订单数据”,在订单完成后的一年内会被完整保存,用于售后服务、财务结算和数据分析。一年后,这些数据会被迁移到低成本的存储介质中进行长期归档,仅在必要时(如税务审计、重大售后纠纷)进行查询。

通俗案例

假设你运营一个小型电商网站,主要销售时尚服装。

  • 技术元数据:网站上所有服装的图片存储在阿里云的对象存储服务(OSS)中,图片格式统一为JPEG,以保证在各种设备上都能快速加载展示。服装的详细信息,如尺码、颜色、材质等,存储在MySQL数据库的“clothes”表中,表结构如下:
CREATE TABLE clothes (
    id INT AUTO_INCREMENT PRIMARY KEY,
    name VARCHAR(255),
    size VARCHAR(50),
    color VARCHAR(50),
    material VARCHAR(100),
    price DECIMAL(10, 2)
);

当有新服装上架时,工作人员会通过一个Python脚本将服装信息从Excel表格导入到数据库中,这个脚本包含了数据清洗和格式转换的规则,确保数据的准确性和一致性。

  • 业务元数据:“服装风格”字段代表服装所属的风格类型,如“休闲风”“商务风”“复古风”等,这有助于消费者根据自己的喜好快速筛选商品。对于“促销折扣”,业务规则规定折扣力度不能低于成本价,且促销活动需提前设定开始和结束时间。例如,一款连衣裙原价200元,设置“8折”促销活动,活动时间为3天,在这3天内消费者购买该连衣裙只需支付160元。
  • 管理元数据:商品数据由网站的商品管理部门负责维护和更新(数据所有者)。考虑到消费者可能会根据商品销量来选择购买,商品销量数据设定为公开可见,但为了防止恶意刷量,数据每小时更新一次(更新频率)。而客户的收货地址等隐私信息,安全级别较高,只有在订单处理和配送环节相关人员在授权情况下才可访问。

0

评论区