黄诗华 | 数据标准体系架构概述

黄诗华 | 数据标准体系架构概述

导读:数据标准在数据管理领域处于一个核心的位置,数据建模、数据分析、元数据、主数据、数据质量等众多领域都和模型有关,可以说管好了标准,数据治理就成功了一大半。但什么是标准,很多人还不是很清晰,本文较系统的介绍数据标准的架构。很有参考意义。


一、引言

公元前221年,秦始皇嬴政统一六国,建立了中国历史上第一个统一的封建王朝秦朝,通过施行”一法度衡石丈尺。车同轨。书同文”,打破了地方壁垒,极大地推动了经济、政治、文化、社会生活等诸多方面的发展,实现了真正意义上的国家统一,奠定了中国两千年大一统的格局。可以说以度量衡、文字等为代表的一系列标准,是融合、支撑庞大国家的重要基础,为文化认同和文明延续做出了重大贡献。

图:七国文字统一 (图片来源网络)

图:商鞅方升(摄于上海博物馆)

当前信息时代数据正以指数式增长。据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB。积极开展数据治理,释放数据要素潜力,更好地赋能产业和推动数字经济发展,数字化转型已形成社会变革的大趋势。然而缺乏数据标准仍然导致诸多问题:

1、语义不清、沟通成本高

数据没有统一定义规则,无法对数据含义形成共识。同名异义、同义异名等歧义造成数据使用的困难和错误。同名异义是指数据的名称相同但代表的含义不同。例如财务部门认为客户是发生资金业务往来的组织或个人,运营部门认为客户是开立过账户且未销户的对象,市场部门认为有意向采购产品和服务的都是客户。相同的数据项在不同的业务场景中的含义或规则也会存在差异。同义异名是指含义相同但名称不同。例如客户全称,客户名称实际均指客户有效证件上的姓名,但具有不同业务名称。

2、难以共享和交互

数据分布在组织的多个信息系统,没有统一的存储结构和表示方式,难以实现跨系统的数据共享和交互,影响数据的集成和关联分析。

3、无法统一管理

无法明确数据定义的职责和适用范围,无法确认数据的权威性和准确性。管理困难也是引起其他问题的重要原因。“质量提升,标准先行”,数据标准作为数据管理的基础,必然成为企业数据治理和数字化转型的首要工作。

二、数据标准的定义

标准是指在一定的范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用的和重复使用的一种规范性文件[1]。在数字化过程中,数据是业务活动在信息系统中的客观记录。各种标准和文档中都对数据标准(Data Standards)进行过定义:

  • 保障数据的内外部使用和交换的一致性和准确性的规范性约束–数据标准管理实践[2]
  • 对数据的表达、格式及定义的一致约定–JR/T 0105-2014 银行数据标准定义规范[3]
  • 数据的命名、定义、结构和取值规范方面的规则和基准–GB/T 36344-2018 信息技术 数据质量评价指标[4]

综合以上定义,数据标准是为了在一定的范围内数据的一致性业务理解和共同或重复使用,对数据定义和表示的规范性约束。这里的表示包括使用真实世界的自然语言和虚拟世界的机器语言。数据标准用于知识的表达和使用,是数据集成、共享的基础,也是数据质量控制的准则和数据模型以及信息系统设计的参考依据,是一种重要的元数据。从更广义的角度,数据标准不仅是一系列规范性文档,更是一套由制度、管理办法、流程共同组成的体系,通过这套体系实现数据标准的规划、制定、发布和维护,实现标准的沉淀和数据的标准化。

三、数据标准体系架构

在信息系统中,常用实体和属性模型表示业务对象。数据元(data item)定义为用一组属性描述定义、标识、表示和允许值的数据单元[5],是数据的最小可识别单位,也称作数据项,用于描述业务对象的属性,故数据的具体形态通常是一个或多个数据元的组合。通常所说的狭义概念下的数据标准,实质上为一组数据元标准的集合及定义数据元所需的对应业务术语、代码表等组成的规范,其体系架构如下:

图:数据标准体系架构

根据实体和属性数据模型的层次结构,数据标准相应地分为基础类标准,数据元标准和对象类标准[6]。其中基准类标准用于描述数据元标准,业务术语定义业务概念标准,命名规范描述数据名称标准,参考数据定义信息分类标准。数据元标准集合用于描述数据对象标准,对象类标准用于业务数据对象标准化。针对缺少数据标准引起的典型问题,各类标准需要同时包含业务、技术和管理三个维度的属性。其中业务属性定义数据与业务相关联的特性,统一业务描述和理解,包括数据命名、业务定义、业务规则、值域等。技术属性定义数据与信息技术建设相关联的统一技术要求,对信息系统的实现形成必要的指引和约束,包括数据类型、数据格式等。管理属性定义与标准管理相关的要求,包括标准定义者、标准分类、标准状态等。

1、基础类数据标准

基础类数据标准是建立数据标准规范的基石,是用以描述其他数据标准对象的工具。包括业务术语、命名规范和参考数据。

业务术语

业务术语是在特定领域中使用的专业词汇,是对核心业务概念的通用、严谨、精炼和一致的表达。数据标准化首先应保证业务理解的一致性。业务术语作为描述数据标准中数据名称、标准定义和数据业务含义等信息的引用,是组织内外部沟通和理解的桥梁。业务术语通常通过业务术语表管理,主要内容包括术语名称、术语定义、缩写或简称、同义词、术语分类、适用领域、参考依据、标准定义者及维护日期信息等。梳理业务术语表是企业开展数据标准化和数据治理最重要的基础和起点。

命名规范

命名规范是为实现数据标准中业务术语、数据值、数据元、业务数据对象等元数据名称的统一而制定命名规则。参考数据元的相关标准[7],命名规范包括语义,句法和词法规则。在同一语境中数据标准中的命名应保持唯一。语义规则描述数据标准命名的组成元素和含义。数据标准命名由对象词,特性词,表示词和限定词组成。

  • 对象词是现实世界中的概念、抽象或客观事物的集合,具有明确的边界和含义,其特性和行为遵循同样的规则,如客户,合同等。
  • 特性词是对象类的所有个体所共有的特征,即对象的属性。如年龄,性别等。
  • 表示词是值域或数据类型的分类,如金额,数量等。表示特定语境下的限制,确定业务范围,使得名称在特定语境中唯一。如首次,存续等。

句法规则描述数据标准命名的顺序结构。完整的数据元名称应当为:“对象类词+特性词+表示词”。对象词置于第一位置,特性词置于第二位置,表示词置于最后,当表示词与特性词冗余时表示词可省略。限定词是可选的,置于所限定部分的前面。

命名规范组织结构词法规则描述词汇表示,减少冗余增加准确性,包括大小写,缩写,分隔符,单复数,时态等。能独立表达语义的最小单词称为词根,以词根作为命名单元,并根据企业自身业务沉淀形成词根库,例如证券期货业数据模型第3部分:证券公司逻辑模型定义的词根规则。业务术语、指标数据、数据实体等元数据的名称均可在通用规范的基础上进行定制和细化,制定各自的规范命名。

参考数据

参考数据是将数据与环境信息联系起来的,用于描述或分类其他数据。参考数据描述了数据的域值范围,常用于描述维度信息。由于代码符号天然地比文字字符更简洁一致,便于在形式上统一表示和技术实现,易于计算机自动化处理,参考数据一般用代码表表示,例如世界各国和地区名称代码 GB/T 2659-2000:

中文简称英文简称两字母代码三字母代码数字代码
阿富汗AfghanistanAFAFG004
阿尔巴尼亚AlbaniaALALB008

参考数据的代码标准按级别分为国际代码标准,国家代码标准,地区代码标准,行业代码标准等。定义参考数据标准时,应优先引用已有标准,并根据业务需要,定义组织内部的代码标准,内容一般包含枚举型标准代码值、业务名称、业务含义、来源依据、管理信息等。当内外部参考数据代码不一致时,还需定义代码映射和转换规则。

2、数据元标准

数据元表示某种特性,是组成数据对象的最小可识别单位。数据元标准是描述这种基本数据单位的元数据标准,其定义框架如下:

图:数据元标准框架

标准编号

数据元标准项的唯一标识符,可以自定义编码规则,该信息作为代理键,便于标准的查询和引用。

标准名称

标准名称是所描述数据元的统一名称。标准名称从业务上区分不同的数据元概念,易于被数据使用人员理解和识别,其本身是一种业务术语或部分引用了业务数据,应遵循命名规范。根据需要,标准名称可以包括中文名称,英文名称,简称,别名等。其中英文名称主要根据中文名称进行翻译,可作为数据库表结构设计时字段名称的参考。

业务定义

业务定义是对数据元业务含义的定义说明,描述了一个信息项的本质特征并使其区别与所有其他信息项。业务定义可以引用业务术语表,应准确、清晰、无歧义,以利于数据使用人员的一致性理解,不应有循环定义或直接用名称进行定义。业务定义可参考相关权威标准、监管机构定义、内部业务制度、业务流程需求以及行业经验进行总结性归纳。

业务规则

业务规则是在关联业务场景下确定数据取值的具体规则描述。包括但不限于:

  • 数据取值的业务逻辑,例如企业规模类型(按在职人数,注册资本金,营业收入等),贷款五级分类的认定方法等。
  • 数据计算公式,例如资本充足率,存款余额的计算方法等。
  • 数据编码规则,对于编码型数据应描述编码设计规则,包括编码的组织构成、对应业务含义等,如居民身份证号和社会统一信用代码的编码规则。若存在相关成熟标准可引用说明。
  • 其他规则,对空值、多选、默认值、优先级、与其他数据元的关联性等特殊情况进行说明,保障业务完整性。

业务规则是进行数据取值、数据使用、数据质量评估和改进的依据。

值域

可选。值域是数据可接受的业务取值范围,由数据类型、数据格式和业务规则确定。

  • 文本型:可使用字符的范围及长度要求,如中英文,数字,0-100字符等。建议包含对特殊字符的处理说明。
  • 编码型:数据的值域为符合编码规则的编码集合。例如法人机构识别编码标准(LEI,legal entity identifier)ISO 17442:2012,为法人机构分配由20位数字和字母组成的唯一编码,用于标识参与国际金融交易的法人机构。
  • 枚举型:数据的值域为代码对照表的码值集合,代码取值和代码名称,业务定义。通常用代码表表示。
  • 数值型:数据的值域为可接受的数值的上、下限范围、有效位数、小数位数等。
  • 日期时间型:数据的值域为合法的日期时间及数据格式。

标准依据

可选。描述制定数据标准的业务依据来源,如监管文件、内部管理规范、业务经营需求、行业惯例等。当与其他数据项具有相同业务定义或是其子集时可引用该数据项的标准编号和说明。

安全级别

可选。描述数据元的安全及访问权限级别,一般依据行业的数据分类分级指引制定,作为是否加密和数据访问权限控制的参考。针对不同安全级别的数据采取相应的保护措施。

数据类型

数据类型描述数据值的表示方式,指定数据结构和一组允许操作的数据对象[8],通常分为:

  • 文本型:用字符表示的数据。通常用于可自定义输入的数据项,例如客户姓名,用途等说明描述性文字。
  • 数值型:包括整数,浮点数,例如金额,数量,比率等。
  • 枚举型:用一组预定义的代码值表示对应的业务含义,通常用于描述表示维度信息的参考数据,代码数量固定有限,变更频率低,如国家代码,性别等。其中业务含义需要引用业务术语表。
  • 编码型:用符合业务规则的代码值。由业务开展生成,变更频率高,数量随业务开展动态变化,无法穷举,通常用于标识具体业务实体的主数据对象实例,例如身份证号,客户号,合同编号等。
  • 日期时间型:描述业务流程中特定事件发生的日期或时间。

枚举和编码型通常采用英文或数字组成的代码表示对应的业务含义,便于信息系统中数据的处理和交换,是数据标准化的重要手段。注:标准不是唯一的,不同的分类方式和编码规则也是造成数据不一致的重要原因。

数据格式

数据格式来源于业务规则。符号表示对应数据类型的数据长度,精度,表现形式等。但应与信息系统中的具体实现技术无关。格式描述规则可通过附录说明或引用标准。

标准定义者

数据定义者指对数据的业务属性拥有最终业务解释权的组织或个人。负责制定标准,评估、审核数据标准的变更,识别潜在的影响和问题。通常为该数据所涉及业务的主管部门,对该数据的相关业务流程和管理流程具备相当的知识和理解。

标准状态

描述标准信息项的当前启用/废止状态。

维护时间

描述数据标准的启用、废止、更新时间等。

标准版本

可选。描述标准信息项的版本编号,历史变更记录和说明等。

3.对象类数据标准

对象类数据是由一系列数据元组成,在指定场景下表示特定业务概念实体的数据。按照数据是否经过汇总加工,对象类数据可分为基础数据和指标数据,其数据标准相应分为基础数据标准或指标数据标准。

(1)基础数据标准

基础数据指业务流程中直接产生的,未经过加工和处理的基础业务信息,是最细粒度的数据,又可大致分为主数据和交易数据。基础数据标准是为了统一企业直接业务活动相关数据的一致性和准确性制定的标准。

主数据是描述企业核心业务实体最权威、最准确的,在企业内跨流程、部门和系统被重复或共享使用的高价值的基础数据,被誉为企业的“黄金数据”,是应用和数据集成的关键要素,如客户、产品、订单等,其属性和状态相对稳定,生命周期较长。主数据标准框架如下:

图:主数据标准框架

主数据编号

标识主数据标准的索引编号,用于检索、识别主数据对象,形成主数据资产目录。

主数据名称

描述主数据对象的业务名称,通常作为一种业务术语管理,应遵循相应的命名规范。

主数据定义

描述主数据对象的业务含义、数据业务范围,用途,关联约束等。

主数据分类

依据相关业务环境和管理需求制定业务分类规则,通常分为大类、中类、小类三层结构,形成主数据标准体系。分类的原则[9]:一是以最稳定的本质属性或特征作为分类的基础和依据。二是通常以自然属性为第一分类原则,适当考虑用途和管理的方便。三是应满足科学性、稳定性、分类清晰、不交叉、不混淆的要求。主数据标准体系的建设要适应企业的业务和发展。

主题域

描述数据对象在逻辑数据模型中的主题域。主题域根据数据架构和数据模型师的行业经验及业务理解进行划分,例如金融行业数据主题域一般分类为:当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道、通用等,可按照实际情况裁减或扩充相关主题域。

主数据来源

可选。描述主数据对象实例的产生、修改、消亡的业务过程。

主数据代码

标识主数据对象实例的代码。主数据代码值具有特定的编码设计规则,可引用相应的数据元标准和规范文档,如身份证号码,金融许可证机构编码等。

图:金融许可证机构编码规则

主数据模型

主数据模型是描述主数据对象业务状态的属性集合及其关联和约束。主数据的业务属性需根据其对象自身特征和具体业务场景需求确定,并引用相应的数据元标准。关联和约束包括主外键关系、是否允许空值、属性间联动关联关系等。

主数据系统

定义存储、维护和管理主数据的权威信息系统。

技术属性和管理属性

主数据标准的技术属性和管理属性与数据元标准基本一致。交易数据是指在日常业务开展过程中产生或交互的业务行为数据,主要用于记录业务流程的开展过程,如交易记录、售后事件、物流信息等。交易数据通常包含交易流水编号、业务主体(即主数据)、交易时间、交易类型、交易代码、交易状态等业务属性数据元。由于交易数据生命周期较短,交易流程发生后一般不再更新,通常无需在业务流程和系统间共享,交易数据较少制定通用的数据标准。

(2)指标数据标准

指标数据是由一个或以上基础数据度量根据一定的规则计算得到统计量,是OSM(object strategy measure)模型下开展统计分析和支持量化管理有效工具。指标数据可分为原子指标,复合指标和派生指标,其结构关系模型如图所示。

图:指标数据关系模型

  • 原子指标是对业务实体单一变量的简单聚合计算得到的不可进一步拆解的量化属性,也称作基础指标。原子指标具有特定的业务含义,稳定性较高,不易随业务管理的视角频繁变化,一般不含维度信息。
  • 复合指标由若干个基础指标通过一定规则计算形成,是原子指标的组合,可以表示更复杂的业务含义。
  • 派生指标是原子指标或复核指标与一个或多个维度结合产生的指标,也称作衍生指标。

指标数据标准是为满⾜检索、使用和管理需要对指标数据进行标准化定义的规范,其业务属性可进一步分为业务基本属性和业务口径属性,指标数据标准框架如下:

图:指标数据标准框架

指标编号

数据指标的唯一标识符,可以自定义编码规则,便于标准的查询和引用。

指标名称

数据指标的名称,可以包括中文名称,英文名称,应遵循命名规范。

指标描述

对数据指标的内涵或意义所做的简要而准确的描述。通常包括指标的原理、概念解释、用途,业务特色说明,业务范围、产品条线范围等。

指标分类

指标分类是指对指标进行拆解和归类,通常根据企业业务架构和数据架构,自上而下分为战略级、业务级、过程级三级主题,形成数据指标体系。

指标类型

按照指标构成方式及指标间关系划分的类型,即原子指标、复合指标和衍生指标。

指标依据

可选。指标口径的制定依据,如监管文件、业务经营需求、行业通用惯例等。

统计周期

数据指标统计的频率,如日、月、季、年等,一般引用参考数据。

指标日期

表示计算指标数据基于的数据日期。

指标维度

定义指标的统计维度,即观察事物的视⻆。可以包含一个或多个维度集合,如机构,币种,渠道等,可引用相应的数据元标准。指标编号、统计周期和指标维度共同确定了指标的度量值。通过梳理后的维度和原子指标,可以基于宽表,实现业务部门的自主分析,即灵活计算衍生指标进行业务分析。

度量单位

指标统计值的计量单位,如元,个,次,一般引用参考数据用枚举代码表示。

指标口径

描述指标数据的统计范围条件、计算公式、统计粒度,或指标间关系等。

技术属性和管理属性

指标数据标准的技术属性和管理属性与数据元标准基本一致。

四、数据管理与数据标准

1.DAMA与数据标准

数据管理领域的权威DAMA(Data Management Association)数据管理知识体系包含数据架构、数据质量等十大职能领域,并通过数据治理进行组织协调[10],然而其中并没有单独的数据标准章节,但这并不意味着DAMA不重视标准。通常意义上的狭义数据标准,是指数据的业务含义和表现形式标准。DAMA的重点在于数据管理的体系框架,旨在使数据在全生命周期中各种管理活动的标准化[9]。数据管理领域的各项要求通过在数据标准的业务、技术和管理三类属性中映射而实现,并且在执行过程中建立相应的制度、流程和操作规范进行保障。

图:数据管理车轮图

  • 数据架构需要划分主题域和数据分类,建立概念数据模型,并进一步建立指标体系,梳理数据资产。
  • 数据建模和设计需要根据主题域和概念数据模型建立逻辑及物理数据模型,并遵循模型命名规范。
  • 数据存储和操作需要根据数据格式和数据类型确定数据的物理存储结构。
  • 数据安全需要识别数据敏感性,根据数据元的安全级别定义数据保护策略和访问权限。
  • 数据集成和互操作依据主题域指导数据集成,根据参考数据和数据格式、类型实现系统之间的数据交互和转换。
  • 文件和内容管理根据业务术语、业务定义、数据格式等描述和理解非结构化及半结构化信息。
  • 参考数据是数据标准体系的重要组成部分,主数据是数据标准的描述对象。
  • 数据仓库与商务智能需要根据数据来源,数据模型和业务含义分层建模,定义数据的事实、维度和分类。
  • 元数据是描述数据的数据,数据标准体系架构描述了狭义数据标准的各组成结构及相互关系,本身就是一种重要的元数据。
  • 数据质量管理需要根据参考数据、业务规则、值域和数据模型关系定义数据质量评估规则。
  • 数据治理处于数据管理车轮图中心,最重要的目的在于通过建章立制,明确责权利益归属,指导其他数据管理领域的活动,在其实施过程中的首要步骤就是发起数据标准和流程,制定业务术语表。这里的标准指数据管理活动标准,也包括狭义数据标准的制定、执行、维护等管理属性。

正如《数据标准管理实践白皮书》中所描述的,广义的数据标准是一系列的“规范性约束”[11],它贯穿于数据管理的每个关键过程和活动。

2.DCMM与数据标准

DCMM(Data Management Capability Maturity Assessment Model)数据管理能力成熟度评估模型将组织对象的数据管理划分为八大能力域(数据战略、数据治理、数据架构、数据标准、数据质量、数据安全、数据应用、数据生存周期),并对每项能力域进行了二级能力项(29个能力项)和成熟度等级的划分(初始级、受管理级、稳健级、量化管理级、优化级)[12]。

图:DCMM评估模型

数据标准是数据的规范化描述,最能体现数据的企业级管理能力,是衡量数据管理成熟度的重要指标。DCMM并没有对数据标准的具体形式做出规定,而是重点从组织、制度、流程、技术角度评估能力当前的实践状态,其评估要求可以体现数据标准的组成要素及其作用。

  • 业务术语在数据模型建设、数据需求描述、数据标准定义等过程中被引用,准确描述业务概念含义。
  • 参考数据、主数据用于定义数据模型,和应用系统的集成。
  • 数据元标准包含分类规则、命名、描述与表示规范,应与相关业务术语、参考数据等标准保持一致,应用于数据模型建模。
  • 指标数据标准用于建立指标分类框架和统一的指标数据字典。

这四项能力及能力间的关系共同构成了数据标准体系架构的核心。

结束语

本文总结了数据标准的大致体系架构,梳理了数据标准的内涵和表现形式。数据标准框架中关注内容是数据标准自身的核心业务属性,在数据管理中常见的其他相关属性,如数据业主、数据更新频率、数据生命周期、数据来源系统、指标技术口径等,更适合在数据资产目录和其他技术文档(如etl mapping、物理数据模型设计等)中进行描述。各类数据标准定义中依然存在非结构化的文字描述部分,可在限定的场景下进一步标准化其表示方式。数据标准不是唯一的,正如各数据标准中包含的数据元属性也不尽相同,在实践过程中也应平衡实际业务需要、管理成本和当前管理成熟度,新增、细化或裁减数据标准的属性。

抛砖引玉,仅供参考,后续将继续探索数据标准的管理和应用实践。


参考资料

[1] GB/T 20000.1-2014, 标准化工作指南 第1部分:标准化和相关活动的通用术语[S].

[2] 数据资产管理实践白皮书6.0[R].CCSA TC601 大数据技术标准推进委员会, 2023.1.

[3] JR/T 0105-2014, 银行数据标准定义规范[S].

[4] GB/T 36344-2018, 信息技术 数据质量评价指标[S].

[5] GB/T 18391.1-2002, 信息技术数据元的规范与标准化第1部分数据元的规范与标准化框架[S].

[6] 祝守宇,蔡春久. 数据标准化:企业数据治理基石[M]. 北京:电子工业出版社, 2023.1.

[7] GB/T 18391.5-2009, 信息技术 元数据注册系统(MDR) 第5部分:命名和标识原则[S].

[8] JR/T 0236-2021, 金融大数据术语[S].

[9] 主数据管理实践白皮书(1.0版)[R].中国信息通信研究院云计算与大数据研究所, 2018.

[10] 数据管理协会(DAMA国际). DAMA数据管理知识体系指南[M]. 北京: 机械工业出版社, 2020

[11] 数据标准管理实践白皮书[R]. 中国信息通信研究院云计算与大数据研究所, 2019.

[12] GB/T 36073-2018 数据管理能力成熟度评估模型[S].

作者简介:黄诗华,硕士,CDMP master,FRM,PMP,负责金融行业基础设施平台数据研发,专注于数据仓库和数据管理的探索实践。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注