【独家】数据治理为数据资产保驾护航 下篇

[导读] 
2017年2月18日下午,清华大数据“应用·创新”系列讲座新年第一讲——数据治理为数据资产保驾护航在清华大学FIT楼成功举办。
本期演讲嘉宾邀请到清华校友、清数-DAMA数据治理委员会秘书长刘晨。刘晨先生从数据治理的意义出发,讲解了数据治理相关的国内外趋势、国际方法与本地实践,结合企业信息化建设环境和历程介绍了数据治理相关领域的发展历史与现状,并结合大数据时代热点问题从数据治理角度为数据资产保驾护航提出建议。
 
以下内容为刘晨先生作的题为“数据治理为数据资产保驾护航”的主题报告原文(下篇)。上篇已于昨日发布。在不改变原意的前提下,部分内容有删改。报告视频时长56分钟,我们将演讲文字内容发布如下,可先一睹为快。
 
 
昨天的发文中,我们讲了由谁来做数据治理和组织机构管理。今天我们讲更细致的,每一部分专员具体的职责,怎么选择这些专员。这是更细的话题,也就是数据治理具体的方法
 
究竟用什么样的方式开展数据治理工作?这里强调数据的生命周期。数据生命周期在市面上有三四种不同的理解,这里提两种:
 
第一, 从空间视角看数据的生命周期。黄仁宇的中国大历史,里面强调中国为什么是一个政权上相对集权的国家呢?这和历史有关系,和地理也有关系。因为中国要经常治理水患,黄河一发水,不管究竟是几国,也不管边界,是四处流的,想把水患治理好,要有一个集中权力来调动不同领域、不同省、不同国之间的资源,去对黄河进行疏堵或对难民进行处理,所以要有一个相对集权的政权来处理水患,久而久之就衍生成为政权上面也是一个集权。这是从水的流动方面。治理水,要有一个集权的组织。数据也是一样的,从各个业务系统生成数据,到数据平台加工,再流向不同的业务部门,数据也是流动的,数据不应该有这么多边界,要想把流动的数据治理好,相对也要有一个集中统筹规划的职能去对数据进行管理。这一点从空间角度来看数据的生命周期。
 
第二,从时间视角来理解。也就是数据的生成是从哪开始,变化在哪,呈现、使用在哪,最终销毁在哪。数据的生命周期最开始也没有得到大家的重视,最开始做系统开发时,我们关心的是系统本身的生命周期,一个信息系统无论是做一个OA或者做CRM系统,还是做一个数据仓库、数据平台,我们关心的都是系统功能。当有了系统之后,我们就可以去用数据了,基于这个系统去创建数据、采集数据、数据的维护使用、数据的归档清除等等,这是比较短的数据生命周期。但是当数据有了系统之后再考虑数据,数据生成之后再去管它的质量其实已经晚了,因为这时候数据已经定义好了,这时候数据库结构,数据的架构方式已经定义好了,这时候再想看数据满足不满足你的质量要求已经有些晚了,还要强调把数据蓝色部分的生命周期再往前,系统规划阶段要考虑数据架构的规划,在系统的需求分析和设计阶段要考虑数据标准,考虑数据质量满足什么需求,数据的安全、数据保留时间,要在这个阶段考虑。真正系统上线之后,数据常态使用时,再做数据常态质量监控、数据保留归档等。元数据的管理,数据的定义从前到后,从规划到最后使用都要串起来,元数据要贯穿在整个过程当中。刚才图里的职能就被分散在整个系统开发的不同时间段里,很多企业其实在这个系统规划和设计的阶段比较少考虑数据的需求,这是大家以后回去工作时要重视的。我们在一个系统建设的时候就把这个系统里面有哪些数,这些数据的定义,规格,需要满足什么质量规定出来。数据治理就是从空间和时间两个角度来看生命周期,然后对数据进行统筹的管理。
 
下面来讲一些日常工作中与数据治理高度相关的领域。
 
一、数据架构
 
我们首先来讲一下数据架构。架构这个词比较虚,比如给每人发一个小纸条写写什么是数据架构,收上来100份,可能是100个不同定义。好的地方是,DAMA这本书里对于数据架构是什么,给出了三个明确的内容。第一,要有企业级的数据模型,要有概念模型和逻辑模型,可能做过数据库设计的同学都知道,这是一个了解的内容。第二,要有一个信息价值链的分析,这个分析是把数据和业务流程能够匹配起来。第三,要有数据平台的架构,可能建大数据平台,可能建数据仓库的平台,更多强调的是有哪些模块,数据从哪采集,怎么样加工,强调的是一些大的平台的架构的设计,但是平台架构里面可能对于上面的模型和信息价值链分析考虑就少。在国内做数据仓库各种平台建设时,大部分时候考虑都是数据平台的架构,对于上面这两部分内容考虑的都欠缺。这也是造成我们后面数据定义不够细,数据问题在系统上线之后多发的主要原因。架构管理在系统规划设计阶段需要把这几部分内容都考虑清楚。
    
示例:有企业数据模型,分成主区域模型、概念模型、逻辑数据模型。概念模型是不带属性的,比如员工、客户、客户的基本信息、客户的行为信息等等。逻辑数据模型把客户的名称、联系方式、地址、性别等等属性信息加进来,形成我们一个逻辑数据模型。建议在每个企业都能够持续维护一套自己的企业级数据模型,而不是今天做这个系统就做这个系统的模型;明天做那个系统,再面向那个应用做一套模型,这两套模型之间可能会有一些不一致的内容。应该有一个统一的数据模型参照的蓝图,这是我们企业级的数据模型。
    
有了企业级数据模型之后,做信息价值链的分析,我们要把业务流程能够和数据映射起来。举例,保险公司核心业务流程是要开发保险产品,要做保险产品的营销,要做客户关系管理,这是它的核心业务活动,这个过程中这个公司会产生数据,有保险代理人的数据、有相关金融机构/风险监管部门的数据,这是一些数据的类型。在开发产品环节,会创建我的产品数据,会读我的客户数据,使用什么数据,生成什么数据。在营销产品的时候,可能要去创建我的客户数据,创建我的保险代理机构的数据。做客户关系管理时,要更新数据,这个数据在不同业务活动当中,有的被使用,有的被更新,有的被创建,可能还会有删除的情况。有了这样一个矩阵,大家很容易识别什么样的业务活动会用什么数,会产生什么数,哪些数据是在什么业务活动里生成的,两个关系就会很清楚。
    
比如公司都很关注客户数据的管理,在三个环节都会对客户数据产生变化,营销环节可能是在产品部门或市场部门进行更新数据,风险部分是在风险部门更新数据,这就要引起警惕,可能同样一个数据就会被覆盖,或前面一个部门改的结果被另外一个部门冲掉,两边数据不一致。有了这样一个矩阵,会比较好的帮助你识别数据权威的业务源头,识别权威的业务部门,对于数据的质量也更容易去保证,这是一个信息价值链分析。这个工作在我们看到的很多企业里面都是不做的,现在说起来做数据治理,大家都在亡羊补牢,都在梳理这个内容,究竟什么数据是在什么业务部门产生的,谁对它经常会去修改,这个修改会不会产生一些数据不一致的风险,现在都是事后在做这个工作。
 
二、数据标准
 
国内很多企业都在做数据标准,但是究竟什么是数据标准?这个词在国外很少提到。对数据的名称、含义、结构、取值的统一定义,可以叫做数据标准。目的是为了把应该一致但是不一致的数据进行统一,这就是数据的标准。数据标准究竟有哪些?按照数据不同的粒度进行细分,最上面有业务术语的标准,比如清数和清华大数据是两个词,这两个词的含义可能是一样的。对于一个企业来说,有的叫做客户,有的叫做用户,这两个是不是一个词?有可能不是一个词,客户可能有企业客户,有个人客户,用户指的是真正用你企业产品的人,但它可能不是为这个产品买单的人,含义上有差异。为了把数据管理好、使用好,最基础的是要把业务术语管理好,这在国外是很受到重视的一个领域,但是国内大数据领域不太重视这个业务术语,是基础工作,不太容易见效。相当于修字典一样,需要花大量的人力精力去进行精确的定义,然后还看不到立竿见影的效果,所以国内企业重视程度不高,但是现在也慢慢好了。
 
指标的标准化,是指对统计指标本身做标准化。再宏观一点要对数据模型做标准化,比如员工的数据、客户的数据,在各个系统都应该有一套一致的规格,然后要有数据模型的标准化。 数据元素的标准化,某一个字段,比如身分证号码必须是18位,是数值型的,取值范围应该是什么,不能出现什么,最后还有校验之类的。再细的可能是参考数据的标准化,不同的编码,比如某一个订单有五个状态还是七个状态,每个状态都是什么样的编码,ABCDE,中文含义是什么,要把这些内容标准化。比如性别数据,这个系统里用0表示男,1表示女;到公安系统里,性别还有未知;阿里系统里面可能有十几个性别,购物行为的性别,还有实际生理的性别;FBI性别还有变性记录,以前是男,现在是女,都有标记。
 
我们从宏观、偏业务到微观具体某一个代码取值都需要做标准化,这些内容其实就是我们通常意义上的数据标准。大家在做数据应用、数据开发时,可能很多时候没有这个标准,要去定义标准;或者没有标准时应用就做了,但是后面两个系统集成时可能对不起来,都是因为标准的缺失,这是治理工作里面应当重视的一个工作。
 
三、元数据的管理
 
元数据是对数据的描述,比如2.18,有业务的理解,有日期的理解,也可以是身高等等。数据可以从业务去解释,让业务人员懂它的名称、含义、取数口径。如果从技术角度描述,这个数据在哪个数据库存着,量有多大,什么时候更新的,这些都是属于面向技术人员的技术员数据。面向管理人员,这个数据权威的定义部门是谁,哪个人对它负责管理和维护,数据质量规则是什么,这些是面向数据管理人员的管理员数据。同样一个数据可以从不同视角对它进行描述。
    
在企业内部做元数据管理时,会做一个元数据的存储库,目的是把分散在不同工具、不同系统当中的这些数据描述统一起来,给所有数据用户、所有数据生成方、IT开发人员一个全景的数据地图,类似字段级血缘分析、查询,可以看这一个大数据平台有哪些输入的数据文件,这些数据文件经过哪些处理,得到了什么样的中间结果,又从大数据平台迁移到了数据仓库,数据仓库又做了什么分析,最后出了什么样的报表,就会形成一个完整的数据地图,这是元数据管理很重要的一项工作。
 
四、数据质量管理
 
数据质量管理强调数据质量的一些维度,比如数据的准确性、完整性、一致性、合理性、数据取值规范性。身分证号码必须是18位,不能是17位,这就是数据长度的规范性,这些都属于数据质量的范畴。
    
数据质量管理也是管理上的PDCA的循环,我们需要做数据质量需求的管理,进行数据质量的实施、检查,日常监控,出现问题之后对数据质量进行改进,有一个PDCA的改进循环。
    
例如,数据质量的规则。你是一个VIP客户,公司要给你生日时发短信祝福,这时候要求你对数据用户的生日、手机号码、以及这个客户是不是一个VIP客户等信息进行标记,如果这些字段是空的话,其实这个数据质量是不好的,无法支撑公司用户大数据关系维护。
    
再比如,现在供应链金融要给一个企业上下游供应链相关方进行贷款,我们要判断某一个企业是不是我自己上下游的企业,这家企业的经营范围是什么,贷款额度应该是多少,有一些属性,必须要有值,这些值是要准确的,数据质量要有保证,这时候才能做供应链金融业务上的操作。这是一些业务规则。
    
另外一些数据质量规则是和业务没有关系的,是纯技术的规则,比如一个字段是否是空的,主键是不是唯一的,数据类型和数据格式是否符合数据标准,数据的取值范围是否正确,这些可能和一个业务场景没有直接关系,从技术层面就可以做检查,这是技术上的规则。这些规则,现在无论做传统的数据仓库还是做大数据平台,都有很多的校验。
    
那么数据质量该如何提升呢?
我在这里为大家介绍一个“十步法”。数据质量的检查、规则,开发一个系统做自动化的集合,出数据质量报告都是相对技术人员比较熟悉的。我们之前没太关注的是什么?定义业务需求和方法,刚才讲了很多业务规则,要去看某一个数据究竟在哪些业务场景用,这些数据如果不好的话,哪些业务人员会受到影响。如果VIP客户生日信息没有的话,销售部或者大客户部工作就会受到影响,大客户可能就会流失,这些都是直接的业务影响,我们要去判断我们业务需求是什么,我们有哪些业务场景。然后我们要去评估某些有数据质量问题或数据不好对业务上直接的影响是什么,最好还能量化地算出来,如果大客户生日信息没有填好,完整率不高的话,可能造成客户流失比例是多少,这些大客户流失给收入下降带来多少。如果能算出来的话,很容易让公司领导和业务部门去支持数据质量、数据治理的工作,但是往往我们偏IT、偏技术人员不太擅长做这方面的评估和分析,就会造成反正领导觉得数据治理就是技术的工作,可能单独补充一个生日也没有什么太大的意义,他的重视程度就没有那么高。所以
我们比较强调把数据的业务场景、数据质量问题的业务影响,以及相关的人员、相关的业务流程进行评估,这样更容易让数据治理工作得到认同。这是一个提升的方法。
 
五、主数据管理
 
主数据实际上描述的是业务对象,人、物这些内容。对于一个公司来说,可能客户、供应商、产品、位置、组织机构、员工这些都是最关键的主数据。
 
例如,同一个客户,对于一家公司来说,有很多和这个客户的接触点。客户在线买东西和客户支付时,公司的ERP和财务系统里面会有客户信息;买了东西之后客户服务里面也有这个信息。一个企业在多个点、多个系统里面都会和这个客户有接触点,这时候不同的系统里面维护的客户信息就不一致,可能名称不一致,地址不一致,手机号不一致。有的系统里留了邮箱,有的没有留邮箱,或者留的不是同一个邮箱,这就涉及到跨多个系统进行统一。如果这些客户数据得不到统一,可想而知在仓库做分析时,这个人叫“张三”,那个人叫“张三’”,这两个人能不能合并到一起,会对后续数据分析以及客户关系的维系产生很大的困扰,这时候就需要把客户主数据管理好。
 
上图是一个主数据平台参考架构。因为不同系统里面都会有主数据的信息,这些信息就需要集中到一个主数据平台上面,在这个主数据平台进行一些数据质量的校验、数据的匹配、数据的清洗,把校验、匹配之后的黄金数据统一结果能够再推送给使用数据的这些系统,这样每个系统里面,“张三”、“张三’”都统一,联系方式、地址、用户行为等等都一致了。这是主数据管理的一个系统。
      
下面,我们用一张图来回顾一下刚才讲过的这些概念和他们之间的关系。一个企业有自己的业务活动,无论是在销售还是做员工招聘还是做产品开发,有了这些业务活动之后,公司要去建数据架构的规划,我们开发企业的数据模型。业务活动当中究竟都产生什么数据、用什么数据,我们需要用企业数据模型对它进行表达,这是规划的工作。
   
那么业务数据在规划当中应怎么映射呢?这就要讲到信息价值链分析。当企业想去建任何一个信息系统的时候,我们要去参照企业的数据模型,有可能要建的是一个客户关系管理系统,是一个操作型系统;有可能建一个大数据平台,是一个数据仓库,是一个分析型系统。不管建什么系统,这些系统里处理的都是主数据、交易数据、参考数据、处理数据,这些数据模型的结构、含义应该很大程度上去遵循你的企业数据模型的定义。如果这个系统当中出现了新的数据,要反向更新这个企业数据模型。
 
六、数据系统
 
系统建好了,我们业务活动通过系统支撑起来了,系统就可以正常运行,把业务活动当中的这些数据及时采集过来,这是一个活动。但是对于很多企业来说没有做企业数据架构、数据模型的设计,直接就建了这个系统,这个系统有可能自己开发,有可能用的外购软件,这时候给他很大的困扰是系统当中信息不清楚,分布在哪儿不知道,我们希望通过用元数据把系统当中数据的库表结构等描述理解清楚,我们就去做元数据管理相关工作。有了元数据,就进一步做数据质量的检查、数据质量的提升的工作,元数据可以把数据描述清楚,然后去辅助进行数据质量的检查。
 
检查当中,我们会发现有一些数据质量的问题,这些数据质量的问题可能需要去进行定义一些数据的标准,这时候我们提到要建五类数据的标准,有业务术语、模型等标准。这些标准在建的过程中,会从业务活动中来,从模型中来,从元数据来,总之方方面面的来源会帮助你去把数据标准建好,之后会形成数据质量检查的依据。
 
这张图基本把我们刚才讲过的各种知识都融汇在一起了,数据的分类、数据标准的分类、数据模型、数据架构、元数据、数据质量。
    
再回到最开始讲什么是数据,数据的定义,在企业范畴内,数据实际上就是在描述一个企业的业务活动。我们做各种大数据的分析,其实分析的都是一些业务活动,只不过这些活动有的是在企业内,有的是在企业外的微博、微信上的数据,都要进行分析。
 
七、数据治理的实施
 
数据治理实施时有两种路径,第一种是事后的,企业没有做数据架构模型的设计,直接有了信息系统,我们通过元数据对系统里面的数据进行描述、做质量检查,质量检查出来之后把结果再反向改造我们现有的系统。因为检查出了数据质量的问题,要去定标准,标准要在系统当中落地,这是事后的过程。做得更好一点的企业其实应该能够做到事前的规划,就是在做一个大的信息化建设项目之前,就把业务活动梳理清楚,业务活动里面的数据模型设计好,基于这个数据模型去进行我的系统开发,这个效果就会更好一些。当然这要看契机,不是很多企业都有全面进行数据系统建设的时机,这是两个思路,大部分企业都在做事后思路。一些好的企业,像去年我们开会时,建设银行借助它“十二五”期间整个公司战略提升,从业务上去提升,做了全面信息化系统的重新建设,这时候像企业数据模型、企业数据架构就得到了很好的全面实践。但对于很多企业来说,能否实施全面的事前规范的思路,可能我们还要再看时机。
    
数据治理,相关工具也不可或缺。元数据管理有元数据管理的工具,数据质量、主数据、数据的集成、术语的管理都有相关的工具。有工具是好事情,有工具可以让我们的效率更高,但是国内做数据治理工作一个误区是大家认为买一个工具、买一套平台就能够解决数据的问题。但其实经过前面刚才那些内容的讲解,大家发现可能不是这样的,有很多工作需要人想清楚,需要人去定义规范。有一些观点,我们做数据治理工作不要着急去买工具,而是要先去尝试这个工作本身开展,人、组织、工作先建起来,如果没有做过数据治理工作直接买工具的话,可能很大程度上就是一种浪费。
 
八、数据治理的实例
 
数据治理在国内大家是第一次听。在国外,DAMA年会每年4月份左右会在美国召开,去年是第20届,今年是第21届,可见这个领域在国外已经有20年以上、将近30年的发展历程。在这个会上都会谈什么内容?有数据治理、CDO、数据战略、元数据、数据质量、主数据等刚才这些内容都是会上最核心的议题。比如在美国,信息化很早,信息化程度很高,DAMA开了20多年的年会,这些话题仍然是这个领域的数据人热议的一个话题,可见这项工作不是大家听了一个讲座或者回去做了两个项目就能够掌握、企业就能很快具备这种能力的,需要一个持续的建设。
 
在国内,我能找到最早的数据标准的资料是2004年11月份银行的数据标准制定的项目的资料。通信方面,有2006年元数据的规范。银行方面近几年的发展,有2011年银监会开行业性数据治理的会,也是五年多以前。银行业在国内做数据治理是非常早的,其他行业现在还很少有普遍性的数据治理整体工作的推进,还是值得去向银行业学习的。大概在12年以前,2003、2004年的时候国内开始数据治理的工作,是在通信和银行这样的行业开始数据治理的工作,那时候刚刚开始做数据仓库。
    
《银行数据治理》这本书推荐给大家。去年国内有17个人去了DAMA年会,阿里在上面专门做了一个演讲。经过十多年的发展,国内的数据治理现在已经有成果出来了,通过请进来、走出去各种方式,也有更多国际交流了,是挺好的一个现状。当然我们也需要看到还是有很多人不知道这个概念,特别是在大数据这么热的情况下,可能数据治理这个基础工作还不被大家所知道,还需要得到更多的重视。这是一个行业性的发展现状。
    
银行业数据治理政策。在“十二五”规划时,有专门的数据治理和数据标准的专题,提出来银行的数据治理的几个组成部分,标准、质量、安全、架构、保障机制,要以业务需求为驱动,要面向金融稳定、竞争力提升等等,这是框架性介绍。银监会有专门的统计数据质量良好标准的行业性评估手册,这个评估商业银行每年要做,三年一滚动,商业银行还要自查等等,从组织机构制度的设计、平台的设计、数据治理的检查、数据标准方方面面提出了很多评估的要求。
    
在去年底,银行业信息科技“十三五”规划时,还是在强调制定大数据战略,支持大数据方向,夯实数据治理基础,数据治理保障作用必须要加强。也提到大数据的顶层设计,数据管理的部门、数据的架构、数据的标准、数据质量这些工作仍然得到重视。如果大家数据治理做得不错的话,可以考虑到甲方去,这也是一种职业发展的方式。
 
再举一些国外的案例。这个实施数据治理的策略特别好,非常值得借鉴,跟国内实施有很大的区别。它的路径分成四步:第一步制定一个企业级的数据管理的蓝图;第二步做了一个数据定义的项目;第三步做了一个试点;第四步做了一个体系化的实施。
 
国内一般做数据治理的时候是以项目制的方式,通过半年甚至一年的时间,全面对所有数据进行清理、制定标准,这是国内一种大而全、自上而下的方式。但是国外的案例是一个非常小步前进的方式,特别务实、特别容易见效的一种方式。首先做一个蓝图规划,相对来说国内比较擅长,数据治理这个领域究竟分成了哪些,跟刚才DAMA的图是类似的,这是一个指引性、方向性的。
 
怎么启动数据治理很值得借鉴。究竟这个企业是不是所有的数据都要治理,究竟对哪些数据进行治理,或者优先级是什么,哪些数据更重要,哪些没有那么重要。这个做了一个企业数据定义的项目,回答哪些数据是企业级数据,国内的还没有想清楚,有这么多数据,上万张表,上百万的字段,这些是都要去治理的信息吗?不是。这家企业做了一个项目,2万多个字段,对这些表和字段进行一些过滤和筛选,筛选原则是哪些表和字段是跨业务领域共享的。如果某个数据只在系统内部使用的话,暂时不能够称之为企业级的数据,也不是我们治理的优先级最重要的。所以这时候就做了这么一个筛选和识别。筛选完了之后,数据标的数量降低了70%,字段数量降低了85%,一下就把一个企业数据海洋聚焦到一个数据的小岛,就知道在汪洋大海当中,这一些小数据是你需要管好的,其他数据重要性没有那么高。聚焦,选择最重要的数据。
 
之后又做了一个局部试点,刚才说有3000多个数据项,从其中选了7个数据项去进行试点项目,这也是非常难得的。一般在国内做数据治理的项目,能选择某一个主题域,比如选组织机构做试点已经很不容易了,但是这儿只选了7个数据项,这是一个特别局部的试点,用了三个月的时间,范围非常非常小。第二,这7个数据项的选择特别值得我们借鉴。刚才我们讲十步法时强调,要去理解这个数据的业务场景和数据的业务价值,明确价值之后,再去做质量的提升。这边体现的非常明显,选择提升收入的数据项,控制成本相关的数据项,是银行的话,支持监管合规的数据项,把这些数据项想清楚,和业务部门、公司领导沟通时,很容易得到认同。因为这个数据项管不好,贷款人可能就保留不住,就到别家贷款了,做贷款审核的成本、贷后检查的成本可能就很高,这是一些关键性字段,就选了这么7个字段。通过这些字段的业务调研、问题分析,去明确这个数据质量问题是什么,怎么样去改进。改进的方法和问题是什么不是最重要的,最值得我们去借鉴的是:聚焦这个范围是和业务高度相关的,这两点如果做到了,很多数据项目,无论做数据应用还是做数据的质量提升,对咱们都会有帮助,非常容易去推动,这是很重要的建议。不要搞大而全,而是搞一些小而精,点状要有一些突破。
 
经过试点项目之后,才去进行整体数据治理的体系设计,包括政策、流程,包括开发公司内部的数据治理门户,包括数据治理组织机构、数据治理整个战略,对这些方面才做整体性的宏观设计。国内对于点状局部突破行动的推动是有欠缺的,这个案例给我们很大的一个启示就是在这儿。
 
九、建议 
 
下面给个人和所在公司提一些建议。数据治理这项工作经过我自己这几年的实践,是对人的综合能力要求非常高的一项工作。
 
顶天立地
顶天部分体现在哪儿?会有数据的战略,要理解公司业务的战略,信息化的战略,数据的战略,给公司建一些管理制度、管理流程,从大干快上变成小步快跑、稳扎稳打的节奏,这个变革当中要有人把握一些度,选择一些策略。立地部分,要关心数据模型、数据架构,关心实体、表、字段,关心字段取值,还要会做一些数据处理、质量规则能检查。在这个过程中,大家可以去选择自己的职业方向往哪走。
 
他的成长路径最开始是技术操作能力,是一个成员;后面会带一些数据的项目,带一些人;再往上做数据架构的整体规划、数据战略的实施;再往上做到CDO,可能有数据战略的规划能力,能够和业务、公司领导有更好的沟通,去实施整个企业级的数据治理的项目,他的能力要求也是一点一点在上升的。其实他应该是一个企业必需的人或者一类人,每个企业内部其实都应该有常态的这种数据治理的团队。如果大家愿意做这个事情的话,至少对个人综合能力提升还是挺有好处的。
 
书籍建议,包括DAMA的书、《首席数据官》。还有比较老的一些书,2001年《信息资源规划》,这里面很多思想,很多数据管理相关的思想,是国外在80年代初、80年代末,国外一些专家写的书,这些书很难买,有点像学术上的考古,但会发现很多思想在那时候国外都已经提出了,国内可能不了解这些思想,更没有实践。从书的数量上可以看到,国内现在越来越重视这个领域了。
 
企业能力提升    
企业能力提升:数据能力成熟度评估模型。这是我们参与编写,信标委大数据标准化工作组正在报批的国家标准。把数据战略、治理、架构、数据标准、数据生命周期等等领域做了一个等级的设定,去评价一个企业究竟自己的数据管理、数据能力怎么样,现在是三级还是二级,怎么样提升。我们在去年贵阳数博会之前做了一个评估,可以看到通信运营商的数据能力在行业横向对比来说还是比较领先的,但是距离数据管理本身的量化管理,还有向更高级的行业实践、形成行业标准还是有一些差距,基本能反映国内一些水平。在国外,很多企业能做到4或5,时间更早、更完善一些。这个工作在今年会逐步开展,我们也配合工信部标准院做这部分工作。
    
对于一个企业来说,做数据治理工作,最重要的是要开始能持续去做,并不是某一个数据治理的项目可能花了多少钱,用了几个月的时间,投入多少人,就完了。建设银行、运营商都是十几年之前就开始了,而且一直都没有停止做这项工作,才能够取得刚才说的成绩出来,是需要持续投入的工作。前面的培训评估也好,整体规划也好,都是可以按照项目的方式来做,但后续一定要有常态的团队、工作机制去保证持续性,数据治理在很多企业内部都是持续性不太够。
    
提到数据治理领域,国内整体发展还应该有更多的行业性能力的提升,大家可以积极去交流、去贡献大家的经验。回顾之前数据治理工作在国内发展时,最开始就是在基层,有一些数据问题要解决,慢慢到处级,现在我感觉很多部门级领导都比较重视了,公司级领导也开始逐渐重视起来了,还是要感谢大数据,虽然大数据里面有一些泡沫的成分在,但随着大数据概念的普吉,数据治理慢慢得到重视。
    
部门,以前是IT部门,现在慢慢到了有的企业有数据部门,业务部门更多在参与。最近我接触到了一些银行或电网公司,他们的业务部门都已经开始设置专门的数据团队,要么是科,要么是处,专门做数据管理的工作。这个很难得的,至少在两年之前还没有,现在业务部门越来越重视数据治理的工作。
    
讨论的内容,以前更多是数据技术层面,慢慢开始有流程组织方面的,现在国家有了大数据战略的规划,企业也开始慢慢重视自己企业数据战略的规划,工作内容上也越来越丰富了。
    
交流的范围,以前都是一个企业内部的讨论,偶尔有些行业、银行业的交流。我们去年底开数据治理大会时,跨行业的交流也已经开始了,而且几方都决定把数据治理的会每年都开,变成一个常态的交流沟通的平台,交流范围也越来越扩大。也可以反过来看到这几年发展的一些进步。
    
去年11月6号,国内第一次在数据治理领域召开大会,DAMA已经有20年了,国内没有这样的会议,我们希望每年都能持续去开。2017年第二届预计放在秋天开。在去年大会上,我们成立了清数-DAMA数据治理委员会。清华大数据产业联合会是国内大数据领域很领先的联盟性质,双方合作,更好地在国内推动数据治理、数据标准化、数据质量的理念,让整个领域本身发展壮大,同时能够帮助大数据行业相对稳健地发展,这是成立这么一个委员会专门的目的。
    
我们启动一个奖项的评选,同时也发了一个关注数据标准化和数据治理工作的倡议书,在数据派上也可以下载到,大家可以关注一下,我们可以把相关文章在群里发一下。提到这个奖项,为什么要设计这个奖励?点击查看:首届中国数据标准化及治理大会在清华园成功举办 开启中国数据标准化及治理研讨序幕(可参见本网站其他文章)
    
一方面从行业经验的集聚上来看,现在除了《银行业数据治理》那本书,很少看到国内究竟数据治理有哪些好的实践,我们希望通过这个奖,把国内一些比较好的实践方法、实践经验汇集上来。另外以前做数据治理的从业者IT部门的居多,这项工作特别辛苦,特别基层,不太容易受到业务部门和领导的认可。我们希望通过联合会的性质,给这些辛辛苦苦一直坚持做数据治理的人员以及他们取得的成绩给一个外部的认可,能够帮助更多的人重视和参与到这项工作当中去。
    
数据治理领导力奖,是给甲方中高层的领导,一直推动数据治理工作的。
数据治理优秀实践奖,是给已经做好的有亮点的案例评的奖。
数据治理的专家,甲方乙方都会有一些数据治理的专家,他们也可以个人得到一个认可。
    
获奖之后,我们会把这个奖项在媒体上公布,在9月份大会时发证书,获奖个人或单位会有演讲的机会。同时如果愿意的话,我们会在DAMA国际上申请,给大家去参与下一年DAMA的机会,如2018年DAMA的会,如果大家在国内获了奖,可以申请去演讲的机会。获奖案例会进入到清数和IVEY大数据案例中心,同时会把这些单位、个人相关的介绍案例集成书出版,推出来,对于企业和个人影响力以及权威性的提升都是有挺大帮助的。
    
2月底截止提交,3月份初评,4月份投票,9月份的第二次大会时公布出来。
 
以上是我今天给大家介绍的数据治理的内容,我们从什么是数据,为什么做数据治理,从大数据应用、小数据应用,再到数据治理的方法框架,再到企业内部实际案例,行业性,数据治理在国内发展历程,都做了全面性的介绍。它不是一个技术操作的,希望能够帮助大家全面了解这个领域,了解它的发展,了解我们正在做的事情,能够一块参与到这个领域的交流、学习和共同成长当中来。谢谢大家!