阿普兰软件
这是描述信息
您现在的位置:
乐投体育
/
政务(某市监察)数据资产管理案例

解决方案

SOLUTION

全部分类

44

联系我们

CONTACT

政务(某市监察)数据资产管理案例

概要:
概要:
详情

  

  1. 数据治理思路
    1. 建设现状

*市监察委大数据平台建设是一项庞大复杂的系统工程,涉及多个领域、多个部门。必须解决不同部门、不同单位数据汇聚的数据的统一分类和管理问题。标准化作为一种科学的管理手段,可以减少平台在数据建设过程中不必要的重复和盲目建设,为大数据平台建设项目的整体建设以及资源数据的更新和维护提供数据标准支撑。

    1. 建设目标

基于*市监察委大数据平台统一规划,按照分布式的数据采集,集中的数据管理的原则。建立数据标准体系,数据质量体系,保证数据的一致性、完成性和准确性,建立数据开发平台,提供高效的数据分析、抽取能力,构建从数据模型设计、数据开发、运维、使用一体化全生命周期的数据管控平台,并以各委办局业务数据为核心构建*市监察委大数据中心的数据体系。对数据进行各种维度的有效组织和管理,形成全局的数据架构。

    1. 治理效果

从数据资产管理角度的全面治理管控。

  1. 数据需求

集中接入、统一管理*市内各市直机关、银行、运营商等部门获取到的基础信息资源、主题信息资源、社会信息资源、互联网信息资源。根据数据不同的结构化、结构化特征,制定不同的数据采集、清洗、标准化、数据处理策略,形成统一的数据治理方案。同时提供对数据的元数据管理、可视化的数据处理、数据运维管理、调度监控等功能,建立统一的大数据治理平台,以满足全市的纪检监察单位的不同的数据需求。

  1. 数据治理方案
    1. 数据治理要素

为了有效管理信息资源,必须构建整体的数据治理体系。数据治理体系包含数据治理组织、数据构架管理、主数据管理、数据质量管理、数据服务管理及数据安全管理内容,这些内容既能有机结合,又相互支撑。

      1. 数据模型

数据模型是数据构架中重要一部分,包括概念数据模型和逻辑数据模型,是数据治理的关键、重点。理想的数据模型应该具有非冗余、稳定、一致、易用等特征。逻辑数据模型能涵盖整个组织的业务范围,以一种清晰的表达方式记录跟踪组织单位的重要数据元素及其变动,并利用它们之间各种可能的限制条件和关系来表达重要的业务规则。数据模型必须在设计过程中保持统一的业务定义。为了满足将来不同的应用分析需要,逻辑数据模型的设计应该能够支持最小粒度的详细数据的存储,以支持各种可能的分析查询。同时保障逻辑数据模型能够最大程度上减少冗余,并保障结构具有足够的灵活性和扩展性。

      1. 数据生命周期

一般包括数据生成及传输、数据存储、数据处理及应用、数据销毁四个方面。

  1. 数据采集及传输

数据应该能够按照数据质量标准和实际业务分析需要采集,应采取措施保证数据的准确性和完整性。对于手工流程中产生的数据在相关制度中明确要求,并通过事中复核、事后检查等手段保证其准确性和完整性。数据传输过程中需要考虑保密性和完整性的问题,对不同种类的数据分别采取不同的措施防止数据泄漏或数据被篡改。

  1. 数据存储

这个阶段除了关注保密性、完整性之外,更要关心数据的可用性,对于大部分数据应采取分级存储的方式,不仅存储在本地磁盘上,必要时要远程复制到磁盘阵列中,或者采用光盘库进行存储。对于存储备份的数据要定期进行测试,确保其可访问其数据完整。数据的备份恢复策略应该结合数据的实际业务需求进行设计。同时还需要注意因为实际的分析需要或故障处理的需要,对数据进行转换,转换数据的不同表现形式,此时必须审慎对待后台数据变化。

  1. 数据处理和应用

监察委各业务部门需要对数据进行分析处理,以挖掘出对于管理及业务开展有价值的信息,为保证过程中数据的安全性,一般应采用联机处理,系统只输出分析处理的结果。但是在实际应用中,因为数据来源于不同的业务部门,同时获取方式也多样化,这就需要在数据分析之前要对数据进行标准化处理,清洗掉无意义的脏数据,在这个过程中就需要关注数据的价值是否被降低。

  1. 数据销毁

这个阶段需要注意的是,对于需要送出外部修理的存储设备,送修之前应该对数据进行可靠的销毁。

      1. 数据标准

数据标准是*市监察委建立的一套符合自身实际,涵盖定义、操作、应用多层次数据的标准化体系。

数据标准的建立是*市监察委信息化、数字化建设的一项重要工作,行业的各类数据必须遵循一个统一的标准进行组织,才能构成一个可流通、可共享的信息平台。数据治理对标准的需求可以划分为两类,即基础性标准和应用性标准。前者主要用于在不同系统间,形成信息的一致理解和统一的坐标参照系统,是信息汇集、交换以及应用的基础,包括数据分类与编码、数据字典、数字地图标准;后者是为平台功能发挥所涉及的各个环节,提供一定的标准规范,以保证信息的高效汇集和交换,包括元数据标准、数据交换技术规范、数据传输协议、数据质量标准等。

  1. 数据分类与编码

数据分类与编码标准是数据标准化的一项基础工作,该类标准规定平台汇集、交换相关信息统一的分类系统和排列顺序以及编码规则,目的是在不同系统和用户之间建立交通数据的一致参照,对提高数据采集、处理和数据交换效率具有重要作用。数据分类与编码标准的制定将有力推进平台标准化及交通信息化建设标准化的进程。

  1. 数据字典

针对实际需求,定义数据集,建立各个领域的数据字典,规范数据概念和数据定义。在此基础上,形成完备的集团单位数据集和数据字典。

  1. 元数据标准

元数据标准是描述数据资源的具体对象时所有规则的集合,它包括了完整描述一个具体数据对象时所需要的数据项集合。针对各种信息资源分别制定适当的元数据标准,可为信息的管理、发现和获取提供一种实际而简便的方法,从而提高数据交换效率。

  1. 数据交换标准

为了保证数据共享和交换的顺利实现,必须明确定义和规范数据交换的相关标准。数据交换的标准规范是*市监察委大数据平台的核心标准。其中应当包括数据交换内容、数据交换格式、数据传输方式、各类中心间数据接口的标准化等方面。

  1. 数据质量标准

数据采集任务完成以后,数据治理平台的标准方法主要集中在数据的加工和管理上。应该重点开发的一个领域是数据质量控制方法。应当从三个方面对数据质量方法进行研究:“坏数据”或“不可靠数据”的识别,错误数据的编辑方法,以及缺少值的处理。

      1. 主数据

主数据管理要做的就是从各部门的多个业务系统中得到的,最核心的、最需要共享的数据(主数据),集中进行数据的清洗和丰富,并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据传送给大数据分析平台。

      1. 数据质量

数据质量不高将影响数据中心应用程度不高。低下的数据质量往往造成开发出来的系统与用户的预期大相径庭,数据质量关系建设有关大数据分析平台各分析主题的成败,同时数据资源是*市监察委的战略资源,合理有效的使用正确的数据能指导分析人员做出正确的决策,提高分析研判效率。不合理的使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。

数据质量管理包含对数据的绝对质量管理、过程质量管理。绝对质量即数据的真实性、完备性、自治性是数据本身应具有的属性。过程质量即使用质量、存储质量和传输质量,数据的使用质量是指数据被正确的使用。再正确的数据,如果被错误的使用,就不可能得出正确的结论。数据的存贮质量指数据被安全的存贮在适当的介质上。所谓存贮在适当的介质上是指当需要数据的时候能及时方便的取出。数据的传输质量是指数据在传输过程中的效率和正确性。

高质量的数据至少有如下几项要求:

一是正确性,在转换、分析、存储、传输、应用流程中不存在错误;

二是完整性,数据库应用或要求的所有记录、字段都存在; 

三是一致性,体现在整个数据库的定义和维护方面,确保数据在使用的整个过程中是一致的;

四是时效性,衡量指标是在指定的数据与真实的业务情况同步的时间容忍度内,即指定的更新频度内,及时被刷新的数据的百分比;

五是可靠性,提供数据的数据源必须能够可靠稳定地提供数据。

      1. 数据服务

数据整理最终目的就是要服务于各业务部门、人员等,能更准确更快更方便的服务是数据服务管理的目标。

数据服务管理是指针对内部积累多年的数据,研究如何能够充分利用这些数据,分析案件信息。数据使用的方式通常包括对数据的深度加工和分析,包括通过各种报表、工具来分析运营层面的问题,还包括通过数据挖掘等工具对数据进行深度加工,从而更好的管理者服务。通过建立统一的数据服务平台来满足针对跨部门、跨系统的数据应用。通过统一的数据服务平台来统一数据源,变多源为单源,加快数据流转速度,提升数据服务的效率。

      1. 数据安全

由于办案所需的数据重要且敏感,数据安全更是至关重要。如何保障数据不被泄露和非法访问,是非常关键的问题。数据安全管理主要解决的就是数据在保存、使用和交换过程中的安全问题。

数据安全管理主要体现在以下六个方面: 

一是数据使用的安全性,包括基础数据的保存、访问和权限管理;

二是数据隐私问题,系统中采集的证件号码、银行账号等信息在分析系统中,是否要进行加密,以避免数据被非法访问;

三是访问权限统一管理,包括单点登录问题及用户名、数据和应用的访问授权统一管理;

四是数据安全审计,为数据修改、使用等环节设臵审计方法,事后进行审计和责任追究; 

五是制度及流程建立,逐步建立数据安全性的管理办法、系统开发策略、数据隐私使用规范、在管理决策和分析类系统中的审计管理办法等;

六是应用系统权限的访问控制,建立*市监察委的权限管理体系。

  1. 系统建设方案
    1. 总体业务方案

数据查询平台通过互联网和政务内网、政务外网、专线四种网络途径访问各个协助单位的数据,查询平台提供多种数据访问协议主要有:

基于WebService的访问协议,并支持同步访问和异步访问。

基于Restful API的访问协议,提供被动的数据访问策略。

基于Http文件流的形式提供数据访问协议。

  • 数据查询平台

数据查询平台主要用于解决案件立案后,提供以银行、运营商、各委办局非监管对象的数据的采集和查询。

数据查询平台的查询结果数据通过数据治理平台的实时处理机制,让查询结果立即发送至监察委的工作网络(涉密网),原则上查询平台(非涉密网)不做数据落地操作避免数据泄露的风险。

  • 数据治理平台

数据治理平台可以通过数据库直连、批量数据接口、数据离线文件等方式获取监管对象数据。

数据治理平台获取到查询平台的数据传输的数据后,对数据进行标准化处理,并将处理后的结果提交至监察委的数据中心平台进行存储,同时向上层应用系统发送消息告知数据已更新。

    1. 连接方式

*监察委与各市级银行、运营商、各委办局分别通过专线、政务内网、政务外网、互联网的方式接入,查询数据经防火墙返回查询平台,再经单向光闸传输,进入*监察委内网。

办案查询平台网络方案是以通过查询前置机连接专线、政务内网、政务外网和互联网,协助单位也部署前置服务机与*监察委的前置机进行通信,通过此方式保证彼此生产环境的安全,同时实行对各个协助单位的应用系统进行隔离,让查询平台灵活的应对后续系统的升级。

*监察委的前置机与监察委内网通过防火墙设置单向通信,前置机只能向内网写入数据,不能读数据。避免数据的泄露风险。

    1. 网络拓扑

说明:

  1. 银行、运营商、各委办局分别通过专线、政务内网、政务外网、互联网接入,经防火墙连到监察委查询平台;
  2. 查询平台统一向各部门发送查询请求;
  3. 数据返回后经光闸单向落地至监察委内网。
  1. 平台设计原则

在开始每个项目的总体设计前,必要的设计原则是需要首先明确的,设计原则可以指导整个架构的设计思路、目标以及范围等。

根据以往实践经验和方法论,数据治理平台总体架构的设计原则需要体现六个方面,使得有限的资源以较有效的协作方式共同发挥效用:

    1. 可扩展性

可扩展性是指数据治理平台能够支持后续业务发展的需要。在本项目中,具体要从以下几个方面考虑系统的可扩展性:

1.数据模型:设计基础数据层和数据预处理层模型时应充分考虑,除了能够容纳现有源系统的结构设计,还应该尽可能满足今后上线的其他系统数据模型,同时还需要制定一套合理的模型设计规范,使得今后上线的业务系统数据模型能很方便地扩展到数据集成平台。

2.数据处理:需要考虑两个方面的扩展性,增加新的ETL任务处理以及原有任务所处理的数据规模加大,ETL处理架构必须能适应新的变化,需要考虑通过集群的方式来扩展。

3.数据交换:在设计时应考虑,随着分发数据规模的扩大和分发节点的增多,对分发处理和传输处理的性能要求会越来越高,必须支持集群的方式进行扩展。此外,数据交换平台还必须提供二次开发接口,支持SOA服务模式,可以进行应用级的扩展。

    1. 高性能

高性能是指在硬件资源有限的情况下,数据治理平台应尽可能的支持尽量多的数据服务需求,还能承受用户峰值时间段压力,使得数据治理平台能够满足全机构范围内的使用者。在本项目中,高性能的设计主要体现在以下几个方面:

1.ETL处理:在进行ETL设计时,需要考虑大数据量条件下的处理效率,确保在规定的时间窗口内完成ETL处理,特别是一些特殊日期的ETL处理,例如结息日、月底等。

2.数据交换:需要考虑在大数据量条件下的文件传输效率,主要也是体现在一些特殊日期条件下的文件传输,以及特殊情况下的全量文件传输。

3.数据库设计:对一些海量数据表或频繁访问的数据表,在数据库设计的时候需要从数据库设计的角度考虑性能优化机制。

    1. 可管理性

这里所说的可管理性主要是指系统运维的可管理性。比如:在实际运行过程中,系统能很方便地对系统的运行状态进行监控,查看数据质量情况;出现系统异常时,能及时收到消息通知,并有一套完善的流程来处理数据或系统方面的异常等等。在本项目中,可管理性的设计具体表现在以下几个方面:

1.ETL处理:在ETL的总体设计时,确保系统可以监控全过程的运行状态,并能对异常情况及时提醒,保存完整的处理日志信息,并设计相应的错误处理流程。另外,还需要考虑ETL任务配置的直观图形化。

2.数据管理:在总体设计时,应充分考虑数据的复杂性,必须能做到多而不乱,能够清楚了解系统每一个应用的转换逻辑和数据含义,在任何环节有变动时,能迅速的反馈变动产生的影响。需要充分考虑数据质量报告的可读性,数据质量标准的可维护性,数据质量问题处理流程的可操作性。

3.数据交换:在总体设计时,需要充分考虑数据分发任务易于配置,传输结果易于监控。

    1. 高可用性

高可用性是指系统在一些特殊情况发生时,依靠架构的有效设计,仍然能保证正常运行。在本项目中,高可用性的设计主要体现在以下几个方面:

1.数据模型的可用性:模型的设计应能屏蔽源系统结构的变化对数据集成平台和目标系统带来影响。局部数据模型的扩展不会对其它数据模型产生大的影响。

2.ETL处理的可用性:应充分考虑各源系统的时间窗口可能存在不一致的情况,避免出现一个系统的数据时间窗口没有满足条件,影响到其它所有系统的ETL处理。

3.系统备份:当正在运行的生产系统出现异常时,系统应具备相应的备份恢复机制,确保系统能及时恢复处理。

4.各个模块设计时应考虑自己的运行管理流程。

    1. 安全性

在本项目中,安全性主要包括两个层面的含义:一是防止数据服务体系的数据资源被恶意修改和盗取;二是防止数据在传输过程中被截留和篡改。在本项目中,安全性的设计具体体现在以下方面:

1.对于第一个层面的安全性,主要依赖于各应用系统对用户角色和功能权限的控制。因此,在编写基于数据服务体系的应用系统设计开发规范时,应明确要求应用系统必须充分考虑安全性的设计。

2.对于第二个层面的安全性,主要依赖于文件传输过程中的加解密处理。因此,数据交换平台在进行总体设计的时候需要充分考虑数据传输过程中的安全性。

3.此外,系统在进行网络规划时,对系统的安全级别也需要进行分析,必要时需要提高网络的安全级别,从物理设计层面提高系统的安全性。

    1. 可重用性

可重用性是指尽可能避免系统建设的重复投入,应尽可能考虑包括物理设备、系统软件、框架组件、规范方法以及业务应用等多个层面上的复用。在本项目中,可重用性的设计具体表现在以下几个方面:

1.ETL功能组件:在设计ETL任务处理流程时,要分析ETL任务的各个环节,尽可能找出一些公用的ETL组件,进行必要的封装,便于在模块内复用,进而推广到项目内进行复用。

2.数据预处理层的数据模型:在设计数据预处理层的数据模型时,应充分考虑应用系统的数据加工需求,尽可能将一些共性的加工需求在该层实现;并通过这种机制,不断扩充和完善改成的数据模型,实现加工数据的复用。

3.组件复用:各模块在开发的过程中,注意提炼出一些可用共用的公共组件,在模块内实现复用,甚至在模块间实现复用。

4.硬件部署:在进行硬件部署的规划时,应充分对系统的处理规模进行分析。如果性能允许的话,尽可能集中部署,使用现有设备,在硬件方面实现复用。

  1. 数据治理实施
    1. 数据治理方法

*市监察委的数据治理过程是以数据标准化规则为基础,开展数据抽取、检查、转换、监控等几方面治理工作,达到数据规范、数据可用、数据易用的效果。

    1. 数据治理过程

数据治理过程:

  • 现有数据进行汇集,采集元数据:
  1. 接入连接专线,接入数据库,从各个委办局获取数据信息;
  2. 采集接口元数据信息,录入治理平台。
  • 根据现状制定数据标准模型规范
  1. 以各数据信息类别分析当前汇集数据现状;
  2. 结合数据实际使用需求,梳理标准模型规范。
  • 标准规范录入,执行数据质量检测
  1. 先进行各委办局元数据与标准规范对比,检查元数据字段缺失问题、规范性;
  2. 进行实例数据检查。
  • 定位解析问题输出分析报告
  1. 元数据问题解析:表元数据缺失、命名不一致、中文名缺失等;
  2. 实例数据问题解析:格式不同、数据缺失、描述维度不同等。
  • 制定数据清洗规则,提供修正建议
  1. 不同类型问题给出相关具体处理规则,包括:空值处理、不同格式转换、不同维度关联修正等。
  • 数据质量修正进度跟踪及规则调优
  1. 跟踪各类数据修正进度;
  2. 评估修正结果,优化清洗规则。
      1. 数据采集

*市监察委的数据治理过程中数据采集包括两部份:

  • 业务数据的采集:从各委办局提供的数据文件采集、直连的数据库进行采集。

如:监察对象信息、公车信息,低保信息,各种补贴等等信息。

  • 接口数据的采集:通过调用各委办局开发的数据接口进行采集。

如:接口类型、数据格式、数据字符集、数据最大值,数据频次,数据协议等等。

      1. 数据梳理

对业务系统中的数据进行梳理:编码梳理,关键字段梳理。

  • 编码梳理:如人员类别,姓别编码,购票方式,游客类型。
  • 关键字段:如证件号码不能为空、增量时间不能为空、关键数值不能为空且不能小于0
  • 异常数据梳理:梳理异常数据,如:是否有重复证件号,重复的人员信息,是否有信息遗失。
  • 接口数据的监控:通过上步的异常数据的梳理,形成异常数据监控规则,将此规则录入数据管控平台,后续平台根据此规则自动监控接口数据的情况,并形成接口数据的质量情况报告。
      1. 标准制定
  • 标准数据模型:根据现有的来源于各委办局的人员信息、组织信息、账单信息、话单信息进行重构,使之能够适应决策分析等应用对数据的要求。
  • 标准维度编码:对上面数据梳理环节整理出的编码进行规范编码设计,最后以数据标准录入系统,系统会根据此标准进行数据转换和数据监控。
  • 接口数据字段与标准模型字段对应关系:建立接口数据字段和标准模型字段间的关系
  • 数据层次划分:将*市监察委数据中心的数据划分为三层:
    • 数据汇集层
    • 数据标准层
    • 专题数据层
  • 数据主题划分:对每个层级进行主题设计,方便数据的查找,使用和维护。
    • 数据汇集层:为了方便查找接口数据的来源对数据汇集主题的划分按照数据来源系统。
    • 数据标准层:为了保证数据来源的可追溯性,根据数据来源进行主题的划分。
    • 专题数据层:按照数据应用的专题进行划分
      1. 数据处理

当完成上面的数据标准制定之后,系统根据接口数据接入的频次和类型或定时或实时的进行清洗,转换,最后形成符合设计要求的数据存放在标准数据层。对后续的应用提供可靠的数据保障。

      1. 数据监控
  • 监控接口数据和处理结果数据,通过全生命周期的监控来保证数据的准确性和完整性。
  • 接口数据监控的内容:监控从委办局系统的接口数据达到的时间,数据的大小,是否存在数据丢失。
  • 标准数据层的监控:处理后的数据是否存在数据重复,关键信息是否缺失,数据模型规范性。
  • 问题告警:当接口数据出现异常,或是标准化后的数据未到达预期目标则进行及时告警,进行数据处理。
  • 监控接口数据和标准结果数据生成数据质量报告。
  • 接口数据质量报告:数据是否及时到达,数据大小,数据的波动幅度。
  • 数据标准层质量报告:数据错误分布,数据缺失,数据重复,数据完整性,质量趋势图。
  • 监控数据中心数据变化情况:及时掌握数据中心的最新成果
  • 数据大小的变化:数据的增长率,数据存储空间,数据的分布。
  • 数据质量的变化:数据中心质量的波动,质量发展趋势。