{$CATEGORYS['438']['catname']
首页 >  金融科技 > 大数据 > 运维大数据与监控平台

运维大数据与监控平台

  • 发布时间:2018-08-31
  • 来源:
  •   
  • 打印

银行运维大数据监控平台Sm@rtFinsight致力于全面采集银行运维和运营过程中的轨迹数据,并将这一数据富矿作为银行重要数据资产加以管理、分析和利用,助力银行提高经营、运维和风险管理水平。

背景

随着银行IT系统越建越多,变化不断,银行在系统运维和业务监控方面面临着各种各样的问题:一方面系统运维的压力增大。传统的运维,一旦出现系统问题,只能一个个服务器排查,无法及时预判和快速定位,时效性差;普通的监控软件只能监控网络性能,无法真正梳理业务的访问路径;高峰交易时段,无法提前预判并改善用户体验;无法及时定位访问路径的各个节点的延迟。另一方面,银行缺少对业务系统进行实时监控的IT手段,通常的T+1数据分析系统时效性差,无法满足银行领导随时了解业务状况,获取决策支持的需求。多数风险案件需要回溯当时的网络报文数据,业务系统无法办到。

神州信息在充分理解银行业务发展,银行IT系统建设架构、业务服务标准和协议规范、业务逻辑处理等基础上,利用实时和批量数据采集手段,获取网络流量、应用日志和业务数据的全面采集,并依托大数据实时分析、存储技术及机器学习算法等技术,实现了以业务角度和场景化监控为基础的数据可视化展示,为银行IT运维和业务运营部门提供了完整的运维监控平台。

目标与价值

银行运维大数据监控平台集全面运维数据采集、传输和存储,实时数据加工与计算,大数据分析建模与机器学习算法,数据可视化展示和数据应用服务于一体,为银行IT运维、业务稳定持续运营保驾护航。

建设目标

系统建设演进顺序

银行运维大数据监控平台将网络流量数据、业务报文数据、系统日志数据、应用日志数据以及业务交易数据等融于一体,构建多渠道、多维度的运维大数据平台,利用先进的大数据技术,进行数据建模和数据挖掘,发现数据价值。该平台既能满足系统运维人员对网络性能、应用性能的监控,又能为银行的管理人员提供深度的业务洞察功能。它具有业务拓扑图梳理、性能KPI指标监控和故障定位排除等功能,可对各类业务情况进行实时的分析和预测,提供系统性能和业务的监控和告警。为业务系统提供异常交易报表、实时审计报表、所见即所得的系统运维报表、业务运维大屏和运营监控大屏等数据展示服务。

业务价值

自主规划业务监控场景主题。Sm@rtFinsight按照监控主题—监控指标—监控场景面板的结构,提供了灵活的监控指标展示方式,每一个监控指标都可独立显示,并通过自主布局的方式构建业务监控大屏。它将存量数据和实时采集数据相结合,为业务运维和IT运维提供实时监控、事件告警、安全审计、业务地图、业务统计、行为分析、数据服务、异常检查、日志查询、故障排查、路径关联、性能分析、应用地图等十多种应用服务。

从业务的视角而不是性能的视角提供监控数据服务。Sm@rtFinsight将各类方式采集到的业务监控数据存储到大数据平台,进行指标计算、业务关联、分析建模、汇总统计、规则计算、特征计算等类加工处理,提供立体的运维大数据监控。

从专业角度建立银行IT运维的健康指数。DC指数涵盖了网络性能监控、应用性能监控、业务性能监控、日志分析管理、动环监控等内容,提出了银行IT及业务监控领域的关键考核指标。

整体架构

产品架构

逻辑架构

技术架构

系统支持前台应用分布式部署,后台数据集群部署,较大程度上保证系统运行的稳定性和数据处理效率。

数据采集层:使用自有的网络探针解码TCP,HTTP协议;

数据管道层1:为了保证数据的安全性,所有数据先进入管道留存。通过网络探针和写入服务将数据导入管道层。

数据解析层:网络报文经过探针解码从二进制转化为了字符串类型,我们还需要根据具体业务系统的报文协议解析报文头和报文体。系统支持多种类型的报文协议,如核心系统内部、核心与ESB之间的业务报文、外围系统和ESB之间的业务报文等。并解决了报文解析层分布式部署的问题。

数据管道层2:为了保证数据的安全性,解析层的数据会先在数据管道中留存。

数据存储层:基于Hadoop分布式技术,满足海量数据存储。采用Hive数据存储与列式关系型数据存储相结合的方式,既满足海量数据的归档存储和离线分析,又满足关系型数据聚合聚集的运算要求。

前端展示层:采用前端可视化展示组件进行数据展示。

产品特点

1、多种数据采集与融合

该平台多渠道采集网络数据、系统日志、应用端行为数据、业务数据进行线索关联与数据融合,建立业务数据链路,形成数据全路径链条,为业务分析、运营分析和运维分析等提供有效支持。

2、高速网络旁路采集探针及协议解析

公司自有研发的旁路报文产品(SPAN/TAP/分光器的探针采集和解码工具),是实现数据高速、实时采集和对数据进行网络及应用协议解析的关键。旁路报文采集不影响生产环境,一个探针可以监控多个网段,并且部署方便灵活,相比其他采集方式,有着无可比拟的优势。

3、大数据实时分析

它采用大数据技术构建实时分析平台和多维展现平台,为实时分析和历史查询提供数据支持。

4、建立多维性能监控体系

它对所有重要业务系统的应用性能实施监控,一旦故障发生能够快速定位故障发生的业务组件,获知影响范围;并与基础监控系统相结合,实现多维度监控;还可对关键性能指标进行多维分析。

5、实时掌握业务运行情况,提供洞察分析

该产品构建了业务可视化监控平台,实现对关键业务系统运行状况、上下游关联系统运行状况的统一展示,对业务量,交易额,渠道,地域等维度做对比分析,对各类业务情况和异常交易进行分析和预测。

6、监控主题—监控指标—监控场景面板立体监控

该产品提供15类监控场景、200多个监控指标和按照业务要求组合的监控场景面板,构成了较为全面的监控分析体系。通过监控指标的定义和扩展,整个监控的展示形式和内容都可以按需增加。

7、对运维风险和异常交易进行监控和告警

它可以及早发现全系统的性能和稳定性隐患;根据异常交易审计模型配置实时监控异常交易,并提供多渠道预警;支持各类所见即所得的报表。

8、基于机器学习和数据挖掘技术,助力业务运营、提升客户体验

该产品基于海量运维数据分析,利用机器学习(ML)算法和数学建模手段,对业务状况、运维故障、交易风险进行预测和预判,助力业务运维和业务运营防范风险,提升客户体验。

产品功能

业务性能监控

业务性能分析是指依托对网络性能和应用性能的监控和故障分析和定位,从业务视角分析问题。

1.业务健康视图查看各业务系统的交易量,成功率和响应率内容,并可进行系统健康程度评分;

2.业务路径拓扑图可方便梳理分析业务系统路径;

3.流量趋势分析可提供系统的流量和容量的历史情况,进行趋势分析;

4.异常处理提供单笔交易追踪和详单查询功能,进行故障的定位和故障鉴责。

5.性能KPI分析,包含交易量、成功率、交易渠道、交易延时、响应率、告警数据等指标的多维度分析。

业务流向、交易渠道、交易量、成功率、交易时长、响应率实时监控

业务洞察分析

业务洞察分析是实时业务监控分析的核心内容。它在协议解码的基础上对业务系统的各种类型规则进行业务解析,然后对关键业务类型进行计算并建模,实现分析预测,提供以下业务场景的多维度分析。

1.支付业务分析

提供交易量/交易额的统计和趋势分析,渠道占比分析,业务种类占比分析,失败类型/告警类型的占比分析,交易量/交易额的地区排名分析等。

2.柜台业务分析

提供柜面业务的业务类型占比分析,存款/取款的交易量和交易额趋势分析,新增客户数量分行排名分析,新增网银/手机银行开户数量分析,销户数和销户原因分析等。

3.电子银行业务分析

提供电子银行的交易量/交易额/开户数统计,个人/企业网银的交易量/交易额/开户数统计,个人/企业手机银行的交易量/交易额/开户数统计,微信银行的交易量/交易额/开户数统计,手机系统类型占比和排名分析,电子银行交易失败类型占比分析等。

电子银行交易监控

电子银行交易渠道监控(大屏)

4.分行业务分析

提供分行交易量/交易额/开户数排名,分行渠道交易量/交易额排名,分行渠道开户排名(网上银行,手机银行等),分行新增存贷款额度排名,分行新增不良贷款额度排名等。

5.总行分行资金往来状况

提供总行到支行资金转入排名分析,支行到总行资金转出排名分析、支行每日资金余额排名分析等。

6.异常交易分析

提供异常交易量/交易额统计,类型占比分析,交易量,渠道,时间,地区维度的频繁交易分析、境外大额交易分析、异常时段交易分析,银行卡异常交易的交易类型分析,电子银行异常交易分析(异常交易类型、渠道别、趋势分析)等。

7.历史统计分析

提供本月/本年(新增)对公存款余额统计,(新增)个人存款余额统计,年(新增)对公贷款余额统计,(新增)个人贷款余额统计,(新增)对公客户数量统计,(新增)个人客户数量统计,(新增)个人网银开户数量统计,(新增)对公网银开户数量统计,(新增)同业存款余额统计,(新增)同业贷款余额统计,(新增)不良贷款额度统计等。

8. 业务量预测

提供本周/本月的新增对公存款余额预测,新增个人存款余额预测,新增对公贷款余额预测,新增个人贷款余额预测,新增对公客户数量预测,新增个人客户数量预测,新增个人网银开户数量预测,新增对公网银开户数量预测,新增同业存款余额预测,新增同业贷款余额预测,新增不良贷款额度预测等。

9. 自定义分析

多维度分析包括交易类型,交易量,交易金额,地区,渠道,成功率,失败类型等占比、排名、地图分析,并支持数据钻取分析。

业务量监控指标

安全审计报表

安全审计报表包括系统运维报表、异常交易审计报表和根据用户需求自由定义的报表。

信息科技系统事件是操作风险检测的事件内容之一。系统运维报表是信息科技系统事件的重要展现,可以提供系统运行状况,流量趋势及系统出错类型统计分析等各类报表。

异常交易审计报表是根据电子银行(含个人/企业网银,手机银行等)和银行卡等的审计模型进行告警设置,得到异常交易的数据和告警列表,可以进行告警分析也可以给业务提供数据服务。

系统支持所见即得的报表定义,可以选取任意应用和KPI指标的组合生成各种类型的报表,并且生成日、周、月定时发送。

热点地图

热点地图是热点业务的地图和热力图展示场景。热点业务主要银行关注的业务渠道,如电子银行交易,柜台交易,ATM/POS交易及全体交易的交易地区热力图等。

展示的地图精度由数据精度决定,通常路径为国家到省级再到市级等三级。

地图展示1

地图展示2

监控告警

监控告警是实时业务监控分析的重要场景。监控告警包含告警设置、告警类别和告警分析功能。

告警设置分为性能告警的设置和业务告警的设置。性能告警设置包含基线设置和阈值设置方式;业务告警设置指根据异常交易的审计模型进行设置。

告警可通过“声”、“光”、“电”告警,并可通过手机、短信、邮件及微信等方式告知技术人员。

告警分析可进行告警明细确认,也可转到转到应用性能分析的异常处理界面进行系统故障分析定位等。

业务监控大屏

业务监控大屏是实时业务监控的大屏形式展现,可根据银行需求自由定义展示界面、展示顺序和刷新时间。通常,内容包括应用性能监控视图和流量趋势分析,各类关键业务分析、热点业务的地图分析、异常交易分析、告警列表等

数据服务

数据服务是实时监控分析系统可为其他系统提供数据接口。一、可提供流量类性能数据给前端系统或其他监控系统;二、可提供由异常交易审计模型监测到的异常交易数据给业务系统,以便业务系统采取措施(按照操作风险等级,若是异常交易告知客户,若是高风险交易进行阻断,若是违规操作则按照内容流程来处理),实现实时审计功能。

系统管理

系统管理包含配置管理和其他管理,其中配置管理包含探针定义、接口定义、模型定义、统一客户视图中可以查询客户的基本信息,评级信息,交易信息,账户信息,预警信息(大额、可疑报送记录),调查信息(客户尽职调查记录),客户的风险KPI信息,便于业务人员更好的确定客户风险等级。

其中,探针定义和接口定义界面定义探针相关信息;模型定义和规则管理定义协议解析方式和规则等;任务管理设定探针的检测任务;拓扑管理可以设定业务拓扑路径图。

检测场景管理、指标管理、指标取数逻辑定义、页面布局管理等功能充分支持系统监控范围的按需扩展,按需布局。