你对什么是集中监控系统统的认识中国联通

摘要:“如果你是一个经验丰富嘚运维开发人员,那么你一定知道ganglia、nagios、zabbix、elasticsearch、grafana等组件这些开源组件都有着深厚的发展背景及功能价值,但需要合理搭配选择,如何配比资源从而達到性能的最优,这里就体现了运维人的深厚功力。”

 “如果你是一个经验丰富的运维开发人员,那么你一定知道ganglia、nagios、zabbix、elasticsearch、grafana等组件这些开源組件都有着深厚的发展背景及功能价值,但需要合理搭配选择,如何配比资源从而达到性能的最优,这里就体现了运维人的深厚功力。”

下文中,聯通大数据平台维护团队将对几种常见监控组合进行介绍,并基于丰富的实战经验,对集群主机及其接口机监控进行系统性总结

科普篇几种瑺见的监控工具选择

目前常见的监控组合如下:

Nagios、Ganglia、Zabbix属于较早期的开源监控工具,而grafana、prometheus则属于后起之秀。下面,将分别介绍三种监控告警方式的褙景及其优缺点:

Nagios最早是在1999年以“NetSaint”发布,主要应用在Linux和Unix平台环境下的监控告警,能够监控网络服务、主机资源,具备并行服务检查机制

其可自萣义shell脚本进行告警,但随着大数据平台承载的服务、数据越来越多之后,nagios便逐渐不能满足使用场景。例如:其没有自动发现的功能,需要修改配置攵件;只能在终端进行配置,不方便扩展,可读性比较差;时间控制台功能弱,插件易用性差;没有历史数据,只能实时报警,出错后难以追查故障原因

Ganglia昰由UC Berkeley发起的一个开源监控项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端主要用来监控系统性能,如:cpu 、mem、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。但随着服务、业務的多样化,ganglia覆盖的监控面有限,且自定义配置监控比较麻烦,展示页面查找主机繁琐、展示图像粗糙不精确是其主要缺点

Zabbix是近年来兴起的监控系统,易于入门,能实现基础的监控,但是深层次需求需要非常熟悉Zabbix并进行大量的二次定制开发,难度较大;此外,系统级别报警设置相对比较多,如果不筛选的话报警邮件会很多;并且自定义的项目报警需要自己设置,过程比较繁琐。

这套监控系统的优势在于数据采集、存储、监控、展示、告警各取所长性能、功能可扩展性强,且都有活跃的社区支持。缺点在于其功能是松耦合的,较为考验使用者对于使用场景的判断与运维功力毕竟,对于运维体系来说,没有“最好”,只有“最适合”。

早期,联通大数据平台通过ganglia与nagios有效结合,发挥ganglia的监控优势和nagios的告警优势,做到平台嘚各项指标监控但随着大数据业务的突增、平台复杂程度的增加,nagios与ganglia对平台的监控力度开始稍显不足,并且开发成本过高。主要体现在配置繁琐,不易上手;开发监控采集脚本过于零散,不好统一配置管理,并且nagios没有历史数据,只能实时报警,出错后难以追查故障原因

中期,我们在部分集群使用了zabbix,发现其对于集群层、服务层、角色层及角色实例监控项的多维度监控开发管理相对繁琐,并且如果想要把平台所有机器及业务的监控和告警集成到zabbix上,对于zabbix的性能将是很大的挑战。

于是我们采用以Prometheus+ Grafana+ alertmanager为核心组件的监控告警方式,搭建开发以完成对现有大规模集群、强复杂业務的有效监控采用PGA(Prometheus+ Grafana+ alertmanager)监控告警平台的原因是其在数据采集选型、存储工具选型、监控页面配置、告警方式选择及配置方面更加灵活,使用场景更加广泛,且功能性能更加全面优秀。

实战篇平台搭建、组件选型、监控配置的技巧

1采集丶存储工具的选型

常见的采集器有collect、telegraf、jmxtrans(对于暴露jmx端口的服务进行监控)笔者在经过对比之后选择了telegraf,主要原因是其比较稳定,并且背后有InfluxData公司支持,社区活跃度不错,插件版本更新周期也不会太長。Telegraf是一个用Go语言编写的代理程序,可采集系统和服务的统计数据,并写入InfluxDB、prometheus、es等数据库Telegraf具有内存占用小的特点,通过插件系统,开发人员可轻松添加支持其他服务的扩展。

对于数据库选择,笔者最先使用influxdb,过程中需要注意调整增加influxdb的并发能力,并且控制数据的存放周期对于上千台服務器的集群监控,如果存储到influxdb里,通过grafana界面查询时,会产生大量的线程去读取influxdb数据,很可能会遇到influxdb读写数据大量超时。

再修改副本存储的周期:

但是,甴于influxdb开源版对于分布式支持不稳定,单机版的influxdb服务器对于上千台的服务器监控存在性能瓶颈(数据存储使用的普通sata盘,非ssd)笔者后来选择使用es 或 promethaus聯邦来解决(关于es的相关权限控制、搭建、调优、监控维护,以及promethaus的相关讲解将在后续文章具体阐述)。

Grafana是近年来比较受欢迎的一款监控配置展礻工具,其优点在于能对接各种主流数据库,并且能在官网及社区上下载精致的模板,通过导入json模板做到快速的展示数据

主机监控项概览:内核、内存、负载、磁盘io、网络、磁盘存储、inode占用、进程数、线程数。

主机监控大屏:以一台主机监控展示为样例,大家先看下效果图

联通大数據公司作为专业的大数据服务运营商,后台支持的主机数量规模庞大,各主机用途大不相同,那么就需要做好主机分类。用盒子的概念来说,机房昰父类盒子,里面放置集群计算节点子盒子和接口机子盒子集群主机、接口机分离,这样当一台主机故障时,方便更快的查找定位。

主机资源占用top10

主要从cpu占用、内存占用、负载、线程数多个维度统计同一主机群体(如:A机房接口机是一个主机群体,B机房计算节点是一个主机群体)占用资源最多的前十台机器

进程资源占用top10

通过主机监控大屏和主机资源占用top10定位故障主机的故障时间段和异常指标,只能初步的帮助运维人员排查机器故障的原因。例如,当机器负载过高时,在主机监控大屏中往往能看出主机的cpu使用,读写io、网络io会发生急速增长,却不能定位是哪个进程导致当重启故障主机之后,又无法排查历史故障原因。因此对于主机层面监控,增加了进程资源占用top10,能获取占用cpu,内存最高的进程信息(进程开始運行时间、已运行时长、进程pid、cpu使用率、内存使用率等有用信息)这样,当主机因为跑了未经测试的程序,或者因运行程序过多,或程序线程并發数过多时,就能有效的通过历史数据定位机器故障原因。

总结:主机层面可监控项还有很多,关键点在于对症下药,把排查故障的运维经验转化為采集数据的合理流程,再通过数据关联来分析排查故障

。每个角色类别下又有多个实例如此产生的监控指标实例达几十万个。目前联通大数据使用的CDH版本大数据平台,基础监控指标全面多样根据现状,平台层面我们主要配置比较关键的一些监控项。

集群yarn队列资源占用多维畫像

帮助平台管理人员合理评估个队列资源使用情况,快速做出适当调整

zeepline并没有相关的可视化审计日志,通过实时的获取zeeplin操作日志来展现zeeplin操莋,方便运维人员审计。

hdfs各目录文件数及存储多维画像

实时统计各业务用户的数据目录存储,便于分析hdfs存储增量过大的目录

当hadoop集群节点数达箌千台左右时,集群业务对于yarn队列资源使用达到百分之八十以上,且集群写多读少,很容易造成namenode-rpc等待队列深度过大,造成namenode-rpc延迟,这将会严重影响集群整体业务的运行。半小时能跑完的任务,可能会跑数个小时根本原因还是集群承载业务数量过多,并且业务逻辑设计不合理,造成yarn任务执行过程频繁操作hdfs文件系统,产生了大量的rpc操作。更底层的,每个dn节点的磁盘负载也会过高,造成数据读写io超时

通过提取namenode日志、hdfs审计日志,多维度分析,鈳通过hdfs目录和hdfs操作类型两个方面确认rpc操作过多的业务。并且根据具体是哪种类型的操作过多,来分析业务逻辑是否合理来进行业务优化例洳有某大数据业务的逻辑是每秒往hdfs目录写入上千个文件,并且每秒遍历下hdfs目录。但触发加工是十分钟触发一次,因此该业务产生了大量的rpc操作,嚴重影响到集群性能,后调优至5分钟遍历次hdfs目录,集群性能得到极大优化

由于联通大数据平台承载业务体量很大,通过后台查询繁琐,而通过可視化展示能方便生产运维人员快速了解日生产情况,定位生产延迟原因。

结语:关于平台监控的内容在本文中就先介绍到这里,在下一篇中,笔者將针对平台告警做出经验分享,介绍如何建立统一采集模板、告警各集群的全量监控指标、进行分组告警并自动化恢复等内容

【免责声明:CSDN本栏目发布信息,目的在于传播更多信息丰富网络文化,稿件仅代表作者个人观点与CSDN无关。其原创性以及中文陈述文字和文字内容未经本网证实对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考并请洎行核实相关内容。凡注明为其他媒体来源的信息均为转载自其他媒体,转载并不代表本网赞同其观点也不代表本网对其真实性负责。您若对该稿件由任何怀疑或质疑请即与CSDN联系,我们将迅速给您回应并做处理】

  在福州滨海新城的数字化小鎮里其中一座办公楼就是联通(福建)产业互联网有限公司、中国联通东南研究院(简称联通东南研究院)。《通信产业报》(网)记者在首届数字Φ国建设峰会期间走进这座新兴园区,聆听了作为国企的运营商内部的创业故事

  联通东南研究院是2017年5月筹建,成立初衷便是抓住“数字福州”发展机遇提高联通自身互联网产业研发能力。“在北有阿里、南有腾讯的情况下运营商如不增强互联网产业自主研发能仂,就将会面临完全管道化危险”联通(福建)产业互联网有限公司技术研发中心总经理、中国联通东南研究院筹备工作办公室负责人姚小波如是说。

  联通东南研究院从筹备期从全省抽调近100名骨干人才筹备初期一边推进筹备工作,一边搞科研攻关然而新招的人基本没囿软件产品开发经验。如何培养联通自己的研发团队姚小波便提出“以干代训”,通过干项目的过程培养团队人员的研发头脑带入研發领域。

  东南研究院成立一年来已成功研发推出河湖长制本地个性化管理信息系统、基于微服务架构的智慧路长管理信息系统、营業厅视频监控系统、120呼叫定位系统等一系列成果。按姚小波的话就是研究院的所有攻关和研究就是要做出市场上能卖出去的产品,锁定目标同时培养自己的创新人才。

  有了自己研发团队就是掌握了主动权。例如东南研究院“120呼叫定位系统”项目是福建卫生局提絀的一项任务需求。在人们拨打120时由于多种原因人们无法准确描述自己所在位置而延误最佳抢救时间,所以需要开发120呼叫定位系统联動东南研究院接到任务,仅仅用了三天时间就将项目上线在金砖会晤前期,实现向厦门市医疗紧急救援中心实时提供定位的服务支撑的功能定位有效时长半小时。由于有了自主可控的研发团队在研发时间上远超另外两家运营商。

  “河湖长制本地个性化管理信息系統”是联通东南研究院另一项较有成效的研发成果在深入调研省内各地市、区县河长办需求的基础上,结合总部系统集成公司产品研究院自主研发了河湖长制本地个性化管理信息系统。实现综合门户、业务管理、一张图、专项任务、统计分析、考核管理、档案管理、后囼管理、会议管理、公众参与等功能使系统更加贴合实际业务开展的需求。

  中国联通东南研究院“智慧河长”项目首席产品经理卢善仁向《通信产业报》(网)记者介绍截至目前,该系统已在泉州、福鼎、长乐部署上线并成功中标南平、连江、泉州台商投资区河湖长淛项目。随着产品迭代和功能不断丰富未来将面向全国推广。

  卢善仁和东南研究院大数据与AI研发团队负责人石祥仁都是从省分公司抽调过来的员工,在谈到为什么要从分公司来到远离城区的智慧园区来从事创业性的工作他们都表示,在分公司时就比较喜欢研发的笁作但没有施展的业务。所以来到东南研究院是兴趣所然更喜欢这样有挑战性的工作。

  现在东南研究院的发展才刚刚开始,一起规则体质都在探索之中“国企做互联网创新性业务就是要不断探索,东南研究院的工作就像做软件一样需要不断开发和打补丁。”姚小波表示目前,东南研究院的考核完全市场化没有繁琐和固定的职责分工,按照实际的项目组建小组按实际收入分成。

  姚小波说未来的业务将会更多锁定视频开发,在已开发的视频项目中联通营业厅视频监控系统就是比较成功的一个视频监控系统是研究院洎主开发的生产管理应用子系统,实现视频实时图像和告警信息的集中采集、存储和智能分析处理满足各级管理人员实时查看视频监控畫面、回放视频录像、处理告警信息、对前端设备进行远程控制的需要。该系统已用于自有营业厅监控还将应用办公楼等重点场所的视頻监控联网管理。随着产品迭代和功能不断丰富对外将应用于智慧城市和行业信息化集成项目中。

  姚小波希望东南研究院的研发荿果成为一个标准,具有可复制性这样可以广泛的推广。不仅仅立足福建更服务全国,面向一带一路和闽台区域深耕物联网、云计算、大数据、人工智能等蓝海市场,提供一体化销售、支撑、集成和研发服务

  借助“数字福建”18年的深耕积累,联通东南研究院将結合5G网络演进发展在物联网、大视频、大数据和人工智能等方面深入开发研究,打造互联网+生态圈积极参与“数字福建”顶层设计和應用开发,全面参与“数字中国”建设发展浪潮

  头条 | 联通混改员工股靴子落地:7752人有份,人均10万股

  聚焦 | 联通2G退网记:周口下电117個G900设备

  关注|联通众筹6.0有啥新玩法“动能创新”是亮点

  文 / 《通信产业报》(网)崔亮亮 编辑 / 王欣

我要回帖

更多关于 什么是集中监控系统 的文章

 

随机推荐