股票代码:603516

七大标准判别分布式系统的优劣(下)

2020-03-20

七看运维管理

智能化的运维管理就像人体的免疫系统一样不可或缺,它可以围绕业务系统进行日常安全监测,掌握系统的各项指标,并根据指标作出“健康”与否的判断;对检测到的设备运行不正常状态或者设备故障发生预警,并及时通知运维管理人员进行维护。这种运维方式侧重于设备故障隐患和缺陷的早期发现和处理,提高了设备的稳定性和可靠性。


专业的运维管理解决方案涵盖如下要点:


1. 动态展示系统连接的拓扑图

与分布式相关的周边系统,尤其是网络系统,都与最终画面上屏的响应速度、图像质量、操作延迟、拼接同步性等效果息息相关。分布式节点通过交换机、路由器等网络设备连接,任何一个网络节点故障、掉线,都会使得某路画面黑屏,这时需要能够及时定位到故障点,才可以在最短时间内解决网络故障。

系统拓扑.gif

因此分布式系统的运维管理软件需要能提供一个动态变化的设备连接拓扑图,通过拓扑图直观地看到分布式设备及周边设备的在线状态与故障状态,不用实际到现场排查,就可以反馈给用户到底是哪个环节发生问题。

2. 图形化查看设备详细运行指标

除了设备的在线与否之外,为了更好的掌握系统运行状态与趋势,设备的详细运行指标也同样关键,如各个分布式节点的输入输出分辨率、帧率、视频传输速率等。与分布式设备连接的交换机,也需要实时了解其运行时间、温度、CPU占用率、内存占用率、某端口流量、抖动、丢包率等。
三维图形化查看.gif
只有掌握了这些信息,才能在发生画面抖动、卡顿、错位等“软问题”时,精准定位到问题所在,降低分布式系统可能受到的外界环境干扰。

3. 具备故障告警与预警提示

传统的运维模式通常是被动式的,即用户发现问题,再排查问题所在。而现代化的分布式运维更应该是主动式的,即系统一旦发生故障,分布式系统要能主动以页面的弹窗、声音或邮件、短信等渠道,为用户做出告警提示,即使用户不再指挥中心或会议室内,也能通过手机等方式远程掌握分布式系统的状态。


告警.gif
另外,智能化的运维管理应不仅仅是发生问题、解决问题,更应该利用大数据等手段,记录系统运行数据,并对未来趋势进行预测,在设备可能发生某个问题之前,前置性的做出预警提示,真正提高分布式系统的稳定性。

4. 建立完善并有记录的运维工作流程

拥有了设备的监测与告警,用户可以最短时间内掌握系统故障点,但如何解决这些故障,依旧是一个值得深究的问题。分布式系统具有无限的扩展性与覆盖度,往往部署在大地域中。管理分布式的运维人员也常常不是一个人,而是上下级单位、各个机构多人配合。

闭环处理2.gif

效率最高的运维解决方案是多人分工配合,如管理员在指挥中心对整个分布式系统监管,发现故障点后,远程指导操作员实际到现场处理,并可通过系统实时判断问题是否解决。这就需要分布式系统提供一个科学的运维工作流程,从发现问题、派工单下发、到现场解决与问题反馈,运维人员只需按照标准化的运维流程来操作,并在系统内记录相关工作信息,即可高效率的完成运维管理工作。


5. 覆盖系统级别的统计与分析

真正的分布式运维管理是一门系统性的科学与工作,应该做到“精细化运维”。所谓“精细化运维”,即不仅仅对设备运行状态进行监管,也要收集并记录运维工作流中的告警响应时间、工单解决时间、故障处理时间等信息,同时通过数据的挖掘与关联,对各类设备的故障率、高风险参数、视频质量影响率等进行分析,生成综合性的多维度系统运行报表,帮助用户持续改善分布式系统的运维管理工作与应用方式。


3_1统计分析(1).png

没有运维管理的业务系统相当于人体失去了免疫系统,不仅无法预防系统风险,而且系统的安全性、稳定性完全不受保障……只有具备专业智能化运维管理的分布式系统,才是真正完整、可靠的分布式系统。