开发者社区 云原生 微服务 文章 正文

王东:微服务下的APM全链路监控

2017年11月24日 11312
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《 阿里云开发者社区用户服务协议》和 《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写 侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
简介:

[画像:f274c01f4064b50e3dc4cbae594dc87bbe4e4d59]

什么是APM?

APM (Application Performance Management) 即应用性能管理,属于IT运维管理(ITOM)范畴。主要是针对企业 关键业务的IT应用性能和用户体验的监测、优化,提高企业IT应用的可靠性和质量,保证用户得到良好的服务,降 低IT总拥有成本(TCO)。

[画像:8acdd29bd449e459548b1e22d11679f9fa4d95f5]

APM的发展历程

[画像:f4280acf1766d1fcac3d933309869cddcc213c0e]

Gartner对APM的定义(2014)

2014年Gartner对APM的5个定义:

[画像:c83b6b927e36c1de7292bc8681984bd7ed059895]

Gartner对APM的定义(2016)

2016年重新定义,将原来的五部分合成三部分。

[画像:2ba5424afbf5d6fdb8eb5e8fc6931e81fd0a2c79]

服务开发架构的发展历程

一开始的应用开发是从Main-frame一直到2010年以前比较热的SOA架构,到14年比较热的Microsorvices架构,从14年开始基于容器化的Microsorvices。服务开发框架复杂度越来越高。

[画像:fba8fb290289d4f9fce438ad87fba34fdc9ab9c5]

微服务带来的挑战

  • 依赖关系复杂
  • 持续交付
  • 容器化环境
  • 服务注册、发现和可靠性
  • 一切皆服务(Everything-as-a-Service)
  • DevOps

微服务对APM的大影响

[画像:205dd95d5fb3e474748ef68524e910f2995edc6f]

APM的核心能力

[画像:19dcc8bc4081857958fe975c0f71617bb0921222]

基于微服务的应用程序端到端监控

[画像:e63341c81161640bdad6dfed6dec3b928edd49dc]

APM探针的基本原理 (Java Instrument)

[画像:b61edb5aca52b6e8c1eabea109f37a46ced61337]

APM探针的基本原理 (Java探针结构)

[画像:81033f06fd0373c0421dc82f8d5ac203c03e06f4]

APM探针的基本原理 (Java Instrument)

[画像:14b6e5c579b88a5135b5bbe7da1a81850fbac9ac]

分布式追踪 – Google Dapper

[画像:e7cdb5777111d376bea524c728b49f9f827c0605]

分布式追踪 – OpenTracing

[画像:0b8dcb0a04b9ff8a4c82275e0345a21ef09c71f4]

追踪一切

无论是业务服务还是微服务,要做到收取流失的数据,还有所有组件健康检查,还要做到数据的分析。

[画像:032a1451f1d8d194c7be112e4e416c1a4d7c3b18]

服务关联元数据

监控是分层的,只知道一个服务有问题,并不能定位这个服务的根本原因是什么,就需要使用元数据。

[画像:b606edc20cda0c3c8dea40b40b426a0f50664912]

服务动态拓扑

随时间的推移去变化

[画像:4f7e92fb87eb97d837919cec254482c824ff3bd3]

服务调用链分析

[画像:bf69cf2c647d450644216ebcf1bea62c75f342c5]

APM总体架构

[画像:890cef7b4e122e1f867cbd4010433a934083d400]

探针配置

[画像:df22ef1a6c298433ce2f54c35bf145d105c3e4d8]

APM核心能力

[画像:da0c6b798cd4f5f274f67ee4558c1bbc542c1697]

性能测试

[画像:3248032dfb07888578f00092601ae9ada7f41555]

构建"部署 + 监控 + 告警 + 报障"闭环

[画像:1eed2219bfe1fb778c86b6c8953f9f11bde99fbf]

告警平台

[画像:e0bf6cdb64f88dede2495664b099633fc6adf610]

通过故障分类系统、支持组,快速将接入的各监控系统报障通知给相应维护人员, 并通过配置的SLA及组织架构,对未及时响应的报障进行上告处理,以达到卓越运维的目的。

[画像:3fdc8f8bb209f4bd5abe9cbbca02e5facd316ec4]

大数据能力的充分释放-自动异常点检测

[画像:d693c0503699434baa49e4f35175a36321226c39]

AIOps

  • 告警归并
  • 根因分析
  • 故障自动恢复
  • 容量预测
原文发布时间为:2017年11月24日
本文作者:王东
本文来自云栖社区合作伙伴" 中生代技术",了解相关信息可以关注" 中生代技术"微信公众号
目录
热门文章
最新文章

AltStyle によって変換されたページ (->オリジナル) /