随遇而安

关注TA

额，假装这里有签名...

某地区
工程师
写了837,964字

Ideamagic

在文章《我要应聘做版主！！！求安排！！！》中回复：
```
我要做站长
```
Nemo

在文章《我要应聘做版主！！！求安排！！！》中回复：
```
言重了言重了，还要多谢一直以来的支持呢。
```
Nemo

在文章《我要应聘做版主！！！求安排！！！》中回复：
```
哈哈哈，安排安排！综合板块怎么样？
```
Nemo

在文章《好多地方都下雪了，听说......》中回复：
```
哈哈哈哈哈哈，怪我，忍不住笑出声。
```
Nemo

在文章《推荐一款实时日志管理工具》中回复：
```
看起来不错呀。
```
旧闻君

在文章《脑子好使的来，不百度，一起来玩猜谜语》中回复：
```
不少都看过啦
```
旧闻君

在文章《脑子好使的来，不百度，一起来玩猜谜语》中回复：
```
女大三，抱金砖
```
旧闻君

在文章《脑子好使的来，不百度，一起来玩猜谜语》中回复：
```
忘了....
```
旧闻君

在文章《脑子好使的来，不百度，一起来玩猜谜语》中回复：
```
又虾
```
旧闻君

在文章《脑子好使的来，不百度，一起来玩猜谜语》中回复：
```
虾（瞎）
```

该文章投稿至Nemo社区 Java 板块复制链接

通过 jstack 与 jmap 分析一次线上故障

发布于 2018/06/04 15:29 929浏览 0回复 1,434字

原文出处： kingszelda

一、发现问题

下面是线上机器的cpu使用率，可以看到从4月8日开始，随着时间cpu使用率在逐步增高，最终使用率达到100%导致线上服务不可用，后面重启了机器后恢复。

二、排查思路

简单分析下可能出问题的地方，分为5个方向：

系统本身代码问题
内部下游系统的问题导致的雪崩效应
上游系统调用量突增
http请求第三方的问题
机器本身的问题

三、开始排查

查看日志，没有发现集中的错误日志，初步排除代码逻辑处理错误。
首先联系了内部下游系统观察了他们的监控，发现一起正常。可以排除下游系统故障对我们的影响。
查看provider接口的调用量，对比7天没有突增，排除业务方调用量的问题。
查看tcp监控，TCP状态正常，可以排除是http请求第三方超时带来的问题。
查看机器监控，6台机器cpu都在上升，每个机器情况一样。排除机器故障问题。

即通过上述方法没有直接定位到问题。

四、解决方案

1.重启了6台中问题比较严重的5台机器，先恢复业务。保留一台现场，用来分析问题。

2.查看当前的tomcat线程pid

3.查看该pid下线程对应的系统占用情况。top -Hp 384

4.发现pid 4430 4431 4432 4433 线程分别占用了约40%的cpu

5.将这几个pid转为16进制，分别为114e 114f 1150 1151

6.下载当前的java线程栈 sudo -u tomcat jstack -l 384>/1.txt

7.查询5中对应的线程情况，发现都是gc线程导致的

8.dump java堆数据

sudo -u tomcat jmap -dump:live,format=b,file=/dump201612271310.dat 384

9.使用MAT加载堆文件，可以看到javax.crypto.JceSecurity对象占用了95%的内存空间，初步定位到问题。

MAT下载地址：http://www.eclipse.org/mat/

10.查看类的引用树，看到BouncyCastleProvider对象持有过多。即我们代码中对该对象的处理方式是错误的，定位到问题。

五、代码分析

我们代码中有一块是这样写的

这是加解密的功能，每次运行加解密都会new一个BouncyCastleProvider对象,放倒Cipher.getInstance()方法中。

看下Cipher.getInstance()的实现，这是jdk的底层代码实现，追踪到JceSecurity类中

verifyingProviders每次put后都会remove,verificationResults只会put，不会remove.

看到verificationResults是一个static的map，即属于JceSecurity类的。

所以每次运行到加解密都会向这个map put一个对象，而这个map属于类的维度，所以不会被GC回收。这就导致了大量的new的对象不被回收。

六、代码改进

将有问题的对象置为static，每个类持有一个，不会多次新建。

七、本文总结

遇到线上问题不要慌，首先确认排查问题的思路：

查看日志
查看CPU情况
查看TCP情况
查看java线程，jstack
查看java堆，jmap
通过MAT分析堆文件，寻找无法被回收的对象

上一个文章：Kafka 源码分析 5 ：KafkaConsumer 消费处理

下一个文章：RocketMQ 源码学习 1 : 整体结构

点了个评

随遇而安

最近回复

通过 jstack 与 jmap 分析一次线上故障

一、发现问题

二、排查思路

三、开始排查

四、解决方案

五、代码分析

六、代码改进

七、本文总结

点击排行

没有找到这位爷的热门文章哦~

最新文章

羊了个羊最新攻略！！！羊了个羊卡无限洗牌道具BUG！！拿走不谢！！

我要应聘做版主！！！求安排！！！

细说 Java 中的字符和字符串（一）

细说 Java 中的字符和字符串（二）

Java 配合 mitmproxy HTTPS 抓包调试

深入Spring Boot：快速集成Dubbo + Hystrix

Java：关于值传递你需要了解的事情

JAVA 同步实现原理

ERROR 1044 (42000) : Access denied for user ‘root’@’localhost’

ERROR 3009 (HY000) : Column count of mysql.user is wrong