1 Arthas(阿尔萨斯) 能为你做什么?
- 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
- 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
- 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
- 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
- 是否有一个全局视角来查看系统的运行状况?
- 有什么办法可以监控到JVM的实时运行状态?
- 怎么快速定位应用的热点,生成火焰图?
- 怎样直接从JVM内查找某个类的实例?
curl -O https://arthas.aliyun.com/arthas-boot.jarJAVA -jar arthas-boot.jar
文章插图
启动Arthas
3. 查看dashboard【Arthas线上服务器问题排查】
文章插图
Dashboar图
文章插图
Thread 命令图
4 问题排查
项目正常发布,在测试环境启动正常,在测试环境机房发布启动正常,但是到了预发环境机房启动发现是启动到一半卡住,现象如下:
文章插图
服务启动到一般卡住
第一反应是预发环境的内存不够导致无法启动(当时服务器上只剩不到700M内存,去其他机器看该服务正常需要1个G内存),日志输出卡住,于是调整内存进行发布,结果调整到了1.2g多还是不行. 于是转换思路,开始排查gconfig和nacos这些在线程状态中是timewating的状态.
文章插图
使用Arthas命令查看thread现场状态
经过排查这些都是属于非主线程阻塞.
开始另外换思路, 开始排查主线程中的在运行堆栈信息,由于main线程的id是1, 使用arthas中的 thread 1 命令
文章插图
至此找到问题点,主线程一直在创建webservice连接卡住,没有执行其他的任务
文章插图
解决办法是进行注释掉,后重新发布正常 。
总结,
- 内存是否足够 top free -h
- check 启动日志
- arthas 命令查看threa time out
推荐阅读
- 抖音服务器带宽有多大,才能供上亿人同时刷?
- 华为服务器FusionServer Tools uMate工具介绍
- mac如何安装sz,rz,实现本地和服务器文件传输「开发效率工具」
- 详解服务器、磁盘和网卡知识
- Android性能优化高阶:卡顿、ANR、死锁,线上如何监控?
- 在Ubuntu 16.04 LTS服务器上安装FreeRADIUS和Daloradius的方法
- 开源文件共享服务器chfs安装和配置教程
- cpu100%定位解决方法
- 巧用Python登陆远程服务器
- 服务器为什么会被攻击?黑客发动网络攻击要花多少钱