美团一面:为什么线程崩溃崩溃不会导致 JVM 崩溃


美团一面:为什么线程崩溃崩溃不会导致 JVM 崩溃

文章插图
 
大家好,我是坤哥
网上看到一个很有意思的美团面试题:为什么线程崩溃崩溃不会导致 JVM 崩溃,这个问题我看了不少回答,但发现都没答到根上,所以决定答一答,相信大家看完肯定会有收获,本文分以下几节来探讨
  1. 线程崩溃,进程一定会崩溃吗
  2. 进程是如何崩溃的-信号机制简介
  3. 为什么在 JVM 中线程崩溃不会导致 JVM 进程崩溃
  4. openJDK 源码解析
线程崩溃,进程一定会崩溃吗【美团一面:为什么线程崩溃崩溃不会导致 JVM 崩溃】一般来说如果线程是因为非法访问内存引起的崩溃,那么进程肯定会崩溃,为什么系统要让进程崩溃呢,这主要是因为在进程中,各个线程的地址空间是共享的,既然是共享,那么某个线程对地址的非法访问就会导致内存的不确定性,进而可能会影响到其他线程,这种操作是危险的,操作系统会认为这很可能导致一系列严重的后果,于是干脆让整个进程崩溃
美团一面:为什么线程崩溃崩溃不会导致 JVM 崩溃

文章插图
 
线程共享代码段,数据段,地址空间,文件
非法访问内存有以下几种情况,我们以 C 语言举例来看看
  1. 针对只读内存写入数据
  2. #include <stdio.h>
    #include <stdlib.h>
    int main() {
    char *s = "hello world";// 向只读内存写入数据,崩溃
    s[1] = 'H';
    }
  3. 访问了进程没有权限访问的地址空间(比如内核空间)
  4. #include <stdio.h>
    #include <stdlib.h>
    int main() {
    int *p = (int *)0xC0000fff; // 针对进程的内核空间写入数据,崩溃
    *p = 10;
    }
  5. 在 32 位虚拟地址空间中,p 指向的是内核空间,显然不具有写入权限,所以上述赋值操作会导致崩溃
  6. 访问了不存在的内存,比如
  7. #include <stdio.h>
    #include <stdlib.h>
    int main() {
    int *a = NULL;
    *a = 1;
    }
以上错误都是访问内存时的错误,所以统一会报 Segment Fault 错误(即段错误),这些都会导致进程崩溃
进程是如何崩溃的-信号机制简介那么线程崩溃后,进程是如何崩溃的呢,这背后的机制到底是怎样的,答案是信号,大家想想要干掉一个正在运行的进程是不是经常用 kill -9 pid 这样的命令,这里的 kill 其实就是给指定 pid 发送终止信号的意思,其中的 9 就是信号,其实信号有很多类型的,在 linux 中可以通过 kill -l查看所有可用的信号
美团一面:为什么线程崩溃崩溃不会导致 JVM 崩溃

文章插图
 
当然了发 kill 信号必须具有一定的权限,否则任意进程都可以通过发信号来终止其他进程,那显然是不合理的,实际上 kill 执行的是系统调用,将控制权转移给了内核(操作系统),由内核来给指定的进程发送信号
那么发个信号进程怎么就崩溃了呢,这背后的原理到底是怎样的?
其背后的机制如下
  1. CPU 执行正常的进程指令
  2. 调用 kill 系统调用向进程发送信号
  3. 进程收到操作系统发的信号,CPU 暂停当前程序运行,并将控制权转交给操作系统
  4. 调用 kill 系统调用向进程发送信号(假设为 11,即 SIGSEGV,一般非法访问内存报的都是这个错误)
  5. 操作系统根据情况执行相应的信号处理程序(函数),一般执行完信号处理程序逻辑后会让进程退出
注意上面的第五步,如果进程没有注册自己的信号处理函数,那么操作系统会执行默认的信号处理程序(一般最后会让进程退出),但如果注册了,则会执行自己的信号处理函数,这样的话就给了进程一个垂死挣扎的机会,它收到 kill 信号后,可以调用 exit() 来退出,但也可以使用 sigsetjmp,siglongjmp 这两个函数来恢复进程的执行
// 自定义信号处理函数示例#include <stdio.h>#include <signal.h>#include <stdlib.h>// 自定义信号处理函数,处理自定义逻辑后再调用 exit 退出void sigHandler(int sig) {printf("Signal %d catched!n", sig);exit(sig);}int main(void) {signal(SIGSEGV, sigHandler);int *p = (int *)0xC0000fff;*p = 10; // 针对不属于进程的内核空间写入数据,崩溃}// 以上结果输出: Signal 11 catched!


推荐阅读