问题背景和现象
公司任务管理使用的是开源的redmine,以前是单机部署(bitnami_redmine),后来由于项目数量、人员数量和任务数量的增加,卡顿问题比较明显,于是改造为基于k8s的分布式集群部署(Nginx+puma) 。wiki标题如下:
改造后有个现象是,wiki标题中,如果包含引号特殊字符,在打开页面时,redmine后台将返回400 。
文章插图
400显示效果如下:
文章插图
处理办法方案1:替换数据库中的引号,替换为空
- 首先查出wiki标题,使用update进行修改 。
【nginx解码特殊字符引发400问题处理案例分享】这里仅为试验,没有使用MySQL的replace函数进行全局替换
文章插图
- 之后去掉引用页wiki_content的引号
文章插图
- 通过浏览器测试访问正常
文章插图
小结:方案2:找到参数丢失的根源
此方案虽然可以通过update … replace … 进行全部替换wikis title字段,但由于redmine wiki页面可以在项目内进行引用(issue和其他wiki均可引用),引用时内容较多,无法区分引号是否需要被替换,所以无法对wiki_contents以及journal_details表进行全局替换
思路大致是先通过对比缩小范围,找到400是哪个节点返回的,之后再进一步分析具体原因 。
- 1.首先看下nginx端是否正常接收到了参数,中文及特殊字符会进行urlencode,我们直接用转码后的结果在kibana中进行搜索
url.original : *%E4%B8%BB%E6%8E%A7%E6%9C%BA%E6%8A%A5%E9%94%99*
文章插图
可以看到参数到达nginx端时,还是对的,这很有可能是nginx再向后端svc传递时丢失了参数导致 。
我们可以通过curl跳过nginx,直接测试svc地址能否正常返回 。
- 2.先复制可以响应200的请求
文章插图
- 3.在服务器上跳过nginx直接访问svc地址,url中增加引号字符(%22),同时数据响应状态码-w %{http_code}
文章插图
从上面的测试可以看出,跳过nginx转发,可以拿到正常的响应结果 。
注:简单说明下,此前置nginx由于各类转发问题(比如cdn回源、oss图片转发等)没有使用nginx-ingress-controller暴露k8s集群中的服务,使用的是集群外置nginx 。
- 4.返回400的请求,在rails日志中并没有看到处理过程
文章插图
- 5.rails使用的是puma发布,查看puma日志,可以看到转换异常的错误
文章插图
到这里基本可以定位到问题节点,处于nginx—>puma时,发送的http请求不被puma认可 。
而curl发出的请求,是能被puma认可的 。
那么区别到底在哪里?nginx发出的请求为何有差异?
查看nginx error日志没有线索,问题到这里已经陷入了困境,难道只能抓包分析下?
- 6.服务器上使用tcpdump抓包,期间触发两次请求,一次curl svc地址(响应200的),一次curl nginx地址(响应400的)tcpdump -i cnio host 10.10.2.187 -w /tmp/1.pcap
文章插图
- 7.从服务器传到本地用wireshark分析
文章插图
文章插图
从上面的对比可知,nginx收到浏览器发送的请求后,发现有urlencode后的字符%22,会进行解码后将引号传递到后端 。
为何其他中文字符没有解码,唯独解码引号这一个字符?要弄清楚这个问题,需要结合nginx源码看一下 。
推荐阅读
- WordPress环境配置
- 残疾人上飞机 残疾人乘坐飞机怎样申请特殊服务
- 怎么帮婴儿按摩
- 全网最全面、全详细的编码、解码知识
- nginx单节点部署
- 解码·缩小数字鸿沟 老年人,如何更好融入智能生活
- windows 10 下docker布置nginx+php环境,用宿主WEB目录负载均衡
- 给你的Nginx加个防火墙
- 100%负压VS特殊风道哪家强?ZEROZONE EOS机箱测试
- 拥有特殊能力的动物 能力超强的动物