你了解大型网站的页面静态化吗?

前言我们小伙伴们在访问淘宝、网易等大型网站时有没有考虑到,网站首页、商品详情页以及新闻详情页面是如何处理的?怎么能够支撑这么大流量的访问呢?
很多小伙伴们就会提出他们都采用了静态化的方案,这样用户请求直接获取静态数据html,就不需要访问数据库了,性能就会大大提高;而且提高网站seo优化 。那今天老顾就带着大家聊一下静态化 。把老顾之前工作场景中静态化方案遇到的问题,以及如何演变的,分享给小伙伴 。
关于相关的静态文件的CDN技术,老顾就不在这边讲了 。这个大型网站肯定都会用到的,什么是CDN,小伙伴们可以在网上查询看一下,比较简单;我们这边注重看技术方案 。
方案一:网页静态HTML化这个方案是老顾最早使用的方案,我们就拿CMS系统举例,类似网易的新闻网站;核心流程图

你了解大型网站的页面静态化吗?

文章插图
 
上图的核心思想:
1)管理后台调用新闻服务创建文章成功后,发送消息到消息队列
2)静态服务监听消息,把文章静态化,也就是生成html文件
3)在静态服务器上面安装一个文件同步工具,此工具的功能可以做到只同步有变动的文件,即做增量同步(老顾用久没用了,忘了工具的名称)
4)通过同步工具把html文件同步到所有的web服务器上面
这样的话就达到了,用户访问一些变化不大的页面时,是直接访问的html文件,直接在web服务器那边直接返回,不需要在访问数据库了,系统吞吐量比较高 。
这个方案的问题:
1、网页布局样式僵化,无法修改
如果产品经理觉得新闻详情页面的布局要调整一下,现在的不够美观,或者加个其他模块,那就坑爹了,我们需要把所有的已经静态html化的文章全部重新静态化 。这个是不现实的,因为像网易这么大的体量,新闻量是很大的,会被搞死 。
2、页面会出现暂时间不一致
会出现用户刚刚再看最新的新闻,刷新一下又不存在了 。这个是因为同步工具在同步到web服务器是要有时间的,同步到web服务器A上面了,但web服务器B还没有来得及同步 。用户在访问的时候通过Nginx进行负载均衡,随机把请求分配给web服务器的导致的 。当然可以调整nginx负载均衡策略去解决 。
3、Html文件太多,无法维护
这个是很明显的问题,html文件会越来越多,对存储空间要求很大,而且每台web服务器都一样,浪费磁盘空间;将来迁移维护也会带来很大的麻烦 。
4、同步工具的不稳定
因为文件一旦多之后,同步工具稳定性就出现了问题
这个方案应该是比较传统的(不推荐)
方案二:伪静态化什么是伪静态?
举个例子:我们一般访问一个文章,一般的链接地址为:http://www.xxx.com/news?id=1代表请求id为1的文章 。不过这种链接方式对SEO不是太友好(SEO对网站来说太重要了);所以一般进行改造:http://www.xxx.com/news/1.html 这样看上去就是个静态页面 。一般我们可以采用nginx对url进行rewrite 。小伙伴如何有兴趣可以自行了解,比较简单 。
之所以是伪静态其实也是需要动态处理的 。
针对方案一上面问题,方案进一步的演化,如下图
你了解大型网站的页面静态化吗?

文章插图
 
此方案的核心思想
1)管理后台调用新闻服务创建文章成功后,发送消息到消息队列
2)缓存服务监听消息,把文章内容缓存到缓存服务器上面
3)用户发起请求,web服务器根据id,直接查询缓存服务器
4)获取数据返回给用户
此方案就解决了方案一的一个大问题,就是html文件多的问题,因为不需要生成html,而且用缓存的方式,解决不需要访问数据库,提升系统吞吐量 。
不过此方案的问题:
1、网页布局样式维护成本比较高,因为此方案照样是把所有的内容放到了缓存中,如果需要修改布局,需要重新设置缓存 。
2、分布式缓存压力比较大,一旦缓存故障就导致所有请求会查询数据库,导致系统崩溃
还有个小问题,就是实时数据处理,就是页面中如价格,库存需要到后台读取的 。当然小伙伴也许就会说,也可以处理啊,用户把商品内容请求到后,然后在用浏览器发送异步的ajax请求获得商品数量就好了啊 。这样就是无形的增加了一次请求 。(此问题可以忽略)


推荐阅读