文章插图
- 使用数据透视表,您现在可以使用以下选项按爬网深度(在这种情况下,通过特定的漫游器进行过滤)来分析爬网速率:
文章插图
要获得如下内容:
文章插图
比Search Console更好的数据?识别爬网问题Search Console可能是每个SEO的首选,但它肯定有缺陷 。历史数据很难获得,并且可以查看的行数有限制(在撰写本文时为1000) 。但是,借助日志文件分析,才是极限 。通过以下检查,我们将发现爬网和响应错误,以对您的网站进行全面的运行状况检查 。
发现抓取错误一个显而易见且快速的检查是添加到您的军械库,您要做的就是过滤日志文件的状态列(在我的情况下为W3C日志文件类型的“ sc-status”),以查找4xx和5xx错误:
文章插图
查找不一致的服务器响应特定的URL随时间变化的服务器响应可能会有所不同,这可能是正常现象,例如修复了断开的链接或出现严重的服务器问题的迹象(例如,网站访问量过大导致更多内部问题) 。服务器错误,并正在影响您网站的可抓取性 。
分析服务器响应就像通过URL和日期进行过滤一样容易:
文章插图
另外,如果您想快速查看URL在响应代码中的变化,则可以使用数据透视表,其中将行设置为URL,将列设置为响应代码,并计算URL产生响应的次数码 。要实现此设置,请使用以下设置创建数据透视表:
文章插图
这将产生以下结果:
文章插图
如上表所示,您可以清楚地看到“ /inconcistent.html”(红色框中突出显示)具有不同的响应代码 。
按子目录查看错误要查找哪些子目录产生最多的问题,我们只需要执行一些简单的URL过滤即可 。过滤掉URI列(在我的情况下为“ cs-uri-stem”),并使用“包含”过滤选项选择一个特定的子目录以及该子目录中的任何页面(使用通配符*):
文章插图
对我来说,我签出了blog子目录,这产生了以下内容:
文章插图
按用户代理查看错误出于各种原因,找出哪些机器人在挣扎中可能很有用,包括查看移动和桌面机器人在网站性能方面的差异,或者哪些搜索引擎最能够抓取您的更多网站 。
您可能想查看哪些特定的URL导致特定的漫游器出现问题 。最简单的方法是使用数据透视表,该数据透视表可以过滤每个URI出现特定响应代码的次数 。为此,请使用以下设置制作数据透视表:
文章插图
在这里,您可以按所选的漫游器和响应代码类型进行过滤,如下图所示,其中我正在过滤Googlebot桌面以找出404错误:
文章插图
另外,您还可以使用数据透视表通过创建一个数据透视表来查看特定漫游器在整体上产生不同响应代码的次数,该数据透视表按漫游器进行过滤,按URI发生计数并将响应代码用作行 。为此,请使用以下设置:
文章插图
例如,在数据透视表(如下)中,我正在查看Googlebot收到的每个响应代码有多少:
推荐阅读
- 在React中使用PubSubJS进行组件通信
- dom 中的 nodeType 节点类型
- 3米窗帘买多少个挂钩,3米窗帘杆中间可以不加支撑吗
- 洋葱不能和什么同食?
- 早餐中的营养食物搭配
- 感受安溪茶文化 重庆中庆茶叶店邀您品茶
- 浅说中国茶文化的历史发展与传播
- 安溪中国茶都上榜全国茶叶批发市场十强
- 坏了的热水壶不急换新,无非文中的这几种情况,你试试看
- 中国茶叶学会理事长杨亚军受聘信阳茶业发展顾问