揭示SEO中5种常见网站日志文件分析方法见解( 五 )

  • 根据您要查看的数据类型,您可能希望仅过滤掉此时返回200响应代码的URL,或者在以后创建的数据透视表中将其设为可过滤的选项 。如果要检查电子商务网站,则可能只希望关注产品网址,或者如果要优化图像的爬网,则可以通过使用“内容”过滤日志文件的URI列来按文件类型过滤-“类型”列以进行抓取导出,并选择使用数据透视表进行过滤 。与所有这些检查一样,您有很多选择!

  • 揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
    1.  
    2. 使用数据透视表,您现在可以使用以下选项按爬网深度(在这种情况下,通过特定的漫游器进行过滤)来分析爬网速率:

    揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
    要获得如下内容:
    揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
     
    比Search Console更好的数据?识别爬网问题Search Console可能是每个SEO的首选,但它肯定有缺陷 。历史数据很难获得,并且可以查看的行数有限制(在撰写本文时为1000) 。但是,借助日志文件分析,才是极限 。通过以下检查,我们将发现爬网和响应错误,以对您的网站进行全面的运行状况检查 。
    发现抓取错误一个显而易见且快速的检查是添加到您的军械库,您要做的就是过滤日志文件的状态列(在我的情况下为W3C日志文件类型的“ sc-status”),以查找4xx和5xx错误:
    揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
    查找不一致的服务器响应特定的URL随时间变化的服务器响应可能会有所不同,这可能是正常现象,例如修复了断开的链接或出现严重的服务器问题的迹象(例如,网站访问量过大导致更多内部问题) 。服务器错误,并正在影响您网站的可抓取性 。
    分析服务器响应就像通过URL和日期进行过滤一样容易:
    揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
    另外,如果您想快速查看URL在响应代码中的变化,则可以使用数据透视表,其中将行设置为URL,将列设置为响应代码,并计算URL产生响应的次数码 。要实现此设置,请使用以下设置创建数据透视表:
    揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
    这将产生以下结果:
    揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
    如上表所示,您可以清楚地看到“ /inconcistent.html”(红色框中突出显示)具有不同的响应代码 。
    按子目录查看错误要查找哪些子目录产生最多的问题,我们只需要执行一些简单的URL过滤即可 。过滤掉URI列(在我的情况下为“ cs-uri-stem”),并使用“包含”过滤选项选择一个特定的子目录以及该子目录中的任何页面(使用通配符*):
    揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
    对我来说,我签出了blog子目录,这产生了以下内容:
    揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
    按用户代理查看错误出于各种原因,找出哪些机器人在挣扎中可能很有用,包括查看移动和桌面机器人在网站性能方面的差异,或者哪些搜索引擎最能够抓取您的更多网站 。
    您可能想查看哪些特定的URL导致特定的漫游器出现问题 。最简单的方法是使用数据透视表,该数据透视表可以过滤每个URI出现特定响应代码的次数 。为此,请使用以下设置制作数据透视表:
    揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
    在这里,您可以按所选的漫游器和响应代码类型进行过滤,如下图所示,其中我正在过滤Googlebot桌面以找出404错误:
    揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
    另外,您还可以使用数据透视表通过创建一个数据透视表来查看特定漫游器在整体上产生不同响应代码的次数,该数据透视表按漫游器进行过滤,按URI发生计数并将响应代码用作行 。为此,请使用以下设置:
    揭示SEO中5种常见网站日志文件分析方法见解

    文章插图
     
    例如,在数据透视表(如下)中,我正在查看Googlebot收到的每个响应代码有多少:
    揭示SEO中5种常见网站日志文件分析方法见解


    推荐阅读