揭示SEO中5种常见网站日志文件分析方法见解( 四 )


揭示SEO中5种常见网站日志文件分析方法见解

文章插图
 
通过指令抓取频率了解Google遵循的是什么指令(例如,如果您在robots.txt中使用的是不允许甚至无索引的指令),对于任何SEO审核或广告系列来说都是至关重要的 。举例来说,如果网站使用的导航URL多面,则您需要确保遵守这些URL 。如果不是,则推荐更好的解决方案,例如页面指令(如meta robots标签) 。
要按指令查看抓取频率,您需要将抓取报告与日志文件分析结合起来 。
(警告:我们将使用VLOOKUP,但实际上并没有人们想象的那么复杂)
要获取合并的数据,请执行以下操作:
  1. 使用您喜欢的爬网软件从您的站点进行爬网 。我可能有偏见,但我是Screaming Frog SEO Spider的忠实拥护者,所以我将使用它 。
    如果您还使用蜘蛛,请按原样执行步骤,否则,请致电以获取相同的结果 。
  2. 从SEO Spider导出内部HTML报告(“内部标签”>“过滤器:HTML”),然后打开“ internal_all.xlsx”文件 。

揭示SEO中5种常见网站日志文件分析方法见解

文章插图
 
在此处,您可以过滤“可索引性状态”列,并删除所有空白单元格 。为此,请使用“不包含”过滤器,并将其保留为空白 。您还可以添加“和”运算符,并通过使过滤器值等于“不包含”→“重定向”来过滤重定向的URL,如下所示:
揭示SEO中5种常见网站日志文件分析方法见解

文章插图
 
这将显示元机器人的规范化,无索引和规范化URL 。
  1. 复制该新表(仅包含“地址”和“可索引性状态”列),并将其粘贴到日志文件分析导出的另一张表中 。
  2. 现在来看一些VLOOKUP魔术 。首先,我们需要确保URI或URL列数据的格式与抓取数据的格式相同 。
    日志文件通常在URL中没有根域或协议,因此我们需要使用新制作的工作表中的“查找和替换”来删除URL的开头,或者在日志文件分析表中添加新列将协议和根域附加到URI干 。我更喜欢这种方法,因为这样您就可以快速复制并粘贴遇到问题的URL并进行查看 。但是,如果您有大量的日志文件,则使用“查找和替换”方法可能会大大减少CPU占用的资源 。
    要获取完整的URL,请使用以下公式,但将URL字段更改为您要分析的任何站点(并确保协议也正确) 。您还需要将D2更改为URL列
    =“ https://www.example.com”&D2的第一个单元格, 将公式向下拖动到Log文件表的末尾,并获得完整URL的漂亮列表:

揭示SEO中5种常见网站日志文件分析方法见解

文章插图
 
 
  1. 现在,创建另一列,并将其称为“可索引性状态” 。在第一个单元格中,使用类似于以下内容的VLOOKUP:= VLOOKUP(E2,CrawlSheet!A $ 1:B $ 1128,2,FALSE) 。将E2替换为“完整URL”列的第一个单元格,然后将查找表添加到新的表中 。检索表 。请记住要起诉美元符号,以使查询表不会随您而改变 。将公式应用于其他角色 。然后,选择正确的列(1将是索引表的第一列,因此数字2是我们后面的列) 。使用FALSE范围查找模式进行精确匹配 。现在,您有了一个整洁的URL列表,它们的可索引性状态与爬网数据匹配:

揭示SEO中5种常见网站日志文件分析方法见解

文章插图
 
 
按深度和内部链接抓取频率通过此分析,我们可以查看网站的体系结构在爬网预算和爬网能力方面的表现 。主要目的是查看URL是否比请求的数量多得多-如果存在,那么您就会遇到问题 。僵尸程序不应该“放弃”对整个站点的爬网,不要发现重要的内容,也不应该在不重要的内容上浪费爬网预算 。
提示:还值得在此分析中使用爬网可视化工具来查看网站的总体架构,并查看哪里有“分支”或内部链接不佳的页面 。
要获取所有重要数据,请执行以下操作:
  1. 使用首选的抓取工具抓取您的网站,并导出每个报告的点击深度和内部链接数以及每个URL 。
    就我而言,我使用的是Screaming Frog SEO Spider,将导出内部报告:

揭示SEO中5种常见网站日志文件分析方法见解

文章插图
 
 
  1. 使用VLOOKUP将您的网址与“抓取深度”列和“链接数”进行匹配,这将为您提供以下信息:


    推荐阅读