揭示SEO中5种常见网站日志文件分析方法见解( 四 ) _网站日志

文章插图

通过指令抓取频率了解Google遵循的是什么指令（例如，如果您在robots.txt中使用的是不允许甚至无索引的指令），对于任何SEO审核或广告系列来说都是至关重要的。举例来说，如果网站使用的导航URL多面，则您需要确保遵守这些URL 。如果不是，则推荐更好的解决方案，例如页面指令（如meta robots标签）。
要按指令查看抓取频率，您需要将抓取报告与日志文件分析结合起来。
（警告：我们将使用VLOOKUP，但实际上并没有人们想象的那么复杂）
要获取合并的数据，请执行以下操作：

使用您喜欢的爬网软件从您的站点进行爬网。我可能有偏见，但我是Screaming Frog SEO Spider的忠实拥护者，所以我将使用它。
如果您还使用蜘蛛，请按原样执行步骤，否则，请致电以获取相同的结果。
从SEO Spider导出内部HTML报告（“内部标签”>“过滤器：HTML”），然后打开“ internal_all.xlsx”文件。

文章插图

在此处，您可以过滤“可索引性状态”列，并删除所有空白单元格。为此，请使用“不包含”过滤器，并将其保留为空白。您还可以添加“和”运算符，并通过使过滤器值等于“不包含”→“重定向”来过滤重定向的URL，如下所示：

文章插图

这将显示元机器人的规范化，无索引和规范化URL 。

复制该新表（仅包含“地址”和“可索引性状态”列），并将其粘贴到日志文件分析导出的另一张表中。
现在来看一些VLOOKUP魔术。首先，我们需要确保URI或URL列数据的格式与抓取数据的格式相同。
日志文件通常在URL中没有根域或协议，因此我们需要使用新制作的工作表中的“查找和替换”来删除URL的开头，或者在日志文件分析表中添加新列将协议和根域附加到URI干。我更喜欢这种方法，因为这样您就可以快速复制并粘贴遇到问题的URL并进行查看。但是，如果您有大量的日志文件，则使用“查找和替换”方法可能会大大减少CPU占用的资源。
要获取完整的URL，请使用以下公式，但将URL字段更改为您要分析的任何站点（并确保协议也正确）。您还需要将D2更改为URL列
=“ https://www.example.com”＆D2的第一个单元格，将公式向下拖动到Log文件表的末尾，并获得完整URL的漂亮列表：

文章插图

现在，创建另一列，并将其称为“可索引性状态” 。在第一个单元格中，使用类似于以下内容的VLOOKUP：= VLOOKUP（E2，CrawlSheet！A $ 1：B $ 1128,2，FALSE）。将E2替换为“完整URL”列的第一个单元格，然后将查找表添加到新的表中。检索表。请记住要起诉美元符号，以使查询表不会随您而改变。将公式应用于其他角色。然后，选择正确的列（1将是索引表的第一列，因此数字2是我们后面的列）。使用FALSE范围查找模式进行精确匹配。现在，您有了一个整洁的URL列表，它们的可索引性状态与爬网数据匹配：

文章插图

按深度和内部链接抓取频率通过此分析，我们可以查看网站的体系结构在爬网预算和爬网能力方面的表现。主要目的是查看URL是否比请求的数量多得多-如果存在，那么您就会遇到问题。僵尸程序不应该“放弃”对整个站点的爬网，不要发现重要的内容，也不应该在不重要的内容上浪费爬网预算。
提示：还值得在此分析中使用爬网可视化工具来查看网站的总体架构，并查看哪里有“分支”或内部链接不佳的页面。
要获取所有重要数据，请执行以下操作：