开发者 |
wbolt
mrkwong |
---|---|
更新时间 | 2024年7月30日 11:19 |
捐献地址: | 去捐款 |
PHP版本: | 7.0 及以上 |
WordPress版本: | 6.6 |
版权: | GNU General Public License v3.0 or later |
Spider Analyser Pro 这是 Spider Analyser 的免费版本,包括蜘蛛概况、蜘蛛日志、蜘蛛列表(蜘蛛清单)、访问路径等大部分功能。如需使用到蜘蛛 IP 段、伪蜘蛛判断、蜘蛛拦截及蜘蛛文章爬取分析等功能,则需要升级到 Pro 版本! 点击了解及购买 Spider Analyser Pro 版本!功能包括: 1.蜘蛛概况 支持查看网站日常各大搜索引擎蜘蛛来访的数据; * 今日蜘蛛 方便站长快速了解当日、昨日及 30 天平均的来访蜘蛛数、爬取 URL 数及平均爬取 URL 数。 * 趋势图 支持按今天、昨天、最近 7 天及最近 30 天查看蜘蛛数、爬取 URLs 总量、响应状态码及热门蜘蛛爬取链接数走势折线图,并可查看上一周期数据,以作对比分析。 * Top10 蜘蛛 支持按今天、昨天、最近 7 天及最近 30 天查看 Top10 蜘蛛的爬取 URL 数及占比相关数据。 * Top10 蜘蛛爬取 URL 支持按今天、昨天、最近 7 天及最近 30 天查看 Top10 蜘蛛爬取 URL 的爬取次数及占比,方便站长对热门蜘蛛爬取页面 URL 进行分析。 * Top10 热门文章 按今天、昨天、最近 7 天及最近 30 天查看 Top10 热门文章,以便于站长分析热门文章蜘蛛爬取情况以进一步优化文章页 SEO。 2.蜘蛛日志 支持按今天、最近 7 天及最近 30 天查看蜘蛛日志,包括蜘蛛访问时间、状态码、访问链接、蜘蛛 IP 及蜘蛛名称等参数。 并且支持按蜘蛛名称、状态码及时间进行筛选日志;以及可通过访问 URL、蜘蛛 IP 搜索蜘蛛日志。支持单个或者批量忽略/拦截日志对应蜘蛛。
ℹ️ Tips 1.应重点关注 301/302,及 404 状态码主流搜索引擎(如百度、谷歌和必应)蜘蛛日志。 2.蜘蛛日志分析工作,请查阅详细教程。 3.301/302 状态码内部链接,尽可能修改为最终目标链接。 4.404 状态码内部链接,应修复或重定向为正确链接。 5.重定向可安装Smart SEO Tool 插件实现或手动配置。3.蜘蛛列表 蜘蛛列表包含蜘蛛清单、蜘蛛 IP 段、疑似伪蜘蛛及蜘蛛拦截四部分的功能,其中:
ℹ️ Tips 1.蜘蛛清单数据引自蜘蛛查询工具。 2.部分不常见蜘蛛尤其是伪蜘蛛,可能类型显示为未知。但站长切勿以此为标准判别该蜘蛛是否为伪蜘蛛。 3.对于无需记录的蜘蛛爬虫,应该选择忽略或者拦截,避免浪费服务器资源。
ℹ️ Tips 1.IP 段拦截前,请确保该 IP 段蜘蛛均是不需要统计的,若要取消拦截,请通过蜘蛛拦截列表取消。 2.Pro 版本用户可以考虑直接启用智能拦截,则无需执行手动拦截操作。
ℹ️ Tips 1.疑似伪蜘蛛数据参考蜘蛛查询工具,仅供参考。 2.如果您的网站启用了全站 CDN(如 Cloudflare),真实蜘蛛也可能被判断为伪蜘蛛。全站 CDN 站点应结合 CDN 路线 IP 进一步判断蜘蛛的真伪。
ℹ️ Tips 1.开启智能拦截前,需确定未采用全站 CDN,否则可能误判拦截真实蜘蛛。 2.部分伪蜘蛛可能会伪装成真实蜘蛛名称,对于伪蜘蛛拦截请使用 IP 拦截方式。 3.按蜘蛛名称拦截,需准确填写蜘蛛名称,区分大小写,否则可能会拦截失败。 4.蜘蛛拦截仅对前端页面爬取蜘蛛有效,对后端数据爬取蜘蛛无效。4.访问路径 支持按今天、最近 7 天及最近 30 天查看蜘蛛访问路径(爬取页面 URL)具体信息列表,包括 URL、URL 类型、爬取次数及占比情况等数据。 并且支持按蜘蛛名称、类型、状态、时间、访问 URL 及蜘蛛 IP 进行筛选查询。同时,站长还可以快速查看各类型的访问路径的蜘蛛爬取占比饼状分布图。
ℹ️ Tips 1.重点关注主流搜索引擎对文章页及Sitemap的访问爬取。 2.持续更新发布高质量文章内容,以吸引搜索引擎爬取。 3.安装Smart SEO Tool 插件或其他类似插件,通过 sitemap 生成配置剔除不重要链接类型。 4.对于主流搜索引擎高频次爬取文章页,应该适当地添加内部链接。5.文章爬取 此功能模块是为了方便站长按蜘蛛名称、不同状态的文章类型及时间,快速了解网站文章蜘蛛访问量、出链数及入链数。站长再根据这几个指标,对文章进行内链布局处理,提升蜘蛛爬取频率,从而提升网站收录量。
ℹ️ Tips 1.蜘蛛访问量直接体现搜索引擎对 URL 的嗅觉,蜘蛛访问频率越高,URL 被收录索引几率越大。 2.蜘蛛访问量频率低且未收录文章,可以尝试内容重建及增加入链数。 3.尽可能降低文章指向其他网站的链接数,又或者外链增加 nofollow 属性。 4.收录状态数据通过搜索引擎推送插件引入,建议站长结合这两插件做好链接推送和爬虫分析工作。6.插件设置
ℹ️ Tips 1.如无需统计某一蜘蛛,可以通过操作修改该蜘蛛状态为忽略即可。 2.对于一些非必要蜘蛛,应直接拦截,节省服务器资源。 3.此列表的占比计算范围:最近 7 天的蜘蛛数据。 4.蜘蛛名称及类型数据引自蜘蛛查询工具。
ℹ️ Tips
1.支持通配符形式链接规则,如 /mp-api/*
2.如有不同于预设的链接类型,可以通过添加自定义来新增;否则建议在预设类型基础上修改新增。
ℹ️ Tips 1.日志保留周期可根据自身实际情况选择,一般保留 30 天即可。如数据量非常大,改为近 7 天亦可。 2.日志更新方式需写入数据库,为保证服务器性能,可考虑每小时(默认)甚至每天更新。 3.如蜘蛛日志数据量非常庞大,建议备份日志并删除,忽略及拦截不必要的蜘蛛。Spider Analyser 插件非常适合站长作为网站 SEO 优化的辅助工具,通过数据统计深入了解更大搜索引擎蜘蛛爬取页面 URL 的行为习惯。WordPress 站长可以利用该插件,并结合WordPress 网站 SEO 优化插件、百度推送插件和关键词推荐插件,对 WordPress 网站内容的搜索引擎收录及排名优化可以做到事半功倍的效果!
Spider Analyser 插件的蜘蛛爬虫数据引自蜘蛛爬虫查询在线工具。该工具整合了 1600+蜘蛛爬虫数据,涵盖的类型包括搜索引擎、营销、快照、监控、信息流、链接检测、爬虫、工具、速度检测和漏洞/病毒扫描等。 您也可以使用该在线工具在线,通过蜘蛛名称、IP 地址和用户代理字符串,来查询蜘蛛的详细信息及判断蜘蛛爬虫的真伪!
插件-安装插件
,输入 Spider Analyser
关键词搜索,找搜索结果中找到 Spider Analyser 插件,点击现在安装
;Spider Analyser
插件.蜘蛛分析
即可查看网站蜘蛛爬虫的数据统计及行为分析./wp-content/plugins/
目录.插件-已安装插件
,在插件列表中找到 Spider Analyser 插件,点击启用
.蜘蛛分析
即可查看网站蜘蛛爬虫的数据统计及行为分析.
仪表盘上传安装
插件-安装插件
;
上传按钮
,选择本地提前下载好的插件压缩包 spider-analyser.zip,点击现在安装
;蜘蛛分析
即可查看网站蜘蛛爬虫的数据统计及行为分析.网站如采用全站 CDN,所有访问 IP 均经过 CDN 服务器,再到源服务器,此时访问 IP 已经变更为 CDN 服务器的 IP,插件无法判断 CDN 服务器的 IP 访问背后的真实 IP 地址属于真实蜘蛛或者伪装蜘蛛。
该插件的主要作用是用于统计分析搜索引擎蜘蛛行为。如需要吸引搜索引擎蜘蛛到访或者增加蜘蛛访问深度。建议如下:
首先,如果是首次安装,数据可能有延迟,应该稍后再次查看插件后台数据显示情况; 然后,如果不是首次安装,可查看蜘蛛日志列表确认是否有蜘蛛到访,若有数据,尝试强刷浏览器清除缓存及暂停缓存插件,查看是否正常; 上述两个方法均不管用,则应该在插件异常页面,鼠标右键点击“检查”跳出浏览器开发工具,切换至 Console 标签项,查看是否存在报错信息。如果有,通过“闪电博工单”反馈信息。
插件仅统计前端页面的蜘蛛访问日志,服务器日志则统计所有数据访问日志。因此,理论上服务器日志蜘蛛访问数据应该大于插件的蜘蛛访问数据。但插件统计的数据已经足以作为搜索引擎蜘蛛分析。
数据库。由于该数据仅用于网站管理分析时使用,存放在数据库更加实时和准确,主要是占数据库空间,对服务器性能影响可以忽略不计。
会进行伪蜘蛛识别,如站长发现可疑伪蜘蛛,可以通过 Robots.txt 进行屏蔽。查看教程《如何编写和优化 WordPress 网站的 Robots.txt?》,但不是所有蜘蛛不一定遵循该协议。也可以通过插件进行拦截。拦截前务必确保该蜘蛛为伪蜘蛛或者不需要的蜘蛛。
部分历史数据及一些未能够识别类别的蜘蛛访问 URL 地址,均列为 unknown。在后面的插件版本,将会加入 URL 类型分组自定义功能。