PHP批量识别Nginx网站日志内的百度真假爬虫记录

本站所有内容来自互联网收集,仅供学习和交流,请勿用于商业用途。如有侵权、不妥之处,请第一时间联系我们删除!Q群:迪思分享

[h1]一、介绍[/h1]

通过分析网站日志可以统计出百度的真实抓取次数、分析抓取情况。

网站一般都有一定的反爬虫机制,但是为了正常收录会通过UA排除百度的爬虫,也就导致了很多做采集、爬虫的人冒充百度爬虫UA用以越过反爬虫机制。

[h1]二、分析、识别原理[/h1]

逐条分析每一条日志,筛选出百度爬虫的日志,再通过exec函数执行nslookup命令反向解析IP获取解析的域名,域名中包括baiduspider关键词的就是真的百度爬虫。

[h1]三、使用[/h1]

下载PHP脚本(百度网盘)提取码:8888。

该脚本需要使用exec函数,使用前请打开php.ini,搜索disable_function,在它的值内把exec去掉。

Linux、window命令行下输入:php monitor.php,按照提示输入日志文件的文件路径,结果如下

[lightbox title=”运行”]PHP批量识别Nginx网站日志内的百度真假爬虫记录插图[/lightbox]


© 版权声明
THE END
★喜欢这篇文章吗?喜欢的话,麻烦动动手指支持一下!★
点赞0 分享
相关推荐
  • 暂无相关文章
  • 评论 抢沙发

    请登录后发表评论

      暂无评论内容