[h1]一、介绍[/h1]
通过分析网站日志可以统计出百度的真实抓取次数、分析抓取情况。
网站一般都有一定的反爬虫机制,但是为了正常收录会通过UA排除百度的爬虫,也就导致了很多做采集、爬虫的人冒充百度爬虫UA用以越过反爬虫机制。
[h1]二、分析、识别原理[/h1]
逐条分析每一条日志,筛选出百度爬虫的日志,再通过exec函数执行nslookup命令反向解析IP获取解析的域名,域名中包括baiduspider关键词的就是真的百度爬虫。
[h1]三、使用[/h1]
下载PHP脚本(百度网盘)提取码:8888。
该脚本需要使用exec函数,使用前请打开php.ini,搜索disable_function,在它的值内把exec去掉。
Linux、window命令行下输入:php monitor.php,按照提示输入日志文件的文件路径,结果如下
[lightbox title=”运行”][/lightbox]
© 版权声明
THE END
暂无评论内容