Shell日志分析常用命令和例子-迪思分享

Shell日志分析常用命令和例子

11月7日发布

05414

本站所有内容来自互联网收集，仅供学习和交流，请勿用于商业用途。如有侵权、不妥之处，请第一时间联系我们删除！Q群：

迪思分享

免费资源网 – https://freexyz.cn/

学会用shell分析日志只要一上午！！！

很多地方分享了日志分析的shell脚本，但是基本没说每个命令符的具体含义，学习成本还是很高，在这里总结下，方便大家快速入门。

1、在Windows下的用户要使用shell命令符的话请先安装cygwin，安装方法自行Google（搜技术问题请使用google，百度搜不到活该）

2、下面粗略介绍下SEO日志分析常用的命令符用法，需要详细了解每个命令符请使用Google。

less 文件名查看文件内容按“q” 退出

cat 文件名打开文件，可以多次打开几个文件 | cat 1.log 2.log |cat *.cat

grep -参数文件名

-i 不区分大小写

-v 显示不符合条件的所有行

-c 显示符合条件的所有行数（符合条件的数量）

egrep 属于grep的升级版，在正则这一块的支持更完善，使用正则的时候建议使用egrep

head -2 文件名显示2行

head -100 文件名 | tail -10 >>a.log 提取文件第91-100行数据

wc -参数文件名统计文本大小，字符多少，行数

-c 统计文本字节数

-m 统计文本字符数

-l 统计文本有多少行

sort – 参数文件名对文件进行排序

-n 对文件按照数字排序

-r 反向排序

uniq -参数文件名对文件去重，去重前需要使用排序

sort

-c 显示数据重复的次数

split -参数文件名对文件进行切割

-100 （每100行切割成一个文件）

-C 25m/b/k (每25兆/字节/K 分割成一个文件)

| 管道，把上一条命令的结果传输给下一条命令

“>” 和“>> ” 重定向写入文件中 “>”相当于“w”清空并写入 “>>”相当于“a” 追加进文件

awk -F ‘分割符 Pattern ｛action｝文件名使用指定的字符对每一行数据进行分段，默认是空格（网站日志就是空格分开）

-F后面跟的是分隔符

pattern 就是action执行的条件，这里可以使用正则表达式

$n 即时第几段数据 $0表示整行数据

NF表示当前记录的字段数

$NF 表示最后一个字段

BEGIN和END，这两者都可用于pattern中，提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作

bash shell.sh 运行shell.sh脚本

dos2unix xxoo.sh 将“rn”转换成“n” Windows——>linux （由于Windows和Linux下的换行符不同，所以我们在Windows下面下的代码需要使用dos2unix 转换成Linux下的换行符，否则运行shell脚本会报错）

unix2dos xxoo.sh 将“n”转换成“rn” linux——>Windows

rm xx.txt 删除xx.txt文件

3、一些简单的命令符介绍到这里，需要了解shell，建议大家查看相关的书籍.

下面我们开始使用shell分析日志

1、切割百度的抓取数据（将文件切割出来对专门的爬虫数据进行处理能提高效率）

复制代码

代码如下:

cat log.log |grep -i ‘baiduspider >baidu.log

2、网站状态码个数查询

复制代码

代码如下:

awk ‘{print $9} baidu.log|sort|uniq -c|sort -nr

3、百度总抓取量

复制代码

代码如下:

wc -l baidu.log

4、百度不重复抓取量

复制代码

代码如下:

awk ‘{print $7} baidu.log|sort|uniq|wc -l

5、百度平均每次抓取的数据大小（结果是KB）

复制代码

代码如下:

awk ‘{print $10} baidu.log|awk ‘BEGIN{a=0}{a+=$1}END{ print a/NR/1024}

6、首页抓取量

复制代码

代码如下:

awk ‘$7~/.com/$/ baidu.log|wc -l

7、某目录抓取量

复制代码

代码如下:

grep ‘/news/ baidu.log|wc -l

8、抓取最多的10个页面

复制代码

代码如下:

awk ‘{print $7} baidu.log|sort|uniq -c|sort -nr|head -10

9、找出抓取的404错误页面

复制代码

代码如下:

awk ‘$9~ /^404$/ {print $7} baidu.log|sort|uniq|sort -nr

10、找出抓取了多少js文件和文件抓取的次数

复制代码

代码如下:

awk ‘$7~ /.js$/ {print $7} baidu.log|sort|uniq -c |sort -nr

免费资源网 – https://freexyz.cn/

© 版权声明

迪思分享版权声明 ① 本网站名称：❤迪思分享❤ 本站永久网址：▶https://www.dsary.com◀
② 如果您喜欢本站，点击这儿

开通VIP，同时按Ctrl+D保存网页
③ 在浏览网站中可能会帮助到您：

|

|

|

|

迪思分享

④ 本站接受投稿，同时也开启了创作分成，投稿用户只需自行设置收费即可！点击查看如果需要投稿，请点击投稿发布文章！
⑤ 本站一律禁止以任何方式发布或转载任何违法的相关信息，如果发现请点击上方联系方式进行举报！情况如实，可获得本站一个月的VIP
⑥ 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。如遇压缩包需解压密码，一般为：www.dsary.com 丨 www.syymw.com请知悉！
⑦ 修改版本安卓及电脑软件，加群提示为修改者自留，非本站信息，注意鉴别！资源来源于网络，仅供大家学习与参考，请于下载后24小时内删除；
⑧ 若作商业用途，请联系原作者授权，若本站侵犯了您的权益请联系站长进行删除处理；可联系上方QQ或进入QQ群进行反馈！
⑨互联网的本质是自由与分享，我们真诚的希望，每一份有价值的正能量能够在互联网中自由传播。

THE END

★喜欢这篇文章吗？喜欢的话，麻烦动动手指支持一下！★

相关推荐

评论抢沙发

请登录后发表评论

暂无评论内容