昔我往矣

kibana中的搜索和匹配

2016年05月22日

本来我是忠实的命令行党,有awk和grep在手,没有处理不了的日志。但是随着日志越来越分布,日志量越来越庞大,awk和grep就不是那么合适了。于是决定还是老老实实和大家一起用elk做日志分析。下面是从小白到进阶使用正则做匹配的过程,只是提纲挈领的入门过程而已,每个阶段选择了几个Nginx日志场景做样例。

小白,把kibana做Google用

大家都用过Google,输入内容,给你返回输出结果。使用kibana的第一步也是如此。输入任何想搜索的东西。

你可以简单的在Kibana的Discover里输入想想要查询的内容,譬如输入想要查询的域名www.xnow.me或者查询,或者输入502,查询有日志中携带502的请求。

www.xnow.me

或者带上索引名字

http_code:502

进阶:使用kibana的语法进行查询

Kibana自带了与或非的逻辑语法,还有取值范围等等。

AND

http_code:502 AND domain:"www.xnow.me"

以上搜索可以过滤出来www.xnow.me的返回码为502的请求。

OR

domain:"www.xnow.me" AND ( http_code:500 OR http_code:502)

以上搜索可以过滤出来www.xnow.me中,返回码是502或者500的请求。

NOT

http_code:500 AND NOT domain:"www.xnow.me"

以上搜索可以过滤非www.xnow.me的其它域名,返回码为500的请求。

取值范围

domain:"www.xnow.me" AND http_code:[400 TO 599]

使用以上搜索,可以看到www.xnow.me上,400到599的所有返回码,譬如404,503等等。

高阶,使用正则表达式搜索

grep的牛逼之处正是在于其对正则表达式的支持,掌握了kibana的正则表达式,grep自然就变得无足轻重了。以下使用json格式的字符串进行过滤。以下是我最常用的正则的搜索,过滤请求路径中的内容,可以很方便的分析出指定url的请求量变化。

{
  "regexp": {
    "request": "/login.*"
  }
}

以上搜索会过滤出路径起始为/login的请求。大多数正则引擎都使用^和$来对字符串的起始和结束进行锚点,但是kibana不用,比如在上面的例子中,/login.*,在其它引擎中可以表示为,^/login,此处的.*也不可忽略。

其它正则语法大多类似,下面简单描述下:

匹配任何字符

. 点可以用来匹配任何字符,ab.d可以匹配到abcd或者ab2d。

匹配重复出现一次或者多次

+ 加号可以匹配前面出现的字符再出现一次或者好几次,a+.+c可以匹配到aabbc或者aaaaaxxxc

* 星号匹配字符出现0次或者多次。

? 问号匹配字符出现0次或者1次。

限制出现确切的次数

{} 大括号可以过滤字符出现的确切次数
{3} 表示前一字符出现三次
{2,4} 表示前一字符可出现2,3或者4次。
{2,} 表示前一字符至少重复2次

字符组

用小括号()括起来的字符串可以认作一个组,例如ababab可以认为是(ab)这个组重复了3次,可以被(ab){3}或者(ab)+等等来匹配。

波浪号

还有一个很神奇的波浪号,ab~d表示,第一个字符是a,第二个字符是b,后面是任意长度的任意字符串但不能是c,最后一个字符是d。所以abcdef可以使用如下的正则来匹配:

ab~df # 匹配
ab~cf # 匹配
ab~cdef # 不匹配
a~(cb)def # 匹配
a~(bc)def # 不匹配

关于kibana的正则还有很多其它用法,大多数我都没用到过,所以此处不一一列举了,感兴趣的童鞋可以参考Elasticsearch的官网的这篇文章Regexp Query,以上部分也大多是取自这篇文档。

祝大家玩elk愉快,都成为elk高手。

当前暂无评论 »

添加新评论 »