1、日志简介
nginx日志主要有两种:访问日志和错误日志。访问日志主要记录客户端访问nginx的每一个请求,格式可以自定义;错误日志主要记录客户端访问nginx出错时的日志,格式不支持自定义。两种日志都可以选择性关闭。
通过访问日志,你可以得到用户地域来源、跳转来源、使用终端、某个URL访问量等相关信息;通过错误日志,你可以得到系统某个服务或server的性能瓶颈等。因此,将日志好好利用,你可以得到很多有价值的信息。
2、访问日志
[Access.log]
log_format main '$remote_addr $remote_user [$time_local] "$request" $http_host '
'$status $upstream_status $body_bytes_sent "$http_referer" '
'"$http_user_agent" $ssl_protocol $ssl_cipher $upstream_addr '
'$request_time $upstream_response_time';
变量名称 | 变量描述 | 举例说明 |
$remote_addr | 客户端地址 | 113.140.15.90 |
$remote_user | 客户端用户名称 | - |
$time_local | 访问时间和时区 | 18/Jul/2012:17:00:01 +0800 |
$request | 请求的URI和HTTP协议 | "GET /pa/img/home/logo-alipay-t.png HTTP/1.1" |
$http_host | 请求地址,即浏览器中你输入的地址(IP或域名) | img.alipay.com 10.253.70.103 |
$status | HTTP请求状态 | 200 |
$upstream_status | upstream状态 | 200 |
$body_bytes_sent | 发送给客户端文件内容大小 | 547 |
$http_referer | 跳转来源 | "https://cashier.alipay.com.../" |
$http_user_agent | 用户终端代理 | "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; SV1; GTB7.0; .NET4.0C; |
$ssl_protocol | SSL协议版本 | TLSv1 |
$ssl_cipher | 交换数据中的 | RC4-SHA |
$upstream_addr | 后台upstream的地址,即真正提供服务的主机地址 | 10.228.35.247:80 |
$request_time | 整个请求的总时间 | 0.205 |
$upstream_response_time | 请求过程中,upstream响应时间 | 0.002 |
线上实例:
116.9.137.90 - [02/Aug/2012:14:47:12 +0800] "GET /images/XX/20100324752729.png HTTP/1.1"img.alipay.com 200 200 2038 "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; Tablet PC 2.0; 360SE)" TLSv1 AES128-SHA 10.228.21.237:80 0.198 0.001
线下($http_referer):
10.14.21.197 - - [14/Aug/2012:17:28:22 +0800] "GET /spanner/watch/v1?--db=ztg-1&--mode=compare&--index=status&--option=&--cluster=whole&-F=2012%2F8%2F12-00%3A00%3A00&-T=%2B2880&-i=1&-n=0&_=1344936501292 HTTP/1.1" 200 94193 "http://spanner.alipay/optionFrame/history.html" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.60 Safari/537.1"
备注:$http_referer和重定向有关。
线下测试($http_host):
备注:$http_host的值和你在浏览器里输入的值有关。
3、错误日志
错误信息 | 错误说明 |
"upstream prematurely(过早的) closed connection" | 请求uri的时候出现的异常,是由于upstream还未返回应答给用户时用户断掉连接造成的,对系统没有影响,可以忽略 |
"recv() failed (104: Connection reset by peer)" | (1)服务器的并发连接数超过了其承载量,服务器会将其中一些连接Down掉; (2)客户关掉了浏览器,而服务器还在给客户端发送数据; (3)浏览器端按了Stop |
"(111: Connection refused) while connecting to upstream" | 用户在连接时,若遇到后端upstream挂掉或者不通,会收到该错误 |
"(111: Connection refused) while reading response header from upstream" | 用户在连接成功后读取数据时,若遇到后端upstream挂掉或者不通,会收到该错误 |
"(111: Connection refused) while sending request to upstream" | Nginx和upstream连接成功后发送数据时,若遇到后端upstream挂掉或者不通,会收到该错误 |
"(110: Connection timed out) while connecting to upstream" | nginx连接后面的upstream时超时 |
"(110: Connection timed out) while reading upstream" | nginx读取来自upstream的响应时超时
|
"(110: Connection timed out) while reading response header from upstream" | nginx读取来自upstream的响应头时超时 |
"(110: Connection timed out) while reading upstream" | nginx读取来自upstream的响应时超时 |
"(104: Connection reset by peer) while connecting to upstream" | upstream发送了RST,将连接重置 |
"upstream sent invalid header while reading response header from upstream" | upstream发送的响应头无效 |
"upstream sent no valid HTTP/1.0 header while reading response header from upstream" | upstream发送的响应头无效 |
"client intended to send too large body" | 用于设置允许接受的客户端请求内容的最大值,默认值是1M,client发送的body超过了设置值 |
"reopening logs" | 用户发送kill -USR1命令 |
"gracefully shutting down", | 用户发送kill -WINCH命令 |
"no servers are inside upstream" | upstream下未配置server |
"no live upstreams while connecting to upstream" | upstream下的server全都挂了 |
"SSL_do_handshake() failed" | SSL握手失败 |
"SSL_write() failed (SSL:) while sending to client" |
|
"(13: Permission denied) while reading upstream" |
|
"(98: Address already in use) while connecting to upstream" |
|
"(99: Cannot assign requested address) while connecting to upstream" |
|
"ngx_slab_alloc() failed: no memory in SSL session shared cache" | ssl_session_cache大小不够等原因造成 |
"could not add new SSL session to the session cache while SSL handshaking" | ssl_session_cache大小不够等原因造成 |
"send() failed (111: Connection refused)" |
|
1.[warn] conflicting server name "192.168.1.86" on 0.0.0.0:80, ignored
[warn]: conflicting server name “abc.com” on 0.0.0.0:80, ignored出现这个错误一般是由于技术员的粗心造成的,原因是相同的域名abc.com出现两次甚至是多次。一般在把配置文件分离出来写时候会容易犯。技术员经常复制配置文件,然后忘记修改里面的内容。解决方法就是把所有配置文件查一遍看是否有重复出现的。或者查询哪个配置文件中有abc.com。WINDOW下用搜索下用grep "abc.com"
2.NGINX 启动时报错“[warn]: conflicting server name “xxx.com” on 0.0.0.0:80, ignored”
include vhost/*.conf;
一般是由于技术人员配置时使用Include 语句,使用了nginx.conf之外的配置文件,如果两个配置文件重复配置了xxx.com就会出现这个错误。
3.今天的导出EXCEL里面突然出现超时
虽然我在脚本里面写了set_time_limit(0);但是它还是出现那种50x错误。查看日志文件后发现里面写着:upstream timed out (110: Connection timed out) while reading response header from upstream解决办法如下:编辑ngnix对应的虚拟主机配置文件
- fastcgi_read_timeout 后面的时间可以根据自己的情况设置,默认是60秒
- location ~ .+\.php?$
- {
- fastcgi_pass 127.0.0.1:1025;
- # fastcgi_pass unix:/usr/local/webserver/fastcgi/sock/fastcgi.sock;
- fastcgi_index index.php;
- # For Time out 这句是注释,可以不写
- fastcgi_read_timeout 500;
- include fastcgi_params;
- }
4.nginx502 Bad Gateway
Nginx 502 Bad Gateway的含义是请求的PHP-CGI已经执行,但是由于某种原因(一般是读取资源的问题)没有执行完毕而导致PHP-CGI进程终止。
Nginx 502错误的原因比较多,是因为在代理模式下后端服务器出现问题引起的。这些错误一般都不是nginx本身的问题,一定要从后端找原因!php-cgi进程数不够用、php执行时间长、或者是php-cgi进程死掉,都会出现502错误 。502错误最通常的出现情况就是后端主机宕机。 vim /usr/local/webserver/php/etc/php-fpm.conf一般来说Nginx 502 Bad Gateway和php-fpm.conf的设置有关,php-fpm.conf有两个至关重要的参数,一个是”max_children”,另一个是”request_terminate_timeout” ,但是这个值不是通用的,而是需要自己计算的。计算的方式如下:如果你的服务器性能足够好,且宽带资源足够充足,PHP脚本没有系循环或BUG的话你可以直接将”request_terminate_timeout”设置成0s。0s的含义是让PHP-CGI一直执行下去而没有时间限制。而如果你做不到这一点,也就是说你的PHP-CGI可能出现某个BUG,或者你的宽带不够充足或者其它的原因导致你的PHP-CGI能够假死那么就建议你给”request_terminate_timeout”赋一个值,这个值可以根据你服务器的性能进行设定。一般来说性能越好你可以设置越高,20分钟 -30分钟都可以。由于我的服务器PHP脚本需要长时间运行,有的可能会超过10分钟因此我设置了900秒,这样不会导致PHP-CGI死掉而出现502 Bad gateway这个错误。而”max_children”这个值又是怎么计算出来的呢?这个值原则上是越大越好,php-cgi的进程多了就会处理的很快,排队的请求就会很少。设置”max_children”也需要根据服务器的性能进行设定,一般来说一台服务器正常情况下每一个php-cgi所耗费的内存在20M左右,因此我的”max_children”我设置成40个,20M*40=800M也就是说在峰值的时候所有PHP-CGI所耗内存在800M以内,低于我的有效内存1Gb。而如果我的”max_children”设置的较小,比如5-10个,那么 php-cgi就会“很累”,处理速度也很慢,等待的时间也较长。如果长时间没有得到处理的请求就会出现504 Gateway Time-out这个错误,而正在处理的很累的那几个php-cgi如果遇到了问题就会出现502 Bad gateway这个错误。5.一般解决办法遇到502问题,可以优先考虑按照以下两个步骤去解决。1、查看当前的PHP FastCGI进程数是否够用:netstat -anpo | grep "php-cgi" | wc -l如果实际使用的“FastCGI进程数”接近预设的“FastCGI进程数”,那么,说明“FastCGI进程数”不够用,需要增大。- # ps aux | grep php-cgi |wc -l
- 130
- # netstat -anpo | grep "php-cgi" | wc -l
- 450
- # netstat -anpo | grep "php-cgi" |more
- tcp 0 0 192.168.12.201:52719 192.168.12.203:13002 ESTABLISHED 27687/php-cgi off (0.00/0/0)
- tcp 0 0 192.168.12.201:52713 192.168.12.203:13002 ESTABLISHED 27685/php-cgi off (0.00/0/0)
- tcp 0 0 192.168.12.201:52694 192.168.12.203:13002 ESTABLISHED 27682/php-cgi off (0.00/0/0)
- tcp 0 0 192.168.12.201:52688 192.168.12.203:13002 ESTABLISHED 27681/php-cgi off (0.00/0/0)
- tcp 0 0 192.168.12.201:52701 192.168.12.203:13002 ESTABLISHED 27683/php-cgi off (0.00/0/0)
- 重启后# netstat -anpo | grep "php-cgi" | wc -l
- 46
- [root@jushanweb1 ~]# netstat -anpo | grep "nginx" | wc -l
- 17
- [root@jushanweb1 ~]# ps aux | grep nginx |wc -l
- 10
- <value name=”max_children”>32</value>
- <value name=”request_terminate_timeout”>30s</value> fast-cgi的执行脚本时间
- 1、写一个非常简单的脚本:
- #vi /home/www/scripts/php-fpm.sh
- 内容如下:
- #!/bin/bash
- #This script run at */1
- /usr/local/php/sbin/php-fpm reload
- 2、将脚本添加至计划任务:
- #crontab -e
- 内容如下:
- */1 * * * * /home/www/scripts/php-fpm.sh
- 注:为了省事起见,也可以不写脚本,直接在crontab里写入php-fpm的平滑重启命令。
Nginx 502错误情况1:
网站的访问量大,而php-cgi的进程数偏少。针对这种情况的502错误,只需增加php-cgi的进程数。具体就是修改/usr/local/php/etc/php-fpm.conf 文件,将其中的max_children值适当增加。这个数据要依据你的VPS或独立服务器的配置进行设置。一般一个php-cgi进程占20M内存,你可以自己计算下,适量增多。/usr/local/php/sbin/php-fpm restart 然后重启一下.
Nginx 502错误情况2:
CPU占用率、内存占用率非常高,遭到CC攻击.解决方法请参考:Nginx 502错误情况3:
CPU占用率不高,内存溢出。检查一下网站程序有没有问题?一般小偷站点常常会出现内存溢出。检查一下/var/log/目录下的日志,看看是不是有人爆破SSH和FTP端口?SSH、FTP遭到穷举也会占用大量内存。是的话改掉SSH端口和FTP端口即可。
=======================nginx 504 time out
Nginx 504 Gateway Time-out的含义是所请求的网关没有请求到,
简单来说就是没有请求到可以执行的PHP-CGI。Nginx 504 Gateway Time-out则是与nginx.conf的设置有关。504 Gateway Time-out问题常见于使用nginx作为web server的服务器的网站一般看来, 这种情况可能是由于nginx默认的fastcgi进程响应的缓冲区太小造成的, 这将导致fastcgi进程被挂起, 如果你的fastcgi服务对这个挂起处理的不好, 那么最后就极有可能导致504 Gateway Time-out现在的网站, 尤其某些论坛有大量的回复和很多内容的, 一个页面甚至有几百K默认的fastcgi进程响应的缓冲区是8K, 我们可以设置大点在nginx.conf里, 加入:fastcgi_buffers 8 128k这表示设置fastcgi缓冲区为8×128k当然如果您在进行某一项即时的操作, 可能需要nginx的超时参数调大点, 例如设置成60秒:send_timeout 60;我只是调整了这两个参数, 结果就是没有再显示那个超时, 可以说效果不错, 但是也可能是由于其他的原因, 目前关于nginx的资料不是很多, 很多事情都需要长期的经验累计才有结果, 期待您的发现哈!---------------解决办法:调整nginx.conf的相关设置:
- fastcgi_connect_timeout 600;
- fastcgi_send_timeout 600;
- fastcgi_read_timeout 600;
- fastcgi_buffer_size 256k;
- fastcgi_buffers 16 256k;
- fastcgi_busy_buffers_size 512k;
- fastcgi_temp_file_write_size 512k;