nginx常见内部参数，错误总结-白红宇

nginx常见内部参数，错误总结

阅读量：5079 次

发布时间：2019-06-12

本文共 9144 字，大约阅读时间需要 30 分钟。

1、日志简介

nginx日志主要有两种：访问日志和错误日志。访问日志主要记录客户端访问nginx的每一个请求，格式可以自定义；错误日志主要记录客户端访问nginx出错时的日志，格式不支持自定义。两种日志都可以选择性关闭。

通过访问日志，你可以得到用户地域来源、跳转来源、使用终端、某个URL访问量等相关信息；通过错误日志，你可以得到系统某个服务或server的性能瓶颈等。因此，将日志好好利用，你可以得到很多有价值的信息。

2、访问日志

[Access.log]

log_format main '$remote_addr $remote_user [$time_local] "$request" $http_host '

'$status $upstream_status $body_bytes_sent "$http_referer" '

'"$http_user_agent" $ssl_protocol $ssl_cipher $upstream_addr '

'$request_time $upstream_response_time';

变量名称	变量描述	举例说明
$remote_addr	客户端地址	113.140.15.90
$remote_user	客户端用户名称	-
$time_local	访问时间和时区	18/Jul/2012:17:00:01 +0800
$request	请求的URI和HTTP协议	"GET /pa/img/home/logo-alipay-t.png HTTP/1.1"
$http_host	请求地址，即浏览器中你输入的地址（IP或域名）	img.alipay.com 10.253.70.103
$status	HTTP请求状态	200
$upstream_status	upstream状态	200
$body_bytes_sent	发送给客户端文件内容大小	547
$http_referer	跳转来源	"https://cashier.alipay.com.../"
$http_user_agent	用户终端代理	"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; SV1; GTB7.0; .NET4.0C;
$ssl_protocol	SSL协议版本	TLSv1
$ssl_cipher	交换数据中的	RC4-SHA
$upstream_addr	后台upstream的地址，即真正提供服务的主机地址	10.228.35.247:80
$request_time	整个请求的总时间	0.205
$upstream_response_time	请求过程中，upstream响应时间	0.002

线上实例：

116.9.137.90 - [02/Aug/2012:14:47:12 +0800] "GET /images/XX/20100324752729.png HTTP/1.1"img.alipay.com 200 200 2038 "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; Tablet PC 2.0; 360SE)" TLSv1 AES128-SHA 10.228.21.237:80 0.198 0.001

线下（$http_referer）：

10.14.21.197 - - [14/Aug/2012:17:28:22 +0800] "GET /spanner/watch/v1?--db=ztg-1&--mode=compare&--index=status&--option=&--cluster=whole&-F=2012%2F8%2F12-00%3A00%3A00&-T=%2B2880&-i=1&-n=0&_=1344936501292 HTTP/1.1" 200 94193 "http://spanner.alipay/optionFrame/history.html" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.60 Safari/537.1"

备注：$http_referer和重定向有关。

线下测试（$http_host）：

备注：$http_host的值和你在浏览器里输入的值有关。

3、错误日志

错误信息	错误说明
"upstream prematurely（过早的） closed connection"	请求uri的时候出现的异常，是由于upstream还未返回应答给用户时用户断掉连接造成的，对系统没有影响，可以忽略
"recv() failed (104: Connection reset by peer)"	（1）服务器的并发连接数超过了其承载量，服务器会将其中一些连接Down掉；（2）客户关掉了浏览器，而服务器还在给客户端发送数据；（3）浏览器端按了Stop
"(111: Connection refused) while connecting to upstream"	用户在连接时，若遇到后端upstream挂掉或者不通，会收到该错误
"(111: Connection refused) while reading response header from upstream"	用户在连接成功后读取数据时，若遇到后端upstream挂掉或者不通，会收到该错误
"(111: Connection refused) while sending request to upstream"	Nginx和upstream连接成功后发送数据时，若遇到后端upstream挂掉或者不通，会收到该错误
"(110: Connection timed out) while connecting to upstream"	nginx连接后面的upstream时超时
"(110: Connection timed out) while reading upstream"	nginx读取来自upstream的响应时超时
"(110: Connection timed out) while reading response header from upstream"	nginx读取来自upstream的响应头时超时
"(110: Connection timed out) while reading upstream"	nginx读取来自upstream的响应时超时
"(104: Connection reset by peer) while connecting to upstream"	upstream发送了RST，将连接重置
"upstream sent invalid header while reading response header from upstream"	upstream发送的响应头无效
"upstream sent no valid HTTP/1.0 header while reading response header from upstream"	upstream发送的响应头无效
"client intended to send too large body"	用于设置允许接受的客户端请求内容的最大值，默认值是1M，client发送的body超过了设置值
"reopening logs"	用户发送kill -USR1命令
"gracefully shutting down",	用户发送kill -WINCH命令
"no servers are inside upstream"	upstream下未配置server
"no live upstreams while connecting to upstream"	upstream下的server全都挂了
"SSL_do_handshake() failed"	SSL握手失败
"SSL_write() failed (SSL:) while sending to client"
"(13: Permission denied) while reading upstream"
"(98: Address already in use) while connecting to upstream"
"(99: Cannot assign requested address) while connecting to upstream"
"ngx_slab_alloc() failed: no memory in SSL session shared cache"	ssl_session_cache大小不够等原因造成
"could not add new SSL session to the session cache while SSL handshaking"	ssl_session_cache大小不够等原因造成
"send() failed (111: Connection refused)"

1.[warn] conflicting server name "192.168.1.86" on 0.0.0.0:80, ignored

[warn]: conflicting server name “abc.com” on 0.0.0.0:80, ignored

出现这个错误一般是由于技术员的粗心造成的，原因是相同的域名abc.com出现两次甚至是多次。一般在把配置文件分离出来写时候会容易犯。技术员经常复制配置文件，然后忘记修改里面的内容。

解决方法就是把所有配置文件查一遍看是否有重复出现的。或者查询哪个配置文件中有abc.com。

WINDOW下用搜索

下用grep "abc.com"

2.NGINX 启动时报错“[warn]: conflicting server name “xxx.com” on 0.0.0.0:80, ignored”

include vhost/*.conf;

一般是由于技术人员配置时使用Include 语句，使用了nginx.conf之外的配置文件，如果两个配置文件重复配置了xxx.com就会出现这个错误。

3.今天的导出EXCEL里面突然出现超时

虽然我在脚本里面写了set_time_limit(0);但是它还是出现那种50x错误。查看日志文件后发现里面写着：

upstream timed out (110: Connection timed out) while reading response header from upstream

解决办法如下：

编辑ngnix对应的虚拟主机配置文件

[html]

fastcgi_read_timeout 后面的时间可以根据自己的情况设置，默认是60秒

location ~ .+\.php?$

{

fastcgi_pass 127.0.0.1:1025;

# fastcgi_pass unix:/usr/local/webserver/fastcgi/sock/fastcgi.sock;

fastcgi_index index.php;

# For Time out 这句是注释，可以不写

fastcgi_read_timeout 500;

include fastcgi_params;

}

4.nginx502 Bad Gateway

Nginx 502 Bad Gateway的含义是请求的PHP-CGI已经执行，但是由于某种原因（一般是读取资源的问题）没有执行完毕而导致PHP-CGI进程终止。

Nginx 502错误的原因比较多，是因为在代理模式下后端服务器出现问题引起的。

这些错误一般都不是nginx本身的问题，一定要从后端找原因！php-cgi进程数不够用、php执行时间长、或者是php-cgi进程死掉，都会出现502错误。502错误最通常的出现情况就是后端主机宕机。

vim /usr/local/webserver/php/etc/php-fpm.conf

一般来说Nginx 502 Bad Gateway和php-fpm.conf的设置有关，php-fpm.conf有两个至关重要的参数，一个是”max_children”,另一个是”request_terminate_timeout” ，但是这个值不是通用的，而是需要自己计算的。

计算的方式如下：

如果你的服务器性能足够好，且宽带资源足够充足，PHP脚本没有系循环或BUG的话你可以直接将”request_terminate_timeout”设置成0s。0s的含义是让PHP-CGI一直执行下去而没有时间限制。而如果你做不到这一点，也就是说你的PHP-CGI可能出现某个BUG，或者你的宽带不够充足或者其它的原因导致你的PHP-CGI能够假死那么就建议你给”request_terminate_timeout”赋一个值，这个值可以根据你服务器的性能进行设定。一般来说性能越好你可以设置越高，20分钟 -30分钟都可以。由于我的服务器PHP脚本需要长时间运行，有的可能会超过10分钟因此我设置了900秒，这样不会导致PHP-CGI死掉而出现502 Bad gateway这个错误。

而”max_children”这个值又是怎么计算出来的呢？这个值原则上是越大越好，php-cgi的进程多了就会处理的很快，排队的请求就会很少。设置”max_children”也需要根据服务器的性能进行设定，一般来说一台服务器正常情况下每一个php-cgi所耗费的内存在20M左右，因此我的”max_children”我设置成40个，20M*40=800M也就是说在峰值的时候所有PHP-CGI所耗内存在800M以内，低于我的有效内存1Gb。而如果我的”max_children”设置的较小，比如5-10个，那么 php-cgi就会“很累”，处理速度也很慢，等待的时间也较长。如果长时间没有得到处理的请求就会出现504 Gateway Time-out这个错误，而正在处理的很累的那几个php-cgi如果遇到了问题就会出现502 Bad gateway这个错误。

5.一般解决办法

遇到502问题，可以优先考虑按照以下两个步骤去解决。

1、查看当前的PHP FastCGI进程数是否够用：

netstat -anpo | grep "php-cgi" | wc -l

如果实际使用的“FastCGI进程数”接近预设的“FastCGI进程数”，那么，说明“FastCGI进程数”不够用，需要增大。

[html]

# ps aux | grep php-cgi |wc -l

# netstat -anpo | grep "php-cgi" | wc -l

# netstat -anpo | grep "php-cgi" |more

tcp 0 0 192.168.12.201:52719 192.168.12.203:13002 ESTABLISHED 27687/php-cgi off (0.00/0/0)

tcp 0 0 192.168.12.201:52713 192.168.12.203:13002 ESTABLISHED 27685/php-cgi off (0.00/0/0)

tcp 0 0 192.168.12.201:52694 192.168.12.203:13002 ESTABLISHED 27682/php-cgi off (0.00/0/0)

tcp 0 0 192.168.12.201:52688 192.168.12.203:13002 ESTABLISHED 27681/php-cgi off (0.00/0/0)

tcp 0 0 192.168.12.201:52701 192.168.12.203:13002 ESTABLISHED 27683/php-cgi off (0.00/0/0)

重启后# netstat -anpo | grep "php-cgi" | wc -l

[root@jushanweb1 ~]# netstat -anpo | grep "nginx" | wc -l

[root@jushanweb1 ~]# ps aux | grep nginx |wc -l

2、部分PHP程序的执行时间超过了Nginx的等待时间，可以适当增加nginx.conf配置文件中FastCGI的timeout时间，例如：

...... http { ...... fastcgi_connect_timeout 300; fastcgi_send_timeout 300; fastcgi_read_timeout 300; ...... } ......

php.ini中memory_limit设低了会出错，修改了php.ini的memory_limit为128M，重启nginx，发现好了，原来是PHP的内存不足了。

临时解决办法：

综上所述，Nginx提示502和504错误的临时解决办法是：

1、调整php-fpm.conf的相关设置：

[html]

<value name=”max_children”>32</value>

<value name=”request_terminate_timeout”>30s</value> fast-cgi的执行脚本时间

终级解决方案：

标题3中所示的解决方案只能临时解决问题，而如果网站的访问量确实非常非常大，而Nginx+FastCGI只能对处理瞬间或短时间内的高并发有很好的效果，所以目前唯一的终极解决方案是：定时平滑重启php-cgi。

具体配置如下：

[html]

1、写一个非常简单的脚本：

#vi /home/www/scripts/php-fpm.sh

内容如下：

#!/bin/bash

#This script run at */1

/usr/local/php/sbin/php-fpm reload

2、将脚本添加至计划任务：

#crontab -e

内容如下：

*/1 * * * * /home/www/scripts/php-fpm.sh

注：为了省事起见，也可以不写脚本，直接在crontab里写入php-fpm的平滑重启命令。

Nginx 502错误情况1：

网站的访问量大，而php-cgi的进程数偏少。

针对这种情况的502错误，只需增加php-cgi的进程数。具体就是修改/usr/local/php/etc/php-fpm.conf 文件，将其中的max_children值适当增加。这个数据要依据你的VPS或独立服务器的配置进行设置。一般一个php-cgi进程占20M内存，你可以自己计算下，适量增多。

/usr/local/php/sbin/php-fpm restart 然后重启一下.

Nginx 502错误情况2:

CPU占用率、内存占用率非常高，遭到CC攻击.

解决方法请参考：

Nginx 502错误情况3：

CPU占用率不高，内存溢出。

检查一下网站程序有没有问题？一般小偷站点常常会出现内存溢出。

检查一下/var/log/目录下的日志，看看是不是有人爆破SSH和FTP端口？

SSH、FTP遭到穷举也会占用大量内存。是的话改掉SSH端口和FTP端口即可。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝nginx 504 time out

Nginx 504 Gateway Time-out的含义是所请求的网关没有请求到，

简单来说就是没有请求到可以执行的PHP-CGI。