网站流量数据采集环境部署及实现
一、原理分析与设计实现
友情链接:
二、系统环境部署
!!!执行复制下列命令是注意查看是否为英文类型的 “-” ,当命令错误时首先排查该处
-------------------------------服务器 A 中部署开始-----------------------------------
需要的安装包
uaJIT-2.0.4.tar.gzset-misc-nginx-module-0.29.tar.gz lua-nginx-module-0.10.0.tar.gz ngx_devel_kit-0.2.19.tar.gz echo-nginx-module-0.58.tar.gzopenresty-1.9.7.3.tar.gznginx-1.8.1.tar.gz
- 服务器中安装依赖
yum -y install gcc perl pcre-devel openssl openssl-devel
- 上传 LuaJIT-2.0.4.tar.gz 并安装 LuaJIT
tar -zxvf LuaJIT-2.0.4.tar.gz -C /usr/local/src/
cd /usr/local/src/LuaJIT-2.0.4/
make && make install PREFIX=/usr/local/luajit
- 设置 LuaJIT 环境变量
vi /etc/profile
export LUAJIT_LIB=/usr/local/luajit/lib export LUAJIT_INC=/usr/local/luajit/include/luajit-2.0
source /etc/profile
- 创建 modules 文件夹,保存 nginx 依赖的模块
mkdir -p /usr/local/nginx/modules
- 上传 nginx 依赖的模块
set-misc-nginx-module-0.29.tar.gz lua-nginx-module-0.10.0.tar.gz ngx_devel_kit-0.2.19.tar.gz echo-nginx-module-0.58.tar.gz
- 将依赖的模块直接解压到 modules 目录
tar -zxvf lua-nginx-module-0.10.0.tar.gz -C /usr/local/nginx/modules/ tar -zxvf set-misc-nginx-module-0.29.tar.gz -C /usr/local/nginx/modules/ tar -zxvf ngx_devel_kit-0.2.19.tar.gz -C /usr/local/nginx/modules/ tar -zxvf echo-nginx-module-0.58.tar.gz -C /usr/local/nginx/modules/
- 安装 openresty
tar -zxvf openresty-1.9.7.3.tar.gz -C /usr/local/src/
cd /usr/local/src/openresty-1.9.7.3/
./configure --prefix=/usr/local/openresty --with-luajit && make && make install
- 安装 nginx
tar -zxvf nginx-1.8.1.tar.gz -C /usr/local/src/
- 编译 nginx 并支持其他模块
cd /usr/local/src/nginx-1.8.1/
./configure --prefix=/usr/local/nginx \ --with-ld-opt="-Wl,-rpath,/usr/local/luajit/lib" \ --add-module=/usr/local/nginx/modules/ngx_devel_kit-0.2.19 \ --add-module=/usr/local/nginx/modules/lua-nginx-module-0.10.0 \ --add-module=/usr/local/nginx/modules/set-misc-nginx-module-0.29 \ --add-module=/usr/local/nginx/modules/echo-nginx-module-0.58
make -j2
make install
备注:如果对 linux 相关操作不熟,请严格按照上述步骤搭建环境,切记心细,心细,再心细。
-------------------------------服务器 A 中部署结束-----------------------------------
三、自定义采集数据实现
-------------------------------服务器 B 中执行开始-----------------------------------
- 安装httpd
yum install httpd
- 启动httpd
service httpd start
- 进入/var/www/html/内上传 index.html页面文件
cd /var/www/html/
- 创建页面 index.html
页面 index.html代码如下:
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>welcome</title> <script type="text/javascript"> var _maq = _maq || []; _maq.push(['_setAccount', 'jiFeng']); (function() { var ma = document.createElement('script'); ma.type = 'text/javascript'; ma.async = true; ma.src = 'http://192.168.175.153/ma.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ma, s); })(); </script> </head> <body> <h1 align="center">云计算大数据</h1> </body> </html>
-------------------------------服务器 B 中执行结束-----------------------------------
-------------------------------服务器 A 中执行开始-----------------------------------
- 在安装目录 nginx/html 下添加一个数据采集脚本 ma.js。
cd /usr/local/nginx/html/
脚本 ma.js代码如下:
(function () { var params = {}; //Document对象数据 if(document) { params.domain = document.domain || ''; params.url = document.URL || ''; params.title = document.title || ''; params.referrer = document.referrer || ''; } //Window对象数据 if(window && window.screen) { params.sh = window.screen.height || 0; params.sw = window.screen.width || 0; params.cd = window.screen.colorDepth || 0; } //navigator对象数据 if(navigator) { params.lang = navigator.language || ''; } //解析_maq配置 if(_maq) { for(var i in _maq) { switch(_maq[i][0]) { case '_setAccount': params.account = _maq[i][1]; break; default: break; } } } //拼接参数串 var args = ''; for(var i in params) { if(args != '') { args += '&'; } args += i + '=' + encodeURIComponent(params[i]); } //通过Image对象请求后端脚本 var img = new Image(1, 1); img.src = 'http://192.168.175.153/log.gif?' + args; })();
- 修改 nginx 的配置文件,添加自定义相关业务逻辑。
cd /usr/local/nginx/conf
vi nginx.conf
worker_processes 2; events { worker_connections 1024; } http { include mime.types; default_type application/octet-stream; log_format main '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer" ' '"$http_user_agent" "$http_x_forwarded_for"'; log_format user_log_format "$msec||$remote_addr||$status||$body_bytes_sent||$u_domain||$u_url||$u_title||$u_referrer||$u_sh||$u_sw||$u_cd||$u_lang||$http_user_agent||$u_account"; sendfile on; #允许sendfile方式传输文件,默认为off keepalive_timeout 65; #连接超时时间,默认为75s server { listen 80; server_name localhost; location /log.gif { #伪装成gif文件 default_type image/gif; #nginx本身记录的access_log,日志格式为main access_log logs/access.log main; access_by_lua " -- 用户跟踪cookie名为__utrace local uid = ngx.var.cookie___utrace if not uid then -- 如果没有则生成一个跟踪cookie,算法为md5(时间戳+IP+客户端信息) uid = ngx.md5(ngx.now() .. ngx.var.remote_addr .. ngx.var.http_user_agent) end ngx.header['Set-Cookie'] = {'__utrace=' .. uid .. '; path=/'} if ngx.var.arg_domain then -- 通过subrequest到/i-log记录日志,将参数和用户跟踪cookie带过去 ngx.location.capture('/i-log?' .. ngx.var.args .. '&utrace=' .. uid) end "; #此请求资源本地不缓存 add_header Expires "Fri, 01 Jan 1980 00:00:00 GMT"; add_header Pragma "no-cache"; add_header Cache-Control "no-cache, max-age=0, must-revalidate"; #返回一个1×1的空gif图片 empty_gif; } location /i-log { #内部location,不允许外部直接访问 internal; #设置变量,注意需要unescape set_unescape_uri $u_domain $arg_domain; set_unescape_uri $u_url $arg_url; set_unescape_uri $u_title $arg_title; set_unescape_uri $u_referrer $arg_referrer; set_unescape_uri $u_sh $arg_sh; set_unescape_uri $u_sw $arg_sw; set_unescape_uri $u_cd $arg_cd; set_unescape_uri $u_lang $arg_lang; set_unescape_uri $u_account $arg_account; #打开subrequest(子请求)日志 log_subrequest on; #自定义采集的日志,记录数据到user_defined.log access_log logs/user_defined.log user_log_format; #输出空字符串 echo ''; } } }
- 启动 nginx
cd /usr/local/nginx
sbin/nginx -c conf/nginx.conf
- 查看是否启动
ps -ef | grep nginx
-------------------------------服务器 A 中执行结束-----------------------------------
- 通过游览器访问 nginx
访问:192.168.175.151/index.html
-------------------------------服务器 A 中执行开始-----------------------------------
- 观察自定义日志采集文件是否有对应的内容输出:
cd /usr/local/nginx/logs
tail -f user_defined.log
此时还可以观察 nginx 默认的输出日志文件:
tail -f access.log
停止 nginx:
cd /usr/local/nginx
sbin/nginx –s stop
-------------------------------服务器 A 中执行结束-----------------------------------
上一篇: zookeeper的shell操作
下一篇: HDFS重要特性