Ubuntu上使用Netdata设置实时性能监控的详细流程
介绍
netdata通过可扩展的web仪表板提供准确的性能监控,可以显示linux系统上的流程和服务。它监控有关cpu,内存,磁盘,网络,进程等的指标。
netdata一旦安装就不需要额外的配置,但提供了重要的定制。该应用程序的效率和速度旨在与本机控制台管理工具(如vmstat
,iostat
和htop
)相媲美。
本教程中的步骤涵盖了使用其内置web服务器或可选地使用nginx成功设置运行netdata的一台ubuntu 16.04服务器所需的一切。
准备
要学习本教程,您需要:
- 一个ubuntu 16.04服务器,包括具有sudo权限的非root用户。
- 服务器上安装git。
- (可选)在服务器上安装nginx。这不是强制性的,但允许比netdata的内置web服务器更多的功能和安全性。
第一步 - 安装netdata
在我们安装任何东西之前,请确保系统包索引是最新的。
$ sudo apt-get update
接下来,安装netdata的依赖项,其中包括gcc
(一个c编译器),gnu autoconf工具,guid管理和netdata内部web服务器的压缩库。
$ sudo apt-get install zlib1g-dev uuid-dev libmnl-dev gcc make autoconf autoconf-archive autogen automake pkg-config curl
下一组软件包是可选的,但netdata推荐使用,包括python,一些python软件包和node.js。与系统包管理器捆绑在一起的稳定版node.js适用于netdata的要求。接下来安装它们。
$ sudo apt-get install python python-yaml python-mysqldb python-psycopg2 nodejs lm-sensors netcat
要安装netdata本身,我们必须使用项目的github存储库。将netdata存储库克隆到您的主目录中。
$ git clone https://github.com/firehol/netdata.git --depth=1 ~/netdata
移至新克隆的目录。
$ cd ~/netdata
现在使用此目录中的netdata-installer.sh shell
脚本构建和安装应用程序。确保在这里附加sudo
,否则netdata收集系统数据的方式(通过数据收集器)将无法正常运行。
$ sudo ./netdata-installer.sh
您最初将看到的输出包含有关netdata将存储其所有组件的位置的信息。您可以通读这些内容,这样您就可以更熟悉程序在安装后如何在文件系统上展开。
installer output . . . it will be installed at these locations: - the daemon at /usr/sbin/netdata - config files at /etc/netdata - web files at /usr/share/netdata - plugins at /usr/libexec/netdata - cache files at /var/cache/netdata - db files at /var/lib/netdata - log files at /var/log/netdata - pid file at /var/run . . .
按enter
继续安装。片刻之后,在输出的末尾,您将看到以下消息:
installer output . . . ^ |.-. .-. .-. .-. .-. . netdata .-. .- | '-' '-' '-' '-' '-' is installed and running now! -' '-' +----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+---> enjoy real-time performance and health monitoring...
netdata现在已成功安装并运行,并且在重新启动服务器时也会自动运行。如果您启用了ufw,您需要为netdata的内部web服务器打开端口19999
。
$ sudo ufw allow 19999/tcp
此时,您可以通过在您喜欢的浏览器中访问http:// your_server_ip:19999/
来查看默认仪表板。 您将看到系统的实时指标的概述。
第二步 - 配置netdata的内存使用情况
您可以通过在浏览器中访问http://your_server_ip:19999/netdata.conf
查看netdata的当前配置。
您将在此处看到所有(或大多数)可配置选项都已注释掉(即以#开头)。这是因为netdata的配置使用一组假定的默认值。任何禁用的设置都使用netdata的默认值; 如果取消注释某个设置,则指定的值将覆盖默认值。这使配置文件仅包含您修改的内容。
回到您的服务器上,配置文件本身就是/etc/netdata/netdata.conf
。我们将在本教程中自定义的选项是history参数。它控制netdata使用的内存数据库的大小。
在这里,您需要确定要为netdata提供多少ram,或者在丢失之前将记录的图表数据保留多长时间:
- 3600秒(图表数据保留1小时)使用15 mb ram
- 7200秒(图表数据保留2小时)使用30 mb ram
- 14400秒(图表数据保留4小时)使用60 mb ram
- 28800秒(图表数据保留8小时)使用120 mb ram
- 43200秒(图表数据保留12小时)使用180 mb ram
- 86400秒(24小时图表数据保留)使用360 mb ram
请记住,上述估算是基于库存仪表板使用的图表数量。将来删除或添加自定义图表会影响这些估算值。
使用nano
或您喜欢的文本编辑器打开netdata的主配置文件。
$ sudo nano /etc/netdata/netdata.conf
找到[global]
部分中的histor
y选项。
/etc/netdata/netdata.conf
. . .[global] # glibc malloc arena max for plugins = 1. . . # hostname = test-netdata # history = 3600 # update every = 1. . .
将3600值替换为您之前决定的值。在这里,我们正在使用14400,这为我们提供了4小时的数据保留。确保通过除#符号来取消注释该行,以便netdata不再忽略此选项。
/etc/netdata/netdata.conf
. . . [global] # glibc malloc arena max for plugins = 1 . . . # hostname = test-netdata # history = 3600 # update every = 1 . . .
进行此更改后保存并关闭文件。虽然这种修改可能会增加netdata将使用的ram量,但我们将在下一步中实施的下一个修改应该会显著减少它。
第三步 - 启用内核同页合并
即使netdata直接运行并初始情况下使用,我们可以对netdata使用系统资源的方式进行更多修改,这将加速并优化其性能。我们将从启用内核同页合并(简称ksm)开始。netdata开发人员估计这会将netdata的内存使用量降低40-60%。
启用后,ksm守护程序会定期扫描内存,查找可由单个写保护页替换的相同内容的页面。在此上下文中,它允许在系统上运行的不同进程或程序之间共享相同的内存页。这减少了不必要的重复内存内容的创建。
要永久启用linux系统内核的此方面,请使用文本编辑器打开/etc/rc.local
文件。
$ sudo nano /etc/rc.local
在启动所有其他正常linux系统服务和进程之后,将执行/etc/rc.local
文件或运行控制文件。它对于指定自定义服务很有用-或者,在我们的示例中,用于在服务器运行时启用ksm。
将下面显示的两个命令添加到文件末尾,在最后exit 0
一行之前,如下所示:
/etc/rc.local
#!/bin/sh -e # # rc.local # # this script is executed at the end of each multiuser runlevel. # make sure that the script will "exit 0" on success or any other # value on error. # # in order to enable or disable this script just change the execution # bits. # # by default this script does nothing. echo 1 > /sys/kernel/mm/ksm/run echo 1000 > /sys/kernel/mm/ksm/sleep_millisecs exit 0
echo 1 > /sys/kernel/mm/ksm/run
第一个命令将1添加到runksm内核文件中,该文件启用该功能。第二个命令echo 1000 > /sys/kernel/mm/ksm/sleep_millisecs
告诉ksm守护程序每秒运行一次并评估100个页面以进行重复数据删除。
保存并关闭文件后,ksm现在将在下次服务器重新启动时启用,并在将来重新启动时保留。要在此服务器的当前正常运行时间内启用它,您需要在命令行上手动运行您添加到rc.local
的两个命令。
首先,通过在sudo
中使用-
s标志,启动并输入新的shell会话作为服务器的root
用户。这是必要的,因为早期的两个命令使用输出重定向(通过>运算符)并且需要由root shell
执行才能成功。
$ sudo -s
现在输入之前的两个命令:
echo 1 > /sys/kernel/mm/ksm/runecho 1000 > /sys/kernel/mm/ksm/sleep_millisecs
然后,保留root shell
并返回正常的shel
l会话。
$ exit
最后,要应用我们在此步骤以及此前的步骤中执行的所有更改,我们必须重新启动netdata。
$ sudo systemctl restart netdata
您可以通过在netdata仪表板中查找新添加的活动ksm图表来验证ksm现在是否已启用。这可以在右侧菜单树中的memory > memory deduper下找到。
ksm chart image
现在我们知道仪表板和ksm正在运行,值得通过像nginx这样的web服务器而不是内置的web服务器来访问仪表板。这不是完全必要的,但建议使用,因此请按照下一步进行设置。
第四步 - 通过nginx托管仪表板(可选)
通过nginx托管netdata可以更轻松地保护对仪表板的访问,并且如果需要,还可以让您在将来指向其他服务器的netdata仪表板。
您还需要安装apache2-utils
软件包。该软件包包含htpasswd
程序,稍后我们将需要该程序来保护对仪表板页面的访问。
$ sudo apt-get install apache2-utils
接下来,创建一个新的nginx主机配置文件。请注意,在这里,我们在/conf.d
目录中使用了一个文件,但是如果您使用nginx进行netdata以外的其他操作,则可以使用/sites-available
和/ sites-enabled
。
$ sudo nano /etc/nginx/conf.d/default.conf
此配置文件将告诉nginx代理仪表板页面的传入请求。我们还将添加一个简单的身份验证提示,以便只有具有正确用户名和密码的人才能访问它。
以下是您要复制和粘贴的整个配置文件。将上述listen
和server_name
指令的两个红色突出显示项分别更改为服务器的ip地址和分配的域名。注意在每个末尾包括;
。如果您没有域名,可以将server_name
指令保留为example.com
。
/etc/nginx/conf.d/default.conf
upstream netdata-backend { server 127.0.0.1:19999; keepalive 64; } server { listen your_server_ip:80; server_name example.com; auth_basic "authentication required"; auth_basic_user_file netdata-access; location / { proxy_set_header x-forwarded-host $host; proxy_set_header x-forwarded-server $host; proxy_set_header x-forwarded-for $proxy_add_x_forwarded_for; proxy_pass http://netdata-backend; proxy_http_version 1.1; proxy_pass_request_headers on; proxy_set_header connection "keep-alive"; proxy_store off; } }
一旦确定自己的文件与此代码块匹配,就可以保存并退出以返回到命令提示符。
让我们解释一下这个文件,让你了解它在做什么。这是第一部分:
/etc/nginx/conf.d/default.conf
upstream netdata-backend { server 127.0.0.1:19999; keepalive 64;}
这个名为netdata-backend
的upstream
模块使用服务器的环回地址127.0.0.1
和netdata的端口19999
来定位内置的netdata web服务器。keepalive
指令设置在任何给定时间(对于每个nginx工作进程)可以保持打开的上游空闲连接的最大数量。proxy_pass
指令稍后需要此upstream
模块定义。
在此之后直接是主要server块。
/etc/nginx/conf.d/default.conf
upstream netdata-backend { server 127.0.0.1:19999; keepalive 64; }
块中的前两行定义了nginx在客户端尝试连接时应该listen的外部ip地址。server_name
指令告诉nginx在客户端使用指定的域名时运行此服务器块。
此代码段中的最后两行设置了简单的http用户名和密码身份验证。它使用auth_basic
模块显示用户名和密码提示。您可以自定义提示消息;
在这里,它设置为authentication required。auth_basic_user_file
指定用于存储身份验证提示的登录凭据的文件名和位置,稍后在此步骤中创建。
最后一个location
块嵌套在server
块内,处理代理并将传入的请求传递给nginx。
/etc/nginx/conf.d/default.conf
server { listen your_server_ip:80; server_name example.com; auth_basic "authentication required"; auth_basic_user_file netdata-access;
总而言之,此代码是将客户端请求传递给netdata web
服务器,然后是仪表板的代码。proxy_pass
指令行引用回文件开头的upstream
模块必须通过名称netdata-backend指向它。
如果尚未安装,则可以保存并关闭此配置文件。这里是apache2-utils
包中的htpasswd
程序帮助我们为仪表板登录提示创建用户登录凭据的地方。
首先,我们将创建用户名和密码。运行以下命令,将sammy替换为您要在netdata中使用的用户名。出现提示时,输入您要使用的密码。
$ sudo htpasswd -c /etc/nginx/netdata-access sammy
这将在/etc / nginx / netdata-access
中创建一个包含您提供的用户名和密码的文件。
生成的密码在文件中加密,因此不能将其视为纯文本。
重新启动nginx以使我们添加的新配置处于活动状态。
$ sudo systemctl restart nginx
要首次测试nginx配置,请在您喜欢的web浏览器访问http://your_server_ip
。您将看到身份验证提示。输入您在此步骤中先前提供的用户名和密码,以访问仪表板,我们将在第五步中进行探讨。
第五步 - 探索仪表板
如果您没有按照可选第四步进行操作,请立即在您喜欢的浏览器访问http://your_server_ip:19999/
以访问仪表板。
您将看到仪表板以及系统实时指标的概述。当您在后续图形中的每个时间段上鼠标悬停时,页面顶部的hud样式指示器会发生变化。
hud indicators image
此概述部分中的各个图形和图表提供了每个系统方面的详细说明,范围从cpu到内存到网络流量等。
cpu chart example
图表是交互式的,可以使用鼠标按钮向左或向右拖动,以在不同的时间间隔内来回平移。
ram chart example
按住shift并使用鼠标滚轮在图形上滚动或滚出将缩小或加宽时间标记。双击图表将其重置为默认外观和视图。
network chart example
在仪表板上导航的最快方法是使用页面右侧的菜单树。这会根据您当前正在查看的页面部分更改焦点和颜色。
menu tree
向下滚动页面或使用菜单树可以访问更深入的图表。这些非常详细,并且以与初始概述部分中的图表相同的方式进行控制。
menu tree image
netdata提供了许多这些额外的特定于统计数据的图表。
gui的一个重要部分是更新页面。netdata定期接收更新,并使您的安装保持最新状态。仪表板顶部包含一个“更新”按钮,可用于检查新版本是否可供下载。
update button image
单击此按钮将打开一个包含更多详细信息的新菜单,并打开“立即检查”按钮以手动检查更新。
update check details image
如果有可用的更新,您只需要从netdata git存储库运行提供的更新脚本,我们在第一步中将其克隆到linux用户的主目录。也就是说,当更新可用时,只需从命令行运行sudo ~/netdata/netdata-updater.sh
。
结论
netdata wiki中介绍了netdata注册表,设置警报和安装自定义图表/模块的信息,还讨论了生成html徽章或处理netdata日志文件等主题。
总结
以上所述是小编给大家介绍的ubuntu上使用netdata设置实时性能监控的详细流程,希望对大家有所帮助