浅谈局域网故障排除(二)
网络响应慢或性能差
首先,要确定一下是否是与网络介质有关的故障,是一个工作站的问题还是一个服务器或是服务的问题。从其它工作站去访问同样的服务器或服务,并询问本段网络或其它网段上的用户,如果问题不是与介质有关的,要确定问题是否是软件有关,检查网络利用率和软件错误来查找性能差的网络问题。
运行诸如网络统计这样的测试,看一下是否有高流量和不正常的高碰撞存在,在增加背景流量后再运行一下这些测试。如果发现碰撞和pcf错随着流量的增加而增多话,你就应运行电缆测试来检查工作站的连接性。
碰撞问题
如果碰撞较多,要算一下有多带宽被碰撞损失了。把本地和远端碰撞的损失都加起来,如果平均碰撞的值大于5—10%,就要进行进一步的故障查找。同样要检查一下碰撞是否是突发的,也就是说碰撞明显地增多不是因为流量明显增大引起的,如果是这样就意味着某处的物理层出现了比较严重的问题。在碰撞与流量之间应是有一定的关系的。这种关系应当在做网络参照基准测试时收集到。如果碰撞始终是比较多的(但仍是可以接受),可能是太多站点同时在参与发送,或者网络结构应做一些优化使近距离的站点分在一起。过多的碰撞最常见是与介质有关的故障导致的。比如:不正确的端接,特性阻抗不连续(坏接点、残留支缆、残破线缆)等和坏网卡。
过载网段
如果利用率很高(持续峰值超过60%)而碰撞又可以接受(平均碰撞小于10%),那么网络就饱和了。这时就应该增加网段或用路由器把网段分成较小的可以支持正常流量的网段。
硬件故障
如果出现帧错误,利用专业仪表可以找出错误帧的来源。此后的工作就是在hub口、网卡和电缆中隔离出特定的故障,如果故障是间歇性的,就替换掉有怀疑的网卡。检查一下服务器/服务是否接在广域网路由器的远端。如果是这样,就用ping测试来测一下响应时间并与基准测试比较一下。为了保证没丢失帧的情况就要连续运行多次的ping测试,检查测试请求包与响应包是否相等。如果不相等,远端的介质或互连设备(网桥、路由器等)就有可能是容量问题或有故障。丢帧也是电缆故障之一。比如:utp布线中的线对串绕和同轴缆由线的环地故障。如果怀疑有丢帧就进行电缆测试。测试接在反应慢的工作站的电缆,也要测一下服务器方向的电缆。
软件故障
运行网络统计测试,如果是高流量,低碰撞,而且有一点错误帧,就先确定发出错误帧的站点。也可以由繁忙站点测试来找出有问题的站点。到该站点现场来查看该用户在做什么。要问明在非高峰时间用户在干什么或把这个用户移到其它网段上,以改善本网段上的其它用户工作情况。如果利用率、碰撞、错误帧都低,要询问抱怨网络性能不好的用户是使用哪个服务器和哪个应用软件。检查该服务器是否处在高负载状况下,它和网络的利用率是不同的概念。要找到使用这个服务器资源最多的用户,这可以用服务器上的用户监测功能或协议分析仪来完成。
无论是网络流量高或低时发生的问题,如果是碰撞很少而且是没有帧错误,这类问题多出自应用软件或与文件服务器有关。服务器可能是cache设置的太小,保留的缓冲不足,服务器内存不够,服务器硬盘所余空间有限,8-bit网卡等等,这也可能是另一类软件问题,他们可能造成不正常的“网络磁盘请求”,这时有必要将某一应用移到另一个服务器上,要么升级现有的服务器,要么再加入一个新的服务器。
网络故障可能是很复杂的,很多问题会导致同样的故障表现不同。查找故障的基本方法是二分法。为了有效地解决故障,我们需要有网络的文档。了解在网络正常工作时的参数,要装备合理的工具以帮助我们找出网络的故障。从上述的两大类故障中可以看出,网络管理人员不仅需要网络的帧监测工具,也要有主动测试硬件和功能的能力,方便地找出网络中最常见故障的地址。