欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

一次OracleRAC节点重启后出现故障的处理分享

程序员文章站 2023-12-20 22:54:04
因为存储的相关操作,客户需要手动重启rac节点,然而,这个重启导致了接下来的事故。。。。 由于是远程跟我沟通,我回复rac环境下可以重启一个节点,客户就自信重启了,出现的故障如下所示: [gri...

因为存储的相关操作,客户需要手动重启rac节点,然而,这个重启导致了接下来的事故。。。。

由于是远程跟我沟通,我回复rac环境下可以重启一个节点,客户就自信重启了,出现的故障如下所示:

[grid@hxdb01 ~]$  srvctl start nodeapps -n hxdb01
prkh-1010 : 无法与 crs 服务通信。
prkh-3003 : 尝试与 css 守护程序通信时失败
[grid@hxdb01 ~]$ crsctl start cluster

crs-2672: attempting to start 'ora.gpnpd' on 'hxdb01'
crs-5017: the resource action "ora.gpnpd start" encountered the following error: 
start action for daemon aborted. for details refer to "(:clsn00107:)" in "/u01/app/grid/11.2/log/hxdb01/agent/ohasd/oraagent_grid//oraagent_grid.log".
crs-2674: start of 'ora.gpnpd' on 'hxdb01' failed
crs-2679: attempting to clean 'ora.gpnpd' on 'hxdb01'
crs-2681: clean of 'ora.gpnpd' on 'hxdb01' succeeded
crs-2672: attempting to start 'ora.gpnpd' on 'hxdb01'
crs-5017: the resource action "ora.gpnpd start" encountered the following error: 
start action for daemon aborted. for details refer to "(:clsn00107:)" in "/u01/app/grid/11.2/log/hxdb01/agent/ohasd/oraagent_grid//oraagent_grid.log".
crs-2674: start of 'ora.gpnpd' on 'hxdb01' failed
crs-2679: attempting to clean 'ora.gpnpd' on 'hxdb01'
crs-2681: clean of 'ora.gpnpd' on 'hxdb01' succeeded
crs-4000: command start failed, or completed with errors.
[grid@hxdb01 ~]$  crsctl query crs activeversion
oracle cluster registry initialization failed accessing oracle cluster registry device: proc-26: error while accessing the physical storage
ora-29701: unable to connect to cluster synchronization service

一开始发给我这样的报错以为是rac抉择盘 或 asm磁盘出现故障导致不能加入rac集群,客户那边dba通过各种查资料及搜索问题,无果,因为这套rac环境是我做的,公司就派我到现场解决;

来到客户现场,检查过基础环境确认没问题,开始查报错,看日志,网络上相关的报错解决非常详细,但经过操作之后完全没用,无奈,只能再次从日志寻找疑点。

gpnpd.log日志中:有一条报错引起了注意:/u01/app/grid/11.2/gpnp/init/hxdb01.pid 写入失败,如下图所示:

一次OracleRAC节点重启后出现故障的处理分享

既然是不能写,第一时间想到文件权限,ll一下这个文件,发现hxdb01.pid属主为root,并且发现整个目录的属主都是root, 这绝对是认为修改的,于是想到了上次开发人员在上线导数据的时候误改了oracle整个目录的属主为root,虽然后来还原了,但有关rac服务的部分目录没有改回来,直到现在是第一次重启节点,导致rac相关服务不能对文件作写操作,以至于不能启动集群服务。

问题找到了,解决就简单多了:

在 /u01/app/grid/11.2/gpnp/目录下,
将 hxdb01 、 init 、  profiles 、 wallets 四个目录的属主由“root” 改为 “grid” ,
重启服务器后 rac恢复正常。

上一篇:

下一篇: