Oracle Linux 6.7中Oracle 11.2.0.4 RAC集群的CRS异常处理方法是什么?

分类:编程技术 时间:2024-02-20 15:47 浏览:0 评论:0
0
本文主要讲解《Oracle Linux 6.7中Oracle 11.2.0.4 RAC集群的CRS异常处理方法是什么》。文章中的讲解内容简单明了,易学易懂。请跟随小编的思路,深入探讨。赶快起来学习学习《Oracle Linux 6.7中Oracle 11.2.0.4 RAC集群的CRS异常处理方法是什么》!

近一个月来,单位上Oracle RAC集群CRS异常,导致集群命令无法使用。执行 crsctl stat res -t 命令时出现以下错误:

[grid@db1 ~]$ crsctl stat res -tCRS-4535: 无法与群集就绪服务通信CRS-4000: 命令状态失败,或已完成,但有错误。[grid@db2 ~]$ crsctl stat res -tCRS-4535:无法与群集就绪服务通信CRS-4000:命令状态失败,或已完成,但有错误。

但可以访问数据库正常,业务系统运行正常

[root@db1~]# ps -ef | grep pmonroot 8024 204594 0 21:11 pts/0 00:00:00 grep pmongrid 77120 1 0 12 月 21 日? 00:04:21 asm_pmon_+ASM1oracle 77790 1 0 十二月 21 日? 00:05:18 ora_pmon_CAIWU1oracle 77794 1 0 十二月 21 日? 00:05:08 ora_pmon_dadb1oracle 77848 1 0 十二月 21 日? 00:05:39 ora_pmon_chdyl1oracle 77910 1 0 十二月 21 日? 00:07:47 ora_pmon_RLZY1[root@db2 ~]# ps -ef | grep pmongrid 27745 1 0 十二月 21 日? 00:04:21 asm_pmon_+ASM2oracle 28393 1 0 十二月 21 日? 00:05:21 ora_pmon_dadb2oracle 28569 1 0 十二月 21 日? ​​00:04:58 ora_pmon_CAIWU2oracle 28573 1 0 十二月 21 日? 00:05:36 ora_pmon_chdyl2oracle 28583 1 0 十二月 21 日? 00:07:49 ora_pmon_RLZY2

检查ASM磁盘组状态,发现OCR磁盘组确实离线

[grid@db1 ~]$ asmcmd lsdgState Type Rebal  Sector块 AU Total_MB Free_MB Req_mir_free_MB Usable_file_MB Offline_disks Voting_files NameMOUNTED EXTERN N 512 4096 1048576 3072000 26795 22 0 2679522 0 0 N ARCH/MOUNTED EXTERN 512 4096 1048576 2048 00 151 138 0 151138 0 0 N CWDATA/安装外部 N 512 4096 1048576 512000 472546                                            472546                                                                                                                    to95334 0 595334 0 N 数据/已安装外部 N 512 4096 104857 6 1843200 609953 0 609953 0 N SBData/[Grid@DB2 ~] $ ASMCMD LSDGState 类型 Rebal SelectorBlock AU Total_MB Free_MB Req_mir_free_MB Usable_file_MB Offline_disks Voting_files名称MOUNTED EXTERN N 512 4096 1048576 3072000 2679522 0   0 151138 0 0 N CWDATA/MOUNTED EXTERN N 512 4096 1048576 512000 472546 00 595334 0 N 数据/Mountain Extern N 512 4096 1048576 1843200 609953 0 609953 0 N SBDATA/ 

手工CRSDG启动,命令执行成功,但仍然报CRSCTL STAT RES -T命令。

[grid@db1 ~]$ sqlplus / as sysasmSQL*Plus:于 2023 年 12 月 30 日星期一 21:15:33 发布 11.2.0.4.0 版本,版权所有 (c) 1982, 2013,Oracle。保留所有权利。连接到:Oracle Database 11g Enterprise Edition 版本 11.2.0.4.0 - 64 位生产,具有真正的应用程序集群和自动存储管理选项SQL> alter diskgroup ocr mount;Diskgroup altered.SQL> exitDisconnected from Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64 位生产,具有 Real应用程序集群和自动存储管理选项[grid@db1 ~] $ crsctl stat res -tCRS-4535:无法与集群就绪服务通信CRS-4000:命令状态失败,或已完成但有错误。[grid@db2 ~]$ sqlplus /作为 sysasmSQL*Plus:版本 11.2.0.4.0 于 2023 年 12 月 30 日星期一 21:15:05 发布,版权所有 (c) 1982, 2013,Oracle。保留所有权利。连接到:Oracle Database 11g 企业版版本 11.2.0.4.0 - 64 位生产具有真正应用集群和自动存储管理选项SQL> alter diskgroup ocr mount;Diskgroup altered。SQL> exit与 Oracle Database 11g 企业版版本 11.2 断开连接。 0.4.0 - 64位生产与真正的应用程序阳离子集群和自动存储管理选项[grid@db2 ~]$ crsctl stat res-tCRS-4535:无法与集群就绪服务通信CRS-4000:命令状态失败,或已完成但有错误。

检查警报_节点db1的+ASM1.log,出现如下错误,说OCR磁盘组无法访问 OCR磁盘因相关磁盘被强制dismount,但使用dd命令测试可以访问

文件 /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_ora_77212 .trc 中的错误:ORA-15078:ASM 磁盘组被强制卸载警告:请求虚拟盘区 0 逻辑盘区的镜像端 1 0偏移102400未分配; I/O 请求失败警告:未分配虚拟盘区 0 逻辑盘区 1 偏移量 102400 的请求镜像端 2; I/O 请求失败文件 /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_ora_77212.trc 中出现错误:ORA-15078:ASM 磁盘组被强制卸载ORA-15078:ASM 磁盘组于 12 月 28 日被强制卸载05:30:48 2023SQL> alter diskgroup OCR check /* proxy */ ORA-15032:未执行所有更改ORA-15001:磁盘组“OCR”不存在或未安装错误:alter diskgroup OCR check /* proxy */注意:客户端退出 [77184]Sat Dec 28 05:30:49 2023注意:[crsd.bin@db1 (TNS V1-V3) 35285] 打开 OCR 文件Sat Dec 28 05: 30:51 2023注意:[crsd.bin@db1 (TNS V1) -V3) 35305] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:30:53 注意:[crsd.bin@db1 (TNS V1-V3) 35322] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:30:55 注意:[crsd.bin@db1 ( TNS V1-V3) 35346] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:30:57 注意:[crsd.bin@db1 (TNS V1-V3) 35363] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:31:00 注意:[crsd.bin@db1 (TNS V1-V3) 35363] 打开 OCR 文件星期六bin@db1 (TNS V1-V3) 35459] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:31:02 注:[crsd.bin@db1 (TNS V1-V3) 35481] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:31:04 注意:[ crsd.bin@db1 (TNS V1-V3) 35520] 打开 OCR 文件星期六 12 月 28 日 05:31:06 2023注意:[crsd.bin@db1 (TNS V1-V3) 35539] 打开 OCR 文件星期六 12 月 28 日 05:31:08 2023注意: [crsd.bin@db1 (TNS V1-V3) 35557] 打开 OCR 文件Sat Dec 28 21:00:10 2023警告:VKTM 检测到时间漂移。时间漂移可能会导致意外行为,例如超时。请检查跟踪文件以获取更多详细信息。

检查错误日志

[root@db1 ~]# more /u01/app/ grid/diag/asm/+asm/+ASM1 /trace/+ASM1_ora_77212.trcTrace 文件 /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_ora_77212.trcOracle Database 11g Enterprise Edition Release 11.2.0.4 .0 - 64 位生产具有真正的应用程序集群和自动功能存储管理选项ORACLE_HOME = /u01/app/11.2.0/grid系统名称:Linux节点名称:db1版本:3.8.13-68.3.4.el6uek .x86_64版本:#2 SMP Tue Jul 14 15:03:36 PDT 2015机器:x86_64实例名称: +本实例挂载的ASM1Redo线程:0 Oracle进程号:24Unix进程pid:77212,图像:oracle@db1 (TNS V1-V3)*** 2023-12-28 05:30:44.894*** SESSION ID:( 2929.3) 2023-12-28 05:30:44.894*** 客户端 ID:() 2023-12-28 05:30:44.894*** 服务名称:() 2023-12-28 05:30: 44.894** * 模块名称E:(crsd.bin@db1 (TNS V1-V3)) 2023-12-28 05:30:44.894*** 操作名称:() 2023-12-28 05:30:44.894 收到 ORADEBUG 命令 (#1)来自进程 'Unix process pid: 35253, image: '*** 2023-12-28 05:30:44.895的 'CLEANUP_KFK_FD' 已完成处理 ORADEBUG 命令 (#1) 'CLEANUP_KFK_FD'*** 2023-12 -28 05:30 :48.235警告:失败的xlate 1 ORA-15078:ASM磁盘组被强制卸载ksfdrfms:镜像读取文件= + OCR.255.4294967295 fob = 0x9b00e5d8 bufp = 0x7f5dd012ba00 blkno = 25 nbytes = 4096警告:失败x迟到1警告:要求镜像面 1虚拟盘区 0 逻辑盘区 0 偏移量 102400 未分配; I/O 请求失败ksfdrfms:从镜像端读取失败=1 逻辑盘区编号=0 dskno=65535 警告:xlate 1 失败警告:请求的虚拟盘区 0 逻辑盘区 1 偏移 1 02400 的镜像端 2 未分配 02400 ;未分配; I/O 请求失败ksfdrfms:从镜像端读取失败=2 逻辑盘区编号=1 dskno=65535ORA-15078: ASM 磁盘组被强制卸载ORA-15078: ASM 磁盘组被强制卸载

检查节点db1的alertdb1.log,报如下错误,也说明OCR磁盘组相关磁盘无法访问

2023-12 -28 05:30:48.468:[/u01/app/11.2.0/grid/bin/oraagent.bin(77466)]CRS-5822:代理'/u01/app/11.2.0/grid/bin/oraagent_grid'与服务器断开连接。详细信息位于 (:CRSAGF00117:) {0:1:4} /u01/app/11.2.0/grid/log/db1/agent/crsd/oraagent_grid/oraagent_grid.log.2023-12-28 05:30:48.468 :[/u01/app/11.2.0/grid/bin/oraagent.bin(77684)]CRS-5822:代理“/u01/app/11.2.0/grid/bin/oraagent_oracle”与服务器断开连接。详细信息位于 (:CRSAGF00117:) {0:7:332} /u01/app/11.2.0/grid/log/db1/agent/crsd/oraagent_oracle/oraagent_oracle.log.2023-12-28 05:30 :48.471 :[/u01/app/11.2.0/grid/bin/orarootagent.bin(77482)]CRS-5822:代理“/u01/app/11.2.0/grid/bin/orarootagent_root”已与服务器断开连接。详细信息位于 /u01/app/11.2.0/grid/log/db1/agent/crsd/orarootagent_root/or 中的 (:CRSAGF00117:) {0:5:11497}arootagent_root.log.2023-12-28 05:30:48.480: [ohasd(33022)]CRS-2765:服务器“db1”上的资源“ora.crsd”失败。2023-12-28 05:30:50.003: [crsd(35285)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。详细信息位于 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:30:50.021: [crsd( 35285)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log /db1/crsd/crsd.log.2023-12-28 05:30:50.520 中的 (:CRSD00111:):[ohasd(33022)]CRS-2765:服务器“db1”上的资源“ora.crsd”失败。2023-12-28 05:30:51.918: [crsd(35305)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/ app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:30:51.929 中的详细信息:[crsd(35305)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db1/ 中的 (:CRSD00111:)crsd/crsd.log.2023-12-28 05:30: 52.557: [ohasd(33022)]CRS-2765:资源“ora.crsd”在服务器“db1”上失败。2023-12-28 05:30: 53.945:[crsd(35322)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:30:53.956 中的详细信息:[crsd(35322)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:30:54.595 中的 (:CRSD00111:):[ohasd(33022)]CRS-2765:服务器“db1”上的资源“ora.crsd”失败。2023-12-28 05:30:55.976: [crsd(35346)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:30:55.988: [crsd(35346)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2 中的 (:CRSD00111:)023-12-28 05:30:56.633:[ohasd(33022)] CRS-2765:资源“ora.crsd”在服务器“db1”上失败。2023-12-28 05:30:58.010:[crsd(35363) )]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:30:58.020 中的详细信息:[crsd(35363)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:30:58.669 中的 (:CRSD00111:):[ohasd(33022)]CRS-2765:服务器“db1”上的资源“ora.crsd”失败。2023-12-28 05:31:00.043: [crsd(35459)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:31:00.054 中的详细信息:[crsd(35459)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-2 中的 (:CRSD00111:)8 05:31:00.706:[ohasd(33022)]CRS-2765:资源“ora.crsd”在服务器“db1”上失败。2023-12-28 05:31:02.093:[crsd(35481)]CRS- 1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:31:02.103 中的详细信息:[crsd(35481)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid /log/db1/crsd/crsd.log.2023-12-28 05:31:02.742 中的 (:CRSD00111:):[ohasd(33022)]CRS-2765:服务器“db1”上的资源“ora.crsd”失败。2023-12-28 05:31:04.109: [crsd(35520)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。详细信息位于 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log .2023-12-28 05:31:04.119: [crsd(35520)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息请参见 (:CRSD00111 :) /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:31:04.777:[ohasd(33022)]CRS-2765:资源“ora.crsd”在服务器“db1”上失败。2023-12-28 05:31:06.141:[crsd(35539)]CRS-1013: ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0 /grid/log/db1/crsd/crsd.log.2023-12-28 05:31:06.151 中的详细信息:[crsd(35539)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:31:06.810 中的 (:CRSD00111:):[ohasd(33022)]CRS-2765:服务器“db1”上的资源“ora.crsd”失败。2023-12-28 05:31:08.181: [crsd(35557)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db1/crsd/crsd.log.2023-12-28 05:31:08.191 中的详细信息:[crsd(35557)]CRS -0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db1/crsd /crsd.log.2023-12-28 05:31:08.846 中的 (:CRSD00111:):[ohasd(33022)]CRS-2765:资源“ora.crsd”在服务器“db1”上失败。2023-12-28 05:31:08.847:[ohasd(33022)]CRS-2771:资源已达到最大重新启动尝试次数'ora.crsd';不会重新启动。2023-12-28 05:31:08.848: [ohasd(33022)]CRS-2769:无法故障转移资源“ora.crsd”。

检查节点 db1 的 oraagent_ 网格。日志文件有以下错误,表明OCR磁盘组的状态已更改为脱机。

2023-12-28 05:30:16.531: [ AGFW][511039232]{1:30746:2} 代理收到消息:AGENT_HB[Engine] ID 12293:1137202323-12-28 05: 30:37.808: [ AGFW][511039232]{1:30746:9373} 代理收到消息:RESOURCE_STOP[ora.OCR.dg db1 1] ID 4099:1137302023-12-28 05:30:37.808:[ AGFW][ 511039232]{1:30746:9373} 准备 STOP 命令:ora.OCR.dg db1 12023-12-28 05:30:37.808: [ AGFW][511039232]{1:30746:9373} ora.OCR.dg db 1 1 状态从:O​​NLINE 更改为:STOPPING2023-12-28 05:30:37.809: [ora.OCR.dg][513140480]{1:30746:9373} [stop] (:CLSN00108:) clsn_agent::stop {2023-12-28 05:30:37.810: [ora.OCR.dg][513140480]{1:30746:9373} [stop] DgpAgent::stop: 输入 { 2023-12-28 05: 30:37.810: [ora.OCR.dg][513140480]{1:30746:9373} [stop] getResAttrib: attrib 名称 USR_ORA_OPI 值 true len 42023-12-28 05:30:37.810: [ora.OCR.dg] [513140480]{1:30746:9373} [停止] Agent::flagUsrOraOpiIsSet(true) 原因不依赖2023-12-28 05:30:37.810:[ora.OCR.dg][513140480]{1:30746:9373} [停止] DgpAgent::stop: tha 退出 }2023-12-28 05:30:37.810: [ora.OCR.dg] [513140480]{1:30746:9373} [停止] DgpAgent::stopSingle 状态:2 } 2023-12-28 05:30:37.810: [ora.OCR.dg][513140480]{1:30746:9373} [停止] (:CLSN00108:) clsn_agent::stop }2023-12-28 05:30: 37.810: [ AGFW][513140480]{1:30746:9373} 命令:停止资源:ora.OCR.dg db1 1 已完成,状态:SUCCESS2023-12-28 05:30:37.810: [ora.OCR.dg] [513140480]{1:30746:9373} [检查] CrsCmd::ClscrsCmdData::stat 实体 1 statflag 33 useFilter 02023-12-28 05:30:37.811: [ AGFW][511039232]{1:30746:9373} 代理发送回复y for: RESOURCE_STOP[ora.OCR.dg db1 1] ID 4099:1137302023-12-28 05:30:37.838: [ora .OCR.dg][513140480]{1:30746:9373} [检查] DgpAgent:: runCheck:asm stat asmRet 02023-12-28 05:30:37.839:[ora.OCR.dg] [513140480] {1:30746:9373} [检查] DgpAgent :: getConnxn已连接2023-12-28 05:30:37.844 :[ora.OCR.dg][513140480]{1:30746:9373} [检查] DgpAgent::queryDgStatus excp 未找到数据202 3 -12-28 05:30:37.844:[ora.OCR.dg][513140480] {1:30746:9373} [检查] DgpAgent::queryDgStatus 在 v$asm_diskgroup_stat2023-12-28 05:30:37.844 中找不到数据:[ora.OCR.dg][513140480]{1:30746:9373} [检查] DgpAgent::queryDgStatus dgName OCR ret 12023-12-28 05:30:37.845: [ AGFW][511039232]{1:30746:9373} ora.OCR.dg db1 1 状态从:停止更改为:离线2023-12- 28 05:30:37.845: [ AGFW][511039232]{1:30746:9373} 代理发送最后回复:RESOURCE_STOP[ora.OCR.dg db1 1] ID 4099:1137302023-12-28 05:30:43.889: [ora.asm][503641856]{1:30746:2} [检查] CrsCmd: :ClscrsCmdData::stat 实体 1 statflag 33 useFilter 02023-12-28 05:30:43.920: [ora.asm][503641856]{1:30746:2} [检查] AsmProxyAgent::检查 clsagfw_res_status 02023-12-28 05 :30:48.465: [CRSCOMM][521545472] IpcC:与成员 0 的 IPC 客户端连接 6c 已被删除2023-12-28 05:30:48.465:[CLSFRAME][521545472] 正在删除 IPC 成员:{Relative|Node:0|Process:0|Type:1}2023-12 -28 05:30:48.465:[CLSFRAME][521545472]与CRSD断开连接:db1进程:{相对|节点:0|进程:0|类型:1}2023-12-28 05:30:48.474:[代理] [511039232]{ 0:1:4} {0:1:4} 已创建警报 : (:CRSAGF00117:) : 与服务器断开连接,代理正在关闭。2023-12-28 05:30:48.474: [ AGFW][ 511039232]{0 :1:4} 代理正在退出,退出代码:1

检查节点 db2 的alert_+ASM2.log,出现以下错误,类似于“Waited 15 secs for write IO” to PST disk 0 in group"1" 消息,这意味着对 OCR 磁盘组的写入操作超时 15 秒。

Sat Dec 28 03:02:51 2023WARNING: Waited 15 secs for write IO 到组中的 PST 磁盘 01.警告:等待 15 秒以将 IO 写入组 1 中的 PST 磁盘 0。警告:等待 15 秒以将 IO 写入组 3 中的 PST 磁盘 0。警告:等待 15 秒以将 IO 写入组 3 中的 PST 磁盘 0。警告:等待 15 秒将 IO 写入组 5 中的 PST 磁盘 0。警告:等待 15 秒将 IO 写入组 5 中的 PST 磁盘 1。警告:等待 15 秒将 IO 写入组 5 中的 PST 磁盘 2。警告:已等待 15 秒将 IO 写入组 5 中的 PST 磁盘 0。警告:已等待 15 秒将 IO 写入组 5 中的 PST 磁盘 1。警告:已等待 15 秒将 IO 写入组 5 中的 PST 磁盘 2。警告:已等待 15向组 6 中的 PST 磁盘 0 写入 IO 的秒数。警告:等待 15 秒向组 6 中的 PST 磁盘 0 写入 IO。2023 年 12 月 28 日星期六 03:02:51 注意:进程 _b000_+asm2 (45488) 启动磁盘 0.3916160907 脱机(OCR1) 组 5 中掩码 0x7e 注意:进程 _b000_+as m2 (45488) 启动磁盘 1.3916160906 脱机 (OCR2) 组 5 中掩码 0x7e 注意:进程 _b000_+asm2 (45488) 启动磁盘 2.3916160905 脱机(OCR3) 组 5 中掩码为 0x7e 注意:检查 PST:grp = 5GMON 在 19 处检查组 5 的磁盘模式,PID 为 27,osid 45488 错误:组中没有读取仲裁:需要 2,发现 0 个磁盘注意:检查 grp 5 的 PST 已完成。注意:启动 PST 更新日期:grp = 5,dsk = 0/0xe96bdf8b,掩码 = 0x6a,op = 清除注意:启动 PST 更新:grp = 5,dsk = 1/0xe96bdf8a,掩码 = 0x6a,op = 清除注意:启动 PST 更新:grp = 5,dsk = 2/0xe96bdf89,掩码 = 0x6a,op =clearGMON 更新组 5 的磁盘模式,PID 27,osid 45488错误:组 5 的磁盘模式为 20:必需 2,找到 0 diskSat Dec 28 03:02 :51 2023注意:缓存卸载(不干净)组 5/0x8F5B2F9F (OCR) 注意:将 CKPT 消息传递到静默引脚 Unix 进程 pid:45490,图像:或 acle@ db2 (B001)Sat Dec 28 03:02:51 2023注意:暂停所有 I/O 到磁盘组 5 (OCR)Sat Dec 28 03:02:52 2023注意:LGWR 正在执行组 5 的非干净卸载 (OCR)注意:LGWR 同步 ABA=23.100 最后写入的 ABA 23.100警告:磁盘 OCR1 处于脱机状态模式 0x7f 失败。WARNING:磁盘 OCR2 在模式 0x7f 下脱机失败。警告:磁盘 OCR3 在模式 0x7f 下脱机失败。SatDec 28 03:02:52 2023kjbdomdet 从 dom 5 发送到 inst 1detach,将分离消息发送到 inst 1Sat Dec 28 03:02: 52 2023实例列表:1 2脏分离重新配置已开始(新 ddet inc 1,集群 inc 36)全局资源目录因脏分离而部分冻结*脏分离 - 域 5 无效 = TRUE 0 个 GCS 资源已遍历,0 个已取消脏分离重新配置完成于 2003 年 12 月 28 日星期六:02:52 2023警告:脏从域分离 5注意:缓存卸载组 5/0x8F5B2F9F (OCR) SQL > alter diskgroup OCR dismount force /* ASM SERVER:2405117855 */ Sat Dec 28 03:02:52 2023注意:缓存删除上下文group OCR 5/0x8f5b2f9fGMON 在 21 处卸载组 5,用于 pid 28,osid 45490注意:模式 0x7f 中的磁盘 OCR1 标记为取消分配注意:模式 0x7f 中的磁盘 OCR2 标记为取消分配注意:模式 0x7f 中的磁盘 OCR3 标记为取消分配注意:等待所有挂起的写入 to 取消注册前完成:grpnum 5Sat Dec 28 03:03:03 2023警告:等待 27 秒将 IO 写入组 1 中的 PST 磁盘 0。警告:等待 27 秒将 IO 写入组 1 中的 PST 磁盘 0。警告:等待 24 秒将 IO 写入组 2 中的 PST 磁盘 0。警告:等待 24 秒将 IO 写入组 2 中的 PST 磁盘 0。警告:等待 27 秒将 IO 写入组 3 中的 PST 磁盘 0。警告:等待 27向组 3 中的 PST 磁盘 0 写入 IO 已等待 21 秒。警告:向组 4 中的 PST 磁盘 0 写入 IO 已等待 21 秒。警告:向组 4 中的 PST 磁盘 0 写入 IO 已等待 21 秒。警告:已等待 27 秒将 IO 写入组 6 中的 PST 磁盘 0。警告:等待 27 秒将 IO 写入组 6 中的 PST 磁盘 0。2023 年 12 月 28 日星期六 03:03:03ASM 健康检查器发现 1 个新故障 2023 年 12 月 28 日星期六 03:03:22 成功:磁盘组 OCR 已卸载成功:alter diskgroup OCR dismount force /* ASM SERVER:2405117855 */SUCCESS: ASM 发起的 OCRS 组强制卸载 2023 年 12 月 28 日 03:03 :22 注意:磁盘组资源 ora.OCR.dg 处于离线状态(Sat Dec 28 03:03:22 2023)文件 /u01/app/grid/diag/asm/+asm/+ASM2/trace/+ASM2_ora_27831.trc:ORA-15078 中出现错误:ASM 磁盘组被强制卸载文件 /u01 中出现错误/app/grid/diag/asm/+asm/+ASM2/trace/+ASM2_ora_27831.trc:ORA-15078: ASM 磁盘组被强制卸载文件 /u01/app/grid/ diag/asm/+asm/+ASM2/ 中出现错误trace/+ASM2_ora_27831.trc:ORA-15078: ASM 磁盘组被强制卸载文件 /u01/app/grid/diag/asm/+asm/+ASM2/trace/+ASM2_ora_27831.trc:ORA-15078: ASM 磁盘组被强制卸载错误文件 /u01/app/grid/diag/asm /+asm/+ASM2/trace/+ASM2_ora_27831.trc:ORA-15078: ASM 磁盘组被强制卸载文件 /u01/app/grid/diag/asm/+ 中的错误asm/+ASM2/trace/+ASM2_ora_27831.trc:ORA -15078: ASM 磁盘组被强制卸载文件 /u01/app/grid/diag/asm/+asm/+ASM2/trace/+ASM2_ora_27831.trc:ORA-15078 中出现错误: ASM 磁盘组被强制卸载文件 /u01/app/ grid/diag/asm/+asm/+ASM2/trace/+ASM2_ora_27831.trc:ORA-15078: ASM dis 中出现错误kgroup 被强制卸载文件 /u01/app/grid/diag/asm/+asm/+ASM2/trace/+ ASM2_ora_27831.trc:ORA-15078: ASM 磁盘组被强制卸载SatDec 28 05:30:34 2023警告:等待 15 秒向组 1 中的 PST 磁盘 0 写入 IO。警告:向组 1 中的 PST 磁盘 0 写入 IO 已等待 15 秒。警告:向组 6 中的 PST 磁盘 0 0 写入 IO 已等待 15 秒。警告:已等待 15 秒将 IO 写入组中的 PST 磁盘 0 6.Sat Dec 28 05:30:37 2023 从 dom 的 inst 1 接收到脏分离消息 5Sat Dec 28 05:30:37 2023List of instance s : 1 2Dirty detach 重新配置已开始(新的 ddet inc) 2、集群 inc 36) 全局资源目录因脏分离而部分冻结* dirTy Detach-Domain 5 无效 = True 0 GCS 资源已遍历,0 已取消释放 RDOM 5DIRTACH 重新配置于 12 月 28 日 05:30:37 2023 完成错误在文件/ U01/APP/Grid 中/DIAG/ASM/+ASM/+ASM2/Trace/+ ASM2_ora_27831.trc:ORA-15078: ASM 磁盘组被强制卸载文件 /u01/app/grid/diag/asm/+asm/+ASM2/trace/+ 中出现错误ASM2_ora_27831.trc:ORA-15078: ASM 磁盘组被强制卸载文件 /u01/app/grid/diag/asm/+asm/+ASM2/trace/+ASM2_ora_27831.trc:ORA-15078: ASM 磁盘组被强制卸载警告: 已请求虚拟盘区 5 逻辑盘区 0 偏移量 704512 的镜像面 1 未分配; I/O 请求失败警告:未分配虚拟盘区 5 逻辑盘区 1 偏移量 704512 的请求镜像面 2; I/O 请求失败文件 /u01/app/grid/diag/asm/+asm/+ASM2/trace/+ASM2_ora_27831.trc 中出现错误:ORA-15078:ASM 磁盘组被强制卸载ORA-15078:ASM 磁盘组于 12 月 28 日被强制卸载05:30:37 2023SQL> alter diskgroup OCR check /* proxy */ ORA-15032:未执行所有更改ORA-15001:磁盘组“OCR”不存在或未安装错误:alter diskgroup OCR check /* proxy */Sat Dec 28 05:30:44 2023警告:等待 20 秒将 IO 写入组 2 中的 PST 磁盘 0。警告:等待 20 秒将 IO 写入组 2 中的 PST 磁盘 0。2023 年 12 月 28 日星期六 05:30:48 注意:客户端 exited [27819]Sat Dec 28 05:30:49 2023注意:[crsd.bin@db2 (TNS V1-V3) 142641] 打开 OCR 文件Sat Dec 28 05:30:51 2023注意:[crsd.bin@db2 (TNS V1-V1-) V3) 142660] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:30:53 注意:[crsd.bin@db2 (TNS V1) - V3) 142678] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:30:55 注意:[crsd.bin@db2 ( TNS V1-V3) 142696] 在 2023 年 12 月 28 日 05:30:57 打开 OCR 文件注:[crsd.bin@db2 (TNS V1-V3) 142723] 在 2023 年 12 月 28 日 05:30:59 打开 OCR 文件注:[crsd.bin@ db2 (TNS V1-V3) 142744] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:31:01 注意:[crsd.bin@db2 (TNS V1-V3) 142773] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:31:03 注意:[crsd.bin @db2 (TNS V1-V3) 142792] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:31:05 注意:[crsd.bin@db2 (TNS V1-V3) 142806] 打开 OCR 文件星期六 2023 年 12 月 28 日 05:31:07 注意:[crsd .bin@db2 (TNS V1-V3) 142821 ] 打开 OCR 文件Sat Dec 28 06:18:42 2023警告:等待 15 秒将 IO 写入组 1 中的 PST 磁盘 0。警告:等待 15 秒将 IO 写入 PST 磁盘 0在组 1 中。警告:等待 15 秒写入 IO to PST disk 0 in group 2.WARNING: Waited 15 secsfor write IO to PST disk 0 in group 2.

检查节点db2的alertdb2.log,报如下错误,表示相关OCR磁盘组的磁盘无法访问,但使用dd命令测试可以访问。

2023-12-28 05:30:48.019: [/u01/app/11.2.0/grid/bin/oraagent.bin(28268)]CRS-5822:代理'/u01/app/ 11.2.0/grid/bin/oraagent_oracle' 与服务器断开连接。详细信息位于 (:CRSAGF00117:) {0:7:73} /u01/app/11.2.0/grid/log/db2/agent/crsd/oraagent_oracle/ oraagent_oracle.log.2023-12-28 05:30:48.019 :[/u01/app/11.2.0/grid/bin/scriptagent.bin(37953)]CRS-5822:代理“/u01/app/11.2.0 /grid/bin/scriptagent_grid”与服务器断开连接。详细信息位于 /u01/app/11.2.0/grid/log/db2/agent/crsd/scriptagent_grid/scriptagent_grid.log .2023-12-28 05:30:48.020 中的 (:CRSAGF00117:) {0:9:8} :[/u01/app/11.2.0/grid/bin/oraagent.bin(28009)]CRS-5822:代理“/u01/app/11.2.0/grid/bin/oraagent_grid”已断开连接om 服务器。详细信息位于 (:CRSAGF00117:) {0:1:10} /u01/app/11.2.0/grid/log/db2/agent/crsd/oraagent_grid/oraagent_grid.log.2023-12-28 05:30:48.021 :[/u01/app/11.2.0/grid/bin/orarootagent.bin(28025)]CRS-5822:代理“/u01/app/11.2.0/grid/bin/orarootagent_root”与服务器断开连接。详细信息位于 (:CRSAGF00117:) {0:5:373} /u01/app/11.2.0/grid/log/db2/agent/crsd/orarootagent_root/orarootagent_root.log.2023-12-28 05:30:48.024 :[ohasd(13034)]CRS-2765:资源“ora.crsd”在服务器“db2”上失败。2023-12-28 05:30:49.410:[crsd(142641)]CRS-1013:OCR位置ASM 磁盘组无法访问。 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:30:49.420 中的详细信息:[crsd(142641)] CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log .2023-12-28 05:30:50.063 中的 (:CRSD00111:):[ohasd(13034)]CRS-2765:服务器“db2”上的资源“ora.crsd”失败。2023-12-28 05:30:51.442: [crsd(142660)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。详细信息位于 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:30: 51.451: [crsd(142660)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2 中的 (:CRSD00111:)。 0/grid/log/db2/crsd/crsd.log.2023-12-28 05:30:52.100: [ohasd(13034)]CRS-2765:资源“ora.crsd”在服务器“db2”上失败。2023 -12-28 05:30:53.471: [crsd(142678 )]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:30:53.480 中的详细信息:[crsd(142678)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0 /grid/log/db2/crsd/crsd.log.2023-12-28 05:30:54.138 中的 (:CRSD00111:):[ohasd(13034)]CRS-2765:资源“ora.crsd”在服务器“db2”上失败。2023- 12-28 05:30:55.507: [crsd(142696)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:30:55.517 中的详细信息:[crsd(142696)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log .2023-12-28 05:30:56.176 中的 (:CRSD00111:):[ohasd(13034)]CRS-2765:服务器“db2”上的资源“ora.crsd”失败。2023-12-28 05:30:57.551: [crsd(142723)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。详细信息位于 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:30: 57.560: [crsd(142723)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05 :30:58.216 中的 (:CRSD00111:):[ohasd(13034)]CRS-2765:资源“ora.crsd”在服务器“db2”上失败。2023-12-2805:30:59.592: [crsd(142744)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:30:59.602 中的详细信息:[crsd(142744)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db2 /crsd/crsd.log.2023-12-28 05:31:00.253 中的 (:CRSD00111:):[ohasd(13034)]CRS-2765:服务器“db2”上的资源“ora.crsd”失败。2023-12-28 05:31:01.627: [crsd(142773)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/ app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:31:01.636 中的详细信息:[crsd(142773)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:31: 02.290: [ohasd(13034)]CRS-2765 中的 (:CRSD00111:):资源“ora.crsd”在服务器“db2”上失败。2023-12-28 05:31:03.658: [crsd(142792)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:31:03.668 中的详细信息:[crsd(142792)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:31:04.327 中的 (:CRSD00111:):[ohasd(13034)]CRS-2765:服务器“db2”上的资源“ora.crsd”失败。2023-12-28 05:31:05.701: [crsd(142806)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:31:05.711 中的详细信息:[crsd(142806)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:31:06.365 中的 (:CRSD00111:):[ohasd(13034 )]CRS-2765:资源“ora.crsd”在服务器“db2”上失败。2023-12-28 05:31:07.726: [crsd(142821)]CRS-1013:ASM 磁盘组中的 OCR 位置无法访问。 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:31:07.735 中的详细信息:[crsd(142821)]CRS-0804:集群就绪服务因以下原因中止Oracle 集群注册表错误 [PROC-26:访问物理存储时出错]。详细信息位于 /u01/app/11.2.0/grid/log/db2/crsd/crsd.log.2023-12-28 05:31:08.402 中的 (:CRSD00111:):[ohasd(13034)]CRS-2765:资源“ora.crsd”在服务器“db2”上失败。2023-12-28 05:31:08.402: [ohasd(13034)]CRS-2771:资源“ora.crsd”已达到最大重新启动尝试次数;不会重新启动。2023-12-28 05:31 :08.403: [ohasd(13034)]CRS-2769: 无法故障转移资源“ora.crsd”。

检查节点的 oraagent_grid.log 文件db2 出现以下错误:

2023 -12-28 05:29:59.329: [ AGFW][3601811200]{2:6928:2} 代理收到消息:AGENT_HB[Engine] ID 12293:2733042023 -12-28 05:30:17.162: [ora.LISTENER_ SCAN2 .lsnr][3592312576]{1:34166:403} [检查] Utils:execCmd 操作 = 3标志 = 38 ohome = (null) cmdname = lsnrctl. 2023-12-28 05:30:17.267: [ora.LISTENER_SCAN2。 lsnr][3592312576]{1:34166:403} [检查] execCmd ret = 02023-12-28 05:30:17.267: [ora.LISTENER_SCAN2.lsnr][3592312576]{1:34166:403} [检查] CrsCmd ::ClscrsCmdData::stat 实体 5 statflag 32 useFilter 12023-12-28 05:30:17.298: [ora.LISTENER_SCAN2.lsnr][3592312576]{1:34 166: 403} [检查] ScanLsnrAgent::checkDependentVipResource: scanVipResource = ora.scan2.vip,statRet = 02023-12-28 05:30:17.881: [ora.LISTENER_SCAN3.lsnr][2950686464]{1:34166:403} [检查] Utils:execCmd 操作 = 3 个标志 = 38 ohome = (空) cmdname = lsnrctl. 2023-12-28 05:30:17.986: [ora.LISTENER_SCAN3.lsnr][2950686464]{1:34166:403} [检查] execCmd ret = 02023-12-28 05:30:17.987: [ora.LISTENER_SCAN3。 lsnr][2950686464]{1:34166:403} [检查] CrsCmd::ClscrsCmdData::stat 实体 5 statflag 32 useFilter 12023- 12- 28 05:30:18.019: [ora.LISTENER_SCAN3.lsnr][2950686464]{1 :34166:403} [检查] ScanLsnrAgent::checkDependentVipResource: scanVipResource = ora.scan3.vip,statRet = 02023-12-28 05:30:27.292: [ora.asm][2950686464]{2:6928:2} [检查] CrsCmd::ClscrsCmdData::stat 实体 1 statflag 33 useFilter 02023-12-28 05:30:27.319: [ora.asm][2950686464]{2:6928:2} [检查] AsmProxyAgent::check clsagfw_res_status 02023-12-28 05:30:34.522: [ora.ons ][2950686464]{2:6928:2} [检查] getOracleHomeAttrib: oracle_home = /u01/app/11.2.0/grid2023-12-28 05:30:34.522: [ ora.ons][2950686464]{2:6928 :2} [检查] Utils:execCmd 操作 = 3 标志 = 6 ohome = /u01/app/11.2.0/grid/opmn/ cmdname = onsctli. 2023-12-28 05:30:34.627: [ora.ons][2950686464]{2:6928:2} [检查] (:CLSN00010:)ons 正在运行...2023-12-28 05:30:34.627 :[ora.ons][2950686464]{2:6928:2} [检查](:CLSN00010:)2023-12-28 05:30:34.628:[ora.ons][2950686464]{2:6928:2} [检查] execCmd ret = 02023-12-28 05:30:37.858: [ USRTHRD][3575973632]{1:30748:9373} 处理事件 CRS_RESOURCE_STATE_CHANGE2023-12-28 05:30:38.65 2: [ora.LISTENER 。 lsnr][3594413824]{2:6928:2} [检查] Utils:execCmd 操作= 3 个标志 = 38 ohome = (null) cmdname = lsnrctl. 2023-12-28 05:30:38.757: [ora.LISTENER。 lsnr][3594413824]{2:6928:2} [检查] execCmd ret = 02023-12-28 05:30:48.017: [ CRSCOMM][3612317440] IpcC: 到成员 0 的 IPC 客户端连接 6c 已被删除2023 -12- 28 05:30:48.017: [CLSFRAME][3612317440] 删除 IPC 成员:{Relative|Node:0|Process:0|Type:1}2023-12-28 05:30:48.017: [CLSFRAME][3612317440] 已断开连接来自 CRSD:db2 进程:{相对|节点:0|进程:0|类型:1}2023-12-28 05:30:48.020:[代理][3601811200]{0:1:10} {0:1: 10} 创建警报 : (:CRSAGF00117:) : 与服务器断开连接,代理正在关闭。2023-12-28 05:30:48.020: [ AGFW][3601811200 ]{0:1:10} 代理正在退出并显示退出代码: 1

检查两个节点的/var/log/messages日志,发现两个节点都有多路径相关的错误信息,但相关磁​​盘是用于备份,不是用于生产数据库使用

12 月 30 日 05:25:31 db1 multipathd: backup2: sdcr - emc_clariion_checker: 查询命令指示 errorDec 30 05:25:31 db1 multipathd:检查器在映射 backup2Dec 30 05:25:31 db1 内核中检查失败路径 69:240:设备映射器:multipaTh:失败路径 69:240.DEC 30 05:25:31 db1 multipathd: backup2:剩余活动路径:3dec 30 05:25:37 db1 multipup2:sdcr-emc_clarIION_C hecker:活动路径正常。dec 30 05:25 :37 db1 multipathd:69:240:恢复Dec 30 05:25:37 db1 multipathd: backup2:剩余活动路径:4Dec 30 05:25:37 db1 内核:sd 5:0:3:2: emc: 检测到 ALUA 故障转移模式Dec 30 05:25:37 db1 内核:sd 5:0:3:2: emc :在 SP A 端口 5(拥有,默认 SP A)12 月 30 日 05:26:03 db1 内核:qla2xxx [0000:05:00.1] -801c:5:发出中止命令 nexus=5:3:4 -- 1 2002 .Dec 30 06:03:35 db1 CLSD:主机 db1 上的时钟已由集群时间同步服务更新为与平均集群时间同步。12 月 30 日 06:15:23 db1 multipathd: backup3: sdcq - emc_clariion_checker: WWN 600601608b20 3300d563752524c1e611 读取错误。感应数据为 0x0/ 0x0/0x0.Dec 30 06:15:23 db1 kernel: qla2xxx [0000:05:00.1]-801c:5: 发出中止命令 nexus=5:3:1 -- 1 2002.Dec 30 06:15:23 db1 内核: 设备映射器: 多路径: 失败路径 69: 224.Dec 30 06:15:23 db1 multipathd:检查器在地图 backup3Dec 30 06:15:23 db1 multipathd:backup3:剩余活动路径中失败路径 69:224:剩余活动路径:3Dec 30 06:15:28 db1 multipathd:backup3:sdcq - emc_clariion_checker:活动路径正常。Dec 30 06:15:28 db1 multipathd:69:224:reinstatedDec 30 06:15:28 db1 multipathd:backup3:剩余活动路径:4Dec 30 06:15:28 db1 内核:sd 5: 0:3:1: emc: 检测到 ALUA 故障转移模式Dec 30 06:15:28 db1 内核: sd 5:0:3:1: emc: 在 SP A 端口 5(拥有,默认 SP A)Dec 30 06:59: 29 db1 CLSD:主机 db1 上的时钟已由群集时间同步服务更新为与平均群集时间同步。Dec 30 07:53:22 db1 CLSD:主机 db1 上的时钟已由群集时间同步服务更新与平均集群时间同步。Dec 30 07:55:11 db1 multipathd: sdct:无法获得非对称访问 stateDec 30 07:55:11 db1 multipathd: backup4: load table [0 2147483648 multipath 2queue_if_no_path keep_attached_hw_handler 1 emc 2 1 循环 0 2 1 70:16 1 66:240 1 循环 0 2 1 8:64 1 67:80 1]Dec 30 07:55:11 db1 内核:sd 5:0:3:4:emc:检测到 ALUA 故障转移模式Dec 30 07:55:11 db1 内核:sd 5:0:3 :4: emc: 在 SP A 端口 5(拥有,默认 SP A)Dec 30 07:55:11 db1 内核:sd 4:0:3:4: emc: 检测到 ALUA 故障转移模式Dec 30 07:55:11 db1 内核:sd 4:0:3:4:emc:位于 SP A 端口 4(拥有,默认 SP A)12 月 30 日 07:55:35 db1 multipathd:backup2:sdcr - emc_clariion_checker:WWN 600601608b203300d663752524c1e611 的读取错误。感知数据为 0x0/0x0/0x0.Dec 30 07:55:35 db1 multipathd:检查器在地图 backup2Dec 30 07:55:35 中检查器失败路径 69:240 db1 multipathd:backup2:剩余活动路径:3Dec 30 07:55:35 db1 内核:设备映射器:多路径:失败路径 69:240.Dec 30 07:55: 40 db1 multipathd: backup2: sdcr - emc_clariion_checker:Activepath 正常hy.Dec 30 07:55:40 db1 multipathd:69:240:reinstatedDec 30 07:55:40 db1 multipathd:backup2:剩余活动路径:4Dec 30 07:55:40 db1 内核:sd 5:0:3 :2 : emc:检测到 ALUA 故障转移模式Dec 30 07:55:40 db1 内核:sd 5:0:3:2:emc:位于 SP A 端口 5(拥有,默认 SP A)Dec 30 08:39:47 db1 CLSD:主机 db1 上的时钟已由群集时间同步服务更新为与平均群集时间同步。Dec 30 08:43:36 db1 multipathd: mpathb: load table [0 20971520 multipath 2queue_if_no_path keep_attached_h w_handler 1 emc2 1 round-robin 0 2 1 69:208 1 66:176 1 循环 0 2 1 8:0 1 67:16 1]Dec 30 08:43:36 db1 内核:sd 5:0:3:0:emc:ALUA 故障转移模式检测到Dec 30 08:43:36 db1 内核:sd 5:0:3:0: emc: 在 SP A 端口 5(拥有,默认 SP A)Dec 30 08:43:36 db1 内核:sd 4 :0:3: 0:emc:检测到 ALUA 故障转移模式Dec 30 08:43:36 db1 内核:sd 4:0:3:0:emc:位于 SP A 端口 4(拥有,默认 SP A)Dec 30 09:24 :04 db1 CLSD:主机 db1 上的时钟已更新为群集时间同步服务与平均群集时间同步。Dec 30 10:13:09 db1 CLSD: 主机 db1 上的时钟已由群集时间同步服务更新为与平均群集时间同步。Dec 30 11 :06:07 db1 CLSD:主机 db1 上的时钟已由群集时间同步服务更新为与平均群集时间同步。12 月 30 日 12:07:36 db1 CLSD:主机 db1 上的时钟已由群集时间同步服务更新群集时间同步服务与平均群集时间同步。12 月 30 日 13:08:58 db1 CLSD:主机 db1 上的时钟已由群集时间同步服务更新为与平均群集时间同步。12 月 30 日 14: 00:19 db1 CLSD:主机 db1 上的时钟已由群集时间同步服务更新为与平均群集时间同步。12 月 30 日 14:52:20 db1 CLSD:主机 db1 上的时钟已由群集更新时间同步服务与平均时钟同步uster time.Dec 30 15:40:45 db1 CLSD:主机 db1 上的时钟已由集群时间同步服务更新为与平均 clustertime 同步。Dec 30 16:34:38 db1 CLSD:主机 db1 上的时钟主机 db1 已由集群时间同步服务更新为与平均集群时间同步。Dec 30 17:09:56 db1 Auditd[15975]:审核守护程序轮换日志文件Dec 30 17:38:16 db1 CLSD:时钟开启主机 db1 已由群集时间同步服务更新为与平均群集时间同步。12 月 30 日 18:59:38 db1 CLSD:主机 db1 上的时钟已由群集时间同步服务更新为与平均群集时间同步cluster time.Dec 30 19:54:43 db1 CLSD: 主机 db1 上的时钟已被集群时间同步服务更新为与平均集群时间同步。

检查集群相关日志后,可以确定是由于存储盘IO问题(或者是Flash灯中断,或者是IO Delay),导致集群CRS异常崩溃。不过奇怪的是,虽然CSR离线了,但是ASM实例和DB实例却没事,依然可以正常使用。查询oracle support发现有文章1581864.1?提到ASM CRS仲裁盘访问超时与隐藏参数_asm_hbeatiowait有关,ASM的隐藏参数_asm_hbeatiowait与操作系统的多路径Multipath配置的polling_interval有关。失败的具体原因是操作系统。磁盘的访问超时远大于数据库ASM仲裁盘的访问超时,导致ORACLE RAC判断ASM中的仲裁盘无法访问并强制仲裁盘下线。解决办法是:首先确定操作系统polling_interval参数和数据库ASM隐藏参数值_asm_hbeatiowait,调整_asm_hbeatiowait的值大于n polling_interval 值。
具体解决操作如下:
1.检查数据库RAC ASM的_asm_hbeatiowait值(默认15秒):

SQL> col ksppinm for a20SQL> col ksppstvl for a40SQL > col ksppdesc for a80SQL> SELECT ksppinm, ksppstvl, ksppdesc 2   FROM x $ksppi x, x$ksppcv y 3 其中 x.indx = y.indx AND ksppinm = '_asm_hbeatiowait';KSPPINM        KSPPDESC-------------------- ------ -------------------------------------------------------- ------ -------------------------------------------------------- ------ ---------------_asm_hbeatiowait 15 15 秒等待 PST 异步 Hbeat IO 返回

2.查看操作存储磁盘访问超时时间(Oracle Linux 6.7默认为30秒)

[root@db1 ~]# cat /sys/ block/sdb/device/timeout 30[root@db2 ~]# cat /sys/block/sdb/device/timeout 30

3.将_asm_hbeatiowait的值调整为45秒(该参数为静态参数,需要重启集群)

SQL> alter system set"_asm_hbeatiowait"=45 scope=spfile sid='*';系统已更改。

4.重启集群

5.检查集群状态

[grid@db1 ~]$ crsctl stat res -t------------------------ ----- -------------------------------------------------------- ----- --名称目标状态服务器 STATE_DETAILS ------------------------------------------ -- ---------------------------------------本地资源--------- ---- ---------------------------------------------------------- ---- ------------------ora.ARCH.dg                                                                                                                                                                                                                         ora.CWDATA.dgnbsp;在线 在线 db1 db2                    ora.DADATA.dg                                                                                                                                                                                                                                     到期。在线在线数据库1                                                                                                                   B1;在线 db2 db1 ora.OCR.dg 在线 db1 在线在线 db2   在线在线 db2 ora.asm   在线在线 db2 ora.asm   在线在线 db1 已启动                                                                             在线 db1sp;在线 在线 db2 db1 ora.ons                                                                                                                                                                                                                                             sp; --------------------------------集群资源---------------- -------------------------------------------------- -------------- Ora.Listener_Scan1.lsnr 1 在线 在线 DB2 Ora.listener_SCAN2.LSNR 1 在线 在线 DB1                          ora.LISTENER_SCAN3.lsnr自从。 ora.caiwu.db 1 在线 在线 db1 打开   b1                                                                                                                                                                                                 sp; db2 打开 ora.dadb.db 1   ONLINE   ONLINE   db1                                                                                2 在线 在线 DB2 打开 Ora.db1.vip 1在线留言 在线留言 DB1 Ora.db2.vip 1 在线留言 在线留言db2                                                                                                                                                                                                               ora.rlzy.db 1 在线 在线 db1 打开 db2                                                                                                                           在线 db1 db1 ora.scan3 .vip 1 在线 db1

处理完成。

感谢您的阅读。以上就是《Oracle Linux 6.7中Oracle 11.2.0.4 RAC集群的CRS异常处理方法是什么》的内容。看完这篇文章,相信你就会明白了。对Oracle Linux 6.7中Oracle 11.2.0.4 RAC集群的CRS异常处理方式是什么的问题有了更深入的了解。具体用法需要在实践中验证。在此,小编将为大家推送更多相关知识点的文章,欢迎关注!

1. 本站所有资源来源于用户上传或网络,仅作为参考研究使用,如有侵权请邮件联系站长!
2. 本站积分货币获取途径以及用途的解读,想在本站混的好,请务必认真阅读!
3. 本站强烈打击盗版/破解等有损他人权益和违法作为,请各位会员支持正版!
4. 编程技术 > Oracle Linux 6.7中Oracle 11.2.0.4 RAC集群的CRS异常处理方法是什么?

用户评论