2013年3月 – Oracle and Linux

从Oracle 10g开始，Oracle给广大DBA提供了一个性能优化的利器，那便是Automatic Workload Repository性能报告。

在拿到一份AWR性能报告后，通过分析AWR报告来定位数据库性能问题时，在AWR报告的报告头中，我们会看到类似如下的一些命中率指标：

Instance Efficiency Percentages [Target 100%]

Buffer Nowait %:	99.87	Redo NoWait %:	99.95
Buffer Hit %:	95.89	In-memory Sort %:	100.00
Library Hit %:	86.87	Soft Parse %:	99.26
Execute to Parse %:	91.37	Latch Hit %:	99.73
Parse CPU to Parse Elapsd %:	53.78	% Non-Parse CPU:	98.18

那么，这些关于Oracle内存的几个关键指标以及Instance效率的几个指标又该如何理解呢？

1 这几个指标重要，但是通过这些命中率指标并非就可以定位到问题的关键所在。如上，我们看到各项指标基本都很高，除Parse CPU to Parse Elapsd %:只有53.78%之外，但是，该统计数据是来自于一则生产环境下出现严重性能问题的一个小时采样数据。

2 分别对上述表格中各项指标作一初步解释：

① Buffer Nowait %:表示会话向Database Buffer Cache【数据高速缓冲区】申请1个缓存时不等待的比例；

② Buffer Hit %:表示数据高速缓冲区的命中率，也叫Cache Hit Ratio。该指标要分实际业务系统类型来分析，如OLAP系统，该值可能为20%就算合理，而对于OLTP系统来讲，理想值应该在90%以上。当然，并非该值达到100%就没问题了，系统中可能依然难以避免物理读等待。计算脚本：

SELECT (1 - (phys.value / (db.value + cons.value))) * 100 AS "Buffer Cache Hit Ratio"                                            
FROM   v$sysstat phys,                                    
       v$sysstat db,                                      
       v$sysstat cons                                     
WHERE  phys.name  = 'physical reads'                      
AND    db.name    = 'db block gets'                       
AND    cons.name  = 'consistent gets';

③ Library Hit %:Library Cache Hit Ration【库高速缓冲区命中率】，表示向共享池的Library Cache中申请1个Library Cache Object对象时，其已经在Library Cache中存在的比例。该指标的一个合理值应该达到95%以上。计算脚本：

SELECT (1 -(Sum(reloads)/(Sum(pins) + Sum(reloads)))) * 100 AS "Library Cache Hit Ratio"                                              
FROM   v$librarycache;

④ Execute to Parse %:表示执行解析比，目标是希望一次解析多次执行，计算公式=[1-(parse count (total)/(execute count)]%=[1-1257816/14576118]%=91.37%,其中parse count (total)来源于V$SYSSTAT中的parse count (total)字段值，execute count则取值于execute count的字段值。同时在同一份AWR报告中，parse count (total)和execute count的值可以从AWR报告的Instance Activity Stats章节中获取，如下摘录：

Instance Activity Stats

Ordered by statistic name

Statistic	Total	per Second	per Trans
Batched IO (bound) vector count	560,211	157.69	28.15
CPU used by this session	1,434,831	403.88	72.10
。。。。。	。。。	。。。	。。。
execute count	14,576,118	4,102.96	732.43
。。。。。	。。。	。。。	。。。
parse count (describe)	9	0.00	0.00
parse count (failures)	28	0.01	0.00
parse count (hard)	9,364	2.64	0.47
parse count (total)	1,257,816	354.06	63.20
parse time cpu	26,723	7.52	1.34
parse time elapsed	49,687	13.99	2.50
redo entries	7,072,485	1,990.80	355.38
redo log space requests	3,665	1.03	0.18
。。。。。	。。。	。。。	。。。
sorts (disk)	7	0.00	0.00
sorts (memory)	22,108,325	6,223.16	1,110.92
。。。。。	。。。	。。。	。。。
。。。。。	。。。	。。。	。。。
write clones created in foreground	2,243	0.63	0.11

⑤ Parse CPU to Parse Elapsd %:该指标表示解析消耗的CPU时间与解析消耗的总时间的比值，目标同样是100%。我们当然希望解析的过程中，时间都消耗在CPU上，而不希望在解析的过程中，出现其他等待事件而拉长解析消耗的总时间。如果该指标偏低的话，说明在解析的过程中，除了消耗CPU资源外，还有其它等待事件，如等待共享池对象、闩锁。计算公式=[parse time cpu/parse time elapsed]%,parse time cpu和parse time elapsed同样来自于V$SYSSTAT，也可以参照AWR报告中Instance Activity Stats章节中的数据，如：Parse CPU to Parse Elapsd %:=[26723/49687]%=53.78%。

⑥ Redo NoWait %:表示会话写Redo Entry时不等待的比例。计算公式=[1-redo log space requests/redo entries]%，同样该两项指标来自于V$SYSSTAT字典表，也可以参照AWR报告中Instance Activity Stats章节中的数据，如Redo NoWait %:=[1-3665/7072485]%=[1-0.0005]%=99.95%。

⑦ In-memory Sort %:表示在内存中排序的比例。计算公式=[1-sorts (disk)/sorts (memory)]%，同样该两项指标来自于V$SYSSTAT字典表，也可以参照AWR报告中Instance Activity Stats章节中的数据，如In-memory Sort %:=[1-7/22108325]%=99.9999%。

⑧ Soft Parse %:表示软解析比例。计算公式=【1-parse count (hard)/parse count (total)】,同样该两项指标来自于V$SYSSTAT字典表，也可以参照AWR报告中Instance Activity Stats章节中的数据，如Soft Parse %:=[1-9364/1257816]%=99.26%。

⑨ Latch Hit %:表示以 willing-to-wait 方式去获取内存栓锁的命中率指标，通常这个指标要求至少在99%以上，否则，很有可能意味着大量栓锁等待，影响性能。该值来源于V$LATCH字典表中的GETS和MISSES字段值计算脚本：

SELECT (1 - (Sum(misses) / Sum(gets))) * 100 AS "Latch Hit Ratio"                               
FROM   v$latch;

⑩ % Non-Parse CPU:表示除解析之外CPU的使用率，计算公式=【1-(parse time cpu)/(CPU used by this session)】%。同样该两项指标来自于V$SYSSTAT字典表，也可以参照AWR报告中Instance Activity Stats章节中的数据，如% Non-Parse CPU:=[1-26723/1434831]%=98.18%。

上周五，接到项目组同事电话通知，说某客户应用系统无法登陆。我在应用服务器端用PL/SQL Developer尝试连接数据库服务器时，报错“ORA-00018:maximum number of sessions exceeded”，显然又是连接数不够用了。

就电话回复同事说，赶紧检查一下各应用服务器的连接情况，原因是数据库连接数又不够用了。结果，同事接完电话之后，直接关闭了其中的一台IIS应用服务器，然后再启动这台IIS应用服务器。结果是，应用系统恢复了使用，大约20分钟后，却带了整个数据库的性能急剧下降，数据库Hung住，几乎不可用的状态。

这是一套Windows 2003+10.2.0.5 X64的双节点RAC系统，接下来，就迅速抓取AWR报告，进行问题的定位：

节点1的报告头：

	Snap Id	Snap Time	Sessions	Cursors/Session
Begin Snap:	6981	01-3月 -13 14:00:17	64	14.9
End Snap:	6982	01-3月 -13 15:00:13	186	17.2
Elapsed:		59.94 (mins)
DB Time:		2,215.01 (mins)

节点2的报告头：

	Snap Id	Snap Time	Sessions	Cursors/Session
Begin Snap:	6981	01-3月 -13 14:00:14	65	14.2
End Snap:	6982	01-3月 -13 15:14:21	178	25.0
Elapsed:		74.12 (mins)
DB Time:		2,991.16 (mins)

从上可以看到，在每个节点上，这一时段的数据库负载都很高，至少要比正常业务期间负载高出很多。同时，也看到，数据库连接数出现较为不太正常的连接。

节点1的Top 5事件：

Event	Waits	Time(s)	Avg Wait(ms)	% Total Call Time	Wait Class
db file sequential read	210,093	48,731	232	36.7	User I/O
enq: US – contention	73,040	36,420	499	27.4	Other
log file sync	146,401	14,330	98	10.8	Commit
row cache lock	11,636	13,801	1,186	10.4	Concurrency
CPU time		9,314		7.0

节点2的Top 5事件：

Event	Waits	Time(s)	Avg Wait(ms)	% Total Call Time	Wait Class
row cache lock	33,305	49,524	1,487	27.6	Concurrency
enq: US – contention	94,368	46,710	495	26.0	Other
db file sequential read	450,346	38,795	86	21.6	User I/O
CPU time		16,797		9.4
direct path write temp	18,587	13,857	746	7.7	User I/O

看到，在2个节点上均出现了row cache lock和enq: US – contention的等待事件，尤其是第2个节点上更为严重。对于row cache lock等待事件，之前曾遇到过相关案例，原因同样是由于高并发的RAC环境下，sequence没有CACHE，迅速定位并解决了这个问题。

那么，这个enq: US – contention等待事件究竟是什么呢？Google之，找到了类似的案例：异常终止会话导致系统被Hung，以及ITPUB上的一篇帖子：row cache lock+us contention=宕机
原来，导致enq: US – contention等待事件的原因是Undo表空间不够导致的。结合上述案例的提示，原来是因为同事直接停止IIS应用服务器，导致Oracle需要回滚之间的事务，这样，如果之前的事务比较大的话，那么整个回滚的时间也将越长。同时，还有一种可能就是，当初的ACTIVE事务因为停止IIS导致了被强制终止，这样一来，该事务占有的回滚段资源没有释放出来。等到IIS重启之后，新连接上来的会话因为事务操作，需要分配新的UNDO表空间，结果导致了enq: US – contention等待事件。

参照上述的两则案例，找出紧急解决办法，由于是RAC，这里交叉重启了2个节点，最后问题得到解决。

Archive 2013年3月18日

关于AWR报告中几个命中率指标的初步解释

同时遭遇row cache lock和enq: US – contention的等待事件