故障描述
一臺SM+SC+數(shù)據(jù)庫,兩臺SC+數(shù)據(jù)庫分布式部署。
TSM的監(jiān)控器Monitor監(jiān)控到兩臺SC有告警,提示與TSM服務(wù)器心跳連接異常,F(xiàn)TP服務(wù)器提示與鏡像FTP連接異常。通過ping測試,發(fā)現(xiàn)SM與各SC網(wǎng)絡(luò)連接正常,與各數(shù)據(jù)庫連接正常,與各FTP連接也正常。
故障分析
從日志分析,SC都是由于連接數(shù)超過最大連接數(shù),無法打開數(shù)據(jù)庫連接,無法查詢各SC和SACG的狀態(tài)導(dǎo)致告警。
處理過程
1、采集兩臺SC,通過日志分析,兩臺SC都有由于達(dá)到連接最大數(shù)導(dǎo)致SC狀態(tài)異常,SC不停的連接SM的遠(yuǎn)程接口.
2、進(jìn)一步采集SM日志,同樣發(fā)現(xiàn)大量的連接數(shù)據(jù)庫失敗的問題.
3、查看數(shù)據(jù)庫日志(包括錯(cuò)誤日志和事務(wù)日志),發(fā)現(xiàn)日志很大。因此SC在連接數(shù)據(jù)庫是有大量的連接失敗,導(dǎo)致各種告警.
4、進(jìn)行數(shù)據(jù)清理和數(shù)據(jù)轉(zhuǎn)儲(chǔ),將數(shù)據(jù)庫空間釋放出來,解決問題。
建議/總結(jié)
無