閱讀目錄
最近有個用戶量 5W-10W 的 web 應(yīng)用,頻繁導(dǎo)致 weblogic 崩潰,讓運維組很難受。
通過幾天跟蹤系統(tǒng)日志和 weblogic 運行狀況,發(fā)現(xiàn)報錯的姿勢有很多,其中對定位問題比較關(guān)鍵的報錯:
ExecuteThread: '496' for queue: 'weblogic.kernel.Default (self-tuning)' has beenbusy for "712" seconds working on the request "XXXX", which is more than the configured time (StuckThreadMaxTime) of "600" seconds.
weblogic 分配給 web 應(yīng)用使用的線程響應(yīng)返回周期最大為10分鐘,線程遲遲無法返回結(jié)果導(dǎo)致阻塞,并且這樣的刺頭線程越來越多。
運行一段時間后達到 weblogic 阻塞線程的閥值,weblogic 自然就崩潰了。
剛開始也試著調(diào)大 weblogic 響應(yīng)周期/阻塞線程的閥值,但是阻塞線程還是會存在并且很快達到閥值。
仔細比對奔潰前后日志,查看 weblogic 阻塞線程詳情,導(dǎo)致阻塞開始罪魁禍首是數(shù)據(jù)庫查詢需要很長時間。
該系統(tǒng)與內(nèi)外圍很多廠商系統(tǒng)有進行數(shù)據(jù)交互,數(shù)據(jù)庫里面旁根錯雜的 db_link/synonyms/view/procedure。