救火隊員的那些事(2)

發(fā)布時間：2016年12月21日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點擊查看原文)

　這次救的火救的時間有點長，持續(xù)一年多，總共4次，每次去廈門大概1個月左右，每次去救火都是頂著巨大的壓力，還好每一次我都不錯的活著回來了。

　　這個項目與很多要救火的項目一樣，項目交付第一，質(zhì)量被拋在后面，幾十人的團隊不斷往上堆需求，沒有人做架構(gòu)看護，沒有人真正關(guān)注能否持久，只要功能實現(xiàn)了，暫時不出問題了，沒有人care你的代碼寫的怎么樣，可維護性怎么樣。

　　在這四次救火中，舉2個印象最深的例子，有一天晚上9點多，領(lǐng)導(dǎo)給我打電話說廈門某項目的系統(tǒng)今天下午系統(tǒng)掛了一次，他們在那邊搞不定，希望我能出差支持一下，我說好的那我明天去，領(lǐng)導(dǎo)說能否今天晚上就去，沒辦法，訂了10點多的機票，匆匆忙忙的趕到機場，由于飛機晚點，到廈門已經(jīng)是凌晨2點了。到了以后，我還沒找到地方住下，廈門這邊的PM就給我打電話，直接去他們的辦公場所解決問題，于是直接去了廈門軟件園，到了以后，當(dāng)時心里是很感動的，因為還有一波人在那里等著我一起和他們解決問題，想想大家都挺不容易的。

　　于是開啟了我連續(xù)2天2夜沒有睡覺的先河，接下來在11天的時間里每天凌晨2到3點回酒店。先不說這些苦逼的加班了，再多的加班，如果不能解決問題，都是徒勞的。我們先是把之前發(fā)現(xiàn)的一些問題做了梳理，然后我開始閱讀他們寫的代碼，開始優(yōu)化，測試，但是在頭2天里，仍然抵擋不住用戶訪問的洪流，系統(tǒng)在連接2天上午高峰期間掛了，下午掛了，甲方的在當(dāng)?shù)刈畲蟮念I(lǐng)導(dǎo)就站在我們的背后看著我們的系統(tǒng)掛了，重啟。當(dāng)時的心理壓力是巨大的，但是我心里有底的，因為在前面幾年磨練中，我已經(jīng)遇到過絕大多數(shù)的問題，我對linux操作系統(tǒng)有足夠的了解，我對java有足夠的了解。

　　但是一開始開出的藥方，似乎總是命不中要害。這時已經(jīng)臨近春節(jié)還有十多天的時間了，領(lǐng)導(dǎo)發(fā)話，如果此問題不解決，除了扣分以外(影響收入），所有的人春節(jié)都不允許回家。雖然外部不斷的施壓，但是當(dāng)時我還是有信心解決的，我仍然在不斷的在現(xiàn)網(wǎng)patch代碼，分析日志，直到第3天，我給出一個當(dāng)時絕大多數(shù)同事都不太認(rèn)可的方案，將合并部署的數(shù)據(jù)庫單獨遷移到單獨的數(shù)據(jù)庫服務(wù)器上。他們認(rèn)為這個方案的成本太高，從服務(wù)器的下單、到貨、安裝在短短十天的時間很難完成，如果遷移到新的數(shù)據(jù)庫上仍沒有解決問題，我們就一點退路就沒有了。大部分人都不同意這個方案，而我相信自己的分析，一遍遍的拿出充分的數(shù)據(jù)做圖表分析，當(dāng)時幸虧自己熟練的寫perl腳本，做了很多分析的工作。為什么要遷數(shù)據(jù)庫到新的數(shù)據(jù)庫?

　　我們的系統(tǒng)的數(shù)據(jù)庫是和另外一個系統(tǒng)的數(shù)據(jù)庫是合并部署在一臺小型機上，這臺小型機號稱是IBM性能最猛的服務(wù)器，內(nèi)存好像是128G,處理器是64核，因為我發(fā)現(xiàn)我們的系統(tǒng)的sql的執(zhí)行時間不穩(wěn)定，從單個sql來看，執(zhí)行時間最高的時候會比正常的時間高于30%左右，這樣看來問題不明顯，但是不要忘了，我們?yōu)槭裁磼斓墓δ苁且粋€非常復(fù)雜的功能，一個流程有大量的sql執(zhí)行，如果這些sql執(zhí)行時間都很慢，那么整個流程就會慢很多。這也是為什么他們懷疑的

分類導(dǎo)航

救火隊員的那些事(2)

延伸閱讀

我想了解如何學(xué)習(xí)