服務(wù)器CPU占用率高的定位分析
背景
通過性能監(jiān)控發(fā)現(xiàn)上線服務(wù)器cpu某核占用率已經(jīng)達到了100%,而且是由我們的某個核心服務(wù)導(dǎo)致的。幸虧由于我們的服務(wù)進程由多個相同worker(線程)調(diào)度承擔(dān)的,所以除了CPU占用率高之外,并沒有對服務(wù)造成影響。隨著上次我們找到那個吃IO的罪犯,這次我們要追捕的是潛伏在團體中的特務(wù),更加驚險刺激喲!
系統(tǒng)環(huán)境
用top命令很容易定位到是誰占用CPU最高。
以我們的這個業(yè)務(wù)進程(imDevServer)舉例,為什么說這貨是個潛伏者呢?因為這是個多線程的進程,我們要知道實際上占用cpu的最小單位是線程,所以肯定是眾線程中的某一個或幾個占用CPU過高導(dǎo)致的。再用top -H -p pid命令查看進程內(nèi)各個線程占用的CPU百分比。
如上圖所示我們可以看出id為8863的線程cpu占用率最高。好,我們現(xiàn)在只要能找到他偷走的cpu就好了,雖然這小子嘴巴嚴,但是我們有一套完善的審問流程,不怕他不招。首先出馬的是strace -T -r -c -p pid命令
它的作用是查看系統(tǒng)調(diào)用和花費的時間,epoll_wait雖然占用的調(diào)用時間多,但是他本身是個正常的阻塞調(diào)用。我們接著讓pstack pid出馬
可以看到每個線程的調(diào)用堆棧,找到已經(jīng)找出的占用CPU最高的那個線程,然后看他的調(diào)用堆棧,很容易看出在哪一步邏輯上導(dǎo)致了busy loop,再使用trace -p tid看看線程的調(diào)用過程接著定位到代碼,修復(fù)bug,找回被偷走的cpu。