眾所周知,IM 即時通訊是一項(xiàng)對即時性要求非常高的技術(shù),而保障消息即時到達(dá)的首要條件就是鏈路存活。那么在復(fù)雜的網(wǎng)絡(luò)環(huán)境和國內(nèi)安卓手機(jī)被深度定制化的條件下,如何保障鏈路存活呢?本文詳解了融云安卓端 SDK 在基于 TCP 協(xié)議實(shí)現(xiàn)鏈路?;罘矫娴奶剿骱徒?jīng)驗(yàn)。
IM 系統(tǒng)整體框架
如上圖所示,為了保障鏈路存活,一套成熟的 IM 系統(tǒng)一般會包含消息鏈路和推送鏈路兩條長連接通道。當(dāng)有新消息到達(dá)時,消息服務(wù)首先會判斷消息鏈路是否存活,如果消息鏈路處于存活狀態(tài),消息優(yōu)先從消息鏈路下發(fā)到客戶端,否則會被路由到推送服務(wù)器,由推送鏈路下發(fā)。
綜上所述,鏈路保活涉及到消息鏈路和推送鏈路兩條鏈路的?;畈呗??;谶@兩條鏈路使用場景的不同,?;畈呗陨铣诵奶鴻C(jī)制是相同的,其它?;畈呗愿饔胁煌?。下面將詳細(xì)講解。
鏈路?;畹谋匾?/strong>
基于 TCP 的 Socket 連接建立之后,如果不做任何處理,這個連接會長時間存在并且可用嗎?答案是否定的。原因有兩點(diǎn):
一、默認(rèn) Socket 連接無法及時探測到鏈路的異常情況,即使將 Socket 的屬性參數(shù) keepAlive 設(shè)置為 true 仍然無法及時獲取到鏈路存活狀態(tài)。這是因?yàn)?Socket 的連接狀態(tài)是由一個狀態(tài)機(jī)進(jìn)行維護(hù)的,連接完畢后,雙方都會處于建立狀態(tài)。假如某臺服務(wù)器因?yàn)槟承┰驅(qū)е仑?fù)載超高,無法及時響應(yīng)業(yè)務(wù)請求,這時 TCP 探測到的仍然是連接狀態(tài),而實(shí)際上此鏈路已經(jīng)不可用了。
二、國內(nèi)運(yùn)營商的 NAT 超時機(jī)制會把一定時間內(nèi)沒有數(shù)據(jù)交互的連接斷開,這個時間可能只有幾分鐘,遠(yuǎn)無法滿足我們的長連接需求。
通用?;顧C(jī)制 - 心跳機(jī)制
基于以上原因,要維持 Socket 連接長時間存活,就需要實(shí)現(xiàn)自己的?;顧C(jī)制。最通用的一種?;顧C(jī)制就是心跳機(jī)制。即客戶端每隔一段時間給服務(wù)器發(fā)送一個很小的數(shù)據(jù)包,根據(jù)能否收到服務(wù)器的響應(yīng)來判斷鏈路的可用性。為了節(jié)省流量,這個包一般非常小,甚至沒有內(nèi)容。
那么客戶端如何實(shí)現(xiàn)定時發(fā)送心跳包呢?一般有兩種方式:
一種是通過 Java 里的 Timer 來實(shí)現(xiàn)。最基本的步驟如下:
1、建立一個要執(zhí)行的任務(wù)TimerTask。
2、創(chuàng)建一個Timer實(shí)例,通過Timer提供的schedule()方法,將 TimerTask 加入到定時器Timer 中,設(shè)置每隔一段時間執(zhí)行 TimerTask , 在 TimerTask 里發(fā)送心跳包。這種方式實(shí)現(xiàn)起來較簡單,而且省電,不需要持有 WakeLock 。缺點(diǎn)也很明顯,長時間在后臺,進(jìn)程被回收或者系統(tǒng)休眠后, Timer 機(jī)制隨之失效。
另外一種方式是利用安卓系統(tǒng)的定時任務(wù)管理器 AlarmManager 循環(huán)執(zhí)行發(fā)送心跳包的任務(wù)。這種方式不會因?yàn)橄到y(tǒng)休眠而失效,系統(tǒng)休眠后仍然可以通過 WakeLock 喚醒,執(zhí)行心跳任務(wù),因此相對 Timer 機(jī)制,這種方式比較費(fèi)電,使用的時候一定要注意如下幾點(diǎn):
首先根據(jù)需求合理使用 AlarmManager 的鬧鐘參數(shù)。鬧鐘各參數(shù)的區(qū)別參考下表:
其次 AlarmManager 提供了 cancel() 方法,在設(shè)置新的定時任務(wù)前,通過 cancel() 方法取消系統(tǒng)里設(shè)置的同類型任務(wù),避免設(shè)置冗余任務(wù)。
最后,安卓從 6.0 版本引入了 Doze 模式,并提供了新的鬧鐘設(shè)置方法 setExactAndAllowWhileIdle(),通過該方法設(shè)置的鬧鐘時間,系統(tǒng)會智能調(diào)度,將各個應(yīng)用設(shè)置的事務(wù)統(tǒng)一在一次喚醒中處理,以達(dá)到省電的目的。推薦在安卓 6.0 以上系統(tǒng)中,優(yōu)先使用該方法。
消息鏈路?;顧C(jī)制
消息鏈路作為收發(fā)消息的主要通道,需要最大程度保障鏈路的可用性。在鏈路不可用或者異常斷開時,能及時探測并啟動重連等保障機(jī)制?;谝陨咸匦?,消息鏈路除了前面所說的心跳機(jī)制外,還另外維護(hù)了兩套鏈路優(yōu)化機(jī)制:復(fù)合連接機(jī)制和重連機(jī)制。
復(fù)合連接機(jī)制的基本步驟如下:
1. 客戶端連接導(dǎo)航服務(wù)器,導(dǎo)航服務(wù)器會下發(fā)應(yīng)用對應(yīng)的配置信息,其中包括連接服務(wù)器的地址列表。
2. 客戶端從第一個服務(wù)器地址嘗試連接,并啟動超時機(jī)制,如果連接失敗或沒有及時收到服務(wù)響應(yīng), 則繼續(xù)嘗試連接下一個直到成功連接,將成功連接的地址保存到本地,作為最優(yōu)地址,后面連接時優(yōu)先使用此地址。通過這種機(jī)制,能保障客戶端優(yōu)先選用最優(yōu)鏈路,縮短連接時間。
重連機(jī)制,則是指業(yè)務(wù)層在檢測到與服務(wù)器的連接斷開后,嘗試 N 次重新連接服務(wù)器,首次斷開 1 秒后會重新連接,如果仍然連接不成功,會在 2 秒后(重連間隔時間為上次重連間隔時間乘 2 )嘗試重新連接服務(wù)器,以此類推當(dāng)嘗試重連 N 次后,仍然連不上服務(wù)器將不再嘗試重新連接,只有在網(wǎng)絡(luò)情況發(fā)生變化或重新打開應(yīng)用時才會再次嘗試重連。
推送鏈路?;顧C(jī)制
推送鏈路作為消息到達(dá)的補(bǔ)充手段,要求盡可能延長在后臺的存活時間。即使被殺后,仍然能被再次喚醒。iOS 手機(jī)有 APNS 來達(dá)到以上效果,但安卓的官方推送系統(tǒng) FCM 在國內(nèi)基本不可用。那在國內(nèi)安卓系統(tǒng)上如何保障推送到達(dá)呢?首先咱們需要先了解下安卓系統(tǒng)上進(jìn)程管理的兩大機(jī)制:
一種是 LMK 機(jī)制,英文是 Low Memory Killer, 基于 Linux 的內(nèi)存管理機(jī)制衍生而來。主要是通過進(jìn)程的 oom_adj 值來判定進(jìn)程的重要程度,從而決定是否回收這些進(jìn)程。oom_adj 的值越低,代表重要度越高,比如 native 進(jìn)程,framework 層啟動的系統(tǒng)進(jìn)程,優(yōu)先級一般都為負(fù)數(shù)。其次是前臺可見進(jìn)程,系統(tǒng)也不會回收。然而可見進(jìn)程退到后臺后, oom_adj 的值會立即升高,在系統(tǒng)定時清理時被殺。
另外一種機(jī)制是安卓原生的權(quán)限管理機(jī)制(AppOps),各大廠家在此基礎(chǔ)上又進(jìn)行了深度定制化,比如小米的安全中心,華為的手機(jī)管家等,都用來進(jìn)行權(quán)限管理。該權(quán)限管理機(jī)制運(yùn)行在安卓系統(tǒng)的框架層,上層各應(yīng)用的進(jìn)程如果想嘗試重新啟動,系統(tǒng)首先會去權(quán)限管理中心檢查該進(jìn)程有沒有自啟動權(quán)限,如果有,才準(zhǔn)予啟動。否則,從框架層直接限制系統(tǒng)的啟動。
基于以上兩種機(jī)制,推送鏈路的保活也可分為兩大類,
一 進(jìn)程?;?。它的思路是根據(jù) LMK 機(jī)制提高進(jìn)程優(yōu)先級,降低被殺的幾率。主要有以下幾種方法:
監(jiān)聽黑屏事件,啟動 1 像素透明 Activity ,使應(yīng)用進(jìn)程轉(zhuǎn)為可視進(jìn)程,降低被殺概率。在屏幕亮?xí)r,關(guān)閉該 Activity。
雙服務(wù)守護(hù)。A 服務(wù)以 startForeground() 形式啟動,發(fā)送一個通知,B 服務(wù)同樣以 startForeground() 形式啟動,且發(fā)送和 A 相同 ID 的通知,然后在 B 服務(wù)里調(diào)用 stopForeground() 方法,取消通知。這樣 A 服務(wù)就會以前臺進(jìn)程的形式存活,且不影響用戶感知。
根據(jù)文件鎖互斥原理,監(jiān)視 Java 進(jìn)程存活狀態(tài),若被殺,Linux 層成功持有文件,則通過 exec() 命令,打開一個純 Linux 的可執(zhí)行文件,開啟一個 Daemon 進(jìn)程, 該進(jìn)程因?yàn)閺?Linux 層啟動,在安卓 5.0 之前,優(yōu)先級會比較高,不會被殺。在安卓 5.0 之后,該方式不再有效。
二 進(jìn)程拉活的策略和安卓系統(tǒng)的 AppOps 機(jī)制有關(guān),一般有如下幾種:
一、利用 Service 本身的 Sticky 屬性,在 Service 的 onStartCommand() 中返回START_STICKY,這樣當(dāng) Service 被殺掉后,系統(tǒng)會自動嘗試重啟。不過在國內(nèi)定制化的系統(tǒng)上,這種方式能成功重啟的幾率很低,需要用戶在權(quán)限管理中心打開自啟動等權(quán)限,才能成功拉活。
二、也就是前面講過的心跳機(jī)制,不過這里要求使用 AlarmManager 設(shè)置 ELAPSED_REALTIME_WAKEUP 屬性的鬧鐘,在系統(tǒng)休眠后,才會正常接受到心跳事件,從而將進(jìn)程拉活。
三、通過監(jiān)聽網(wǎng)絡(luò)切換,用戶行為等事件,拉起進(jìn)程。
四、應(yīng)用間互相拉活。比如系統(tǒng)里有好幾個應(yīng)用集成了同一個 SDK , 那么在用戶啟動其中某一個 App 的時候,SDK 會去掃描其它應(yīng)用,把"兄弟姐妹" 拉活。這種方式對用戶體驗(yàn)傷害非常大,會造成系統(tǒng)莫名其妙的耗電。
隨著安卓系統(tǒng)版本的迭代,對后臺進(jìn)程的啟動管控越來越嚴(yán)。為了解決推送的問題,各手機(jī)廠家推出了自己的系統(tǒng)級推送服務(wù)。由廠家在 Framework 層統(tǒng)一維護(hù)一條推送通道,上層所有應(yīng)用共同使用該推送鏈路,不需要再維護(hù)單獨(dú)進(jìn)程。當(dāng)前支持系統(tǒng)級推送的廠家有:小米、華為、魅族、vivo、OPPO,這種系統(tǒng)級別的推送省電,省內(nèi)存,到達(dá)率高。應(yīng)用可以根據(jù)手機(jī)型號的不同,優(yōu)先使用廠家系統(tǒng)級別的推送,再配合自身的?;顧C(jī)制,最大程度保障推送的到達(dá)率。
集成第三方系統(tǒng)級推送之后,整個消息的收發(fā)流程可以參考下圖:
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!