外企互聯(lián)網(wǎng)金融產(chǎn)品——搭建事故應(yīng)變措施
在工作過程中我們都會遇到不同的難點或者事故,那面對事故我們應(yīng)該采取怎樣的應(yīng)對措施呢?或者應(yīng)該怎樣提前預(yù)防?一起來看看作者是如何分析的。
還記得某個請了事假的周五下午,處理完事情之后,我跟朋友北京城區(qū)內(nèi)悠閑地吃個早午餐,沒想到手機中的Teams突然響起,一看竟然是來自公司作戰(zhàn)室的來電,心臟仿佛突然漏了一拍,只好放下手中的刀叉,接了起來……
對產(chǎn)品經(jīng)理來說,處理事故是必修的課題,但如何「漂亮地處理事故」,則是需要不斷與團隊彼此磨合。有興趣了解的朋友就一起往下看看吧!
一、什么是事故應(yīng)變措施?
前陣子我看了一部被譽為人生必看的韓劇《浪漫醫(yī)生金師傅》,劇中描寫了許多醫(yī)院急診室的故事。
其實互聯(lián)網(wǎng)服務(wù)的生產(chǎn)事故,就像在醫(yī)院急診室一樣,得由一群經(jīng)驗老道,并且可以處理各式各樣的醫(yī)護人員進行第一步篩查,判斷發(fā)生原因,然后再交由各科室的同仁進行詳細處理。
因此,在產(chǎn)品服務(wù)面對用戶之后,有一組非常重要又辛苦的互聯(lián)網(wǎng)急診室的守護者,就是SRE (Site Reliability Engineering)。
他們主要負責(zé)確保服務(wù)的穩(wěn)定性,監(jiān)控生產(chǎn)環(huán)境上的各種情況,一旦發(fā)生問題時,就要立刻召集相關(guān)人員排查、解決。
服務(wù)穩(wěn)定性乍聽之下可能不太起眼,但卻至關(guān)重要。作為產(chǎn)品經(jīng)理,為了能夠提供更好的用戶體驗、保持市場競爭力,並追求更好的商業(yè)價值,我們總是不停地在「持續(xù)迭代」,而如何平穩(wěn)、絲滑的調(diào)整,就依賴開發(fā)團隊及SRE團隊的合作。
互聯(lián)網(wǎng)服務(wù)上,系統(tǒng)包含的范圍非常廣,業(yè)務(wù)應(yīng)用服務(wù)、網(wǎng)路、數(shù)據(jù)庫、云端服務(wù)或伺服器等等,每一個環(huán)節(jié)都有可能出現(xiàn)異常,問題真的千奇百怪。
小到用戶不理解前端提示而誤操作、網(wǎng)路波動影響接口調(diào)用失敗、或是大到整體機房出現(xiàn)異常、流量被惡意攔截需要緊急搶救的…等等。
面對不同等級的故障,團隊?wèi)?yīng)該在事故的「處理時效」、「處理方式」、「通報范圍」的不同維度達成共識。
二、為什么要搭建事故應(yīng)變措施?
互聯(lián)網(wǎng)金融服務(wù)相比于工具類的服務(wù),服務(wù)的穩(wěn)定性,在用戶心智中很大程度與資金安全有所關(guān)聯(lián)。試想看看,如果隔天就是房貸的繳款截止日了,但是金融服務(wù)突然不能用,身上也沒有現(xiàn)金這多令人跳腳!
當(dāng)有生產(chǎn)事故發(fā)生時,除了影響用戶體驗、公司收入、更甚者可能引發(fā)輿論而影響公司聲譽。因此,在事故發(fā)生當(dāng)下,除了排查問題、解決問題之外,與團隊內(nèi)部、外部合作方、外部用戶、公關(guān)媒體的溝通,每一個環(huán)節(jié)都至關(guān)重要。
三、如何搭建事故應(yīng)變措施?
1. 預(yù)想可能發(fā)生的事情
如同《浪漫醫(yī)生金師傅》劇中,我們可以看到許多奇特的意外傷害而來到醫(yī)院急診室的病患,例如:連環(huán)車禍、滑雪受傷、誤食農(nóng)藥、地震等各種天災(zāi)人禍皆有可能,而劇中的護理人員也會每天準備好急診室常備用品,確保當(dāng)有需求時,不會因為物品匱乏而延誤搶救病患的最佳時間。
而反映在互聯(lián)網(wǎng)服務(wù)上,我們不難找到許多有心者惡意利用漏洞,或是意外情況而導(dǎo)致的生產(chǎn)事故,團隊可以預(yù)先想到可能發(fā)生的情況,也可以在經(jīng)驗中不斷學(xué)習(xí)。
例如:系統(tǒng)流量超過可負荷的限額、流量被惡意攔截、依賴性系統(tǒng)突發(fā)異常、用戶因不理解指引的誤操作…等等。
2. 確定有哪些重要團隊成員
如上述說的,在討論生產(chǎn)事故處理機制時,我認為有這些角色的參與是非常重要的,每個角色可以從各自的角度提供專業(yè)建議與支持。
- 產(chǎn)品經(jīng)理
- 架構(gòu)師、開發(fā)、測試
- 客戶服務(wù)團隊
- 外部合作伙伴團隊
- 公關(guān)團隊
- 法務(wù)、合規(guī)團隊
3. 建立團隊成員對于事故等級的共識
你知道嗎?在醫(yī)院的急診室中,并非先抵達的患者能夠優(yōu)先接受治療,而是需要依照傷病的緊急程度進行優(yōu)先級排序。
因此,團隊成員的首要目標是擬定一套能夠幫助判斷「優(yōu)先級」的指標架構(gòu),并且「達成共識」(當(dāng)然內(nèi)容可以依據(jù)業(yè)務(wù)發(fā)展而有所調(diào)整),畢竟當(dāng)真的有P0、P1的緊急問題時,需要大家專心一致的解決。
這時候可不會希望因為彼此對標準理解不一致,降低了事故解決的效率。
(1)建立指標:可以參考以下不同維度
- 影響范圍:評估事故對用戶體驗、業(yè)務(wù)運行、系統(tǒng)功能、或服務(wù)可用性的影響范圍。
- 持續(xù)時間:事故持續(xù)影響時間。
- 重要性和緊急性:事故對業(yè)務(wù)運營的重要性和需要被緊急解決的程度。
- 合規(guī)性要求:思考事件對相關(guān)合規(guī)性要求的影響,如違背合規(guī)法務(wù)要求,可能會導(dǎo)致更嚴重的故事等級。
- 可用備份和恢復(fù)策略:考慮備份和恢復(fù)策略的可用性和有效性。
(2)為每個指標及事故等級定義數(shù)值
通常我們會與團隊成員對于不同事故等級共同討論相關(guān)指標維度,并建議「可快速量化」數(shù)值。例如:影響交易金額、事故持續(xù)時間、或受影響用戶數(shù)。
也需要針對不同等級的事故定義響應(yīng)時間以及目標處理時間,例如:P0的事故需要一天內(nèi)解決,P1事故可以兩天內(nèi)解決,以此類推。
(3)為不同等級的事故,定義對應(yīng)SOP(標準作業(yè)程序)
我們其實沒有想像中的那么冷靜。
還記得開頭我提到的周六事件吧!我印象非常深刻,那天早上雖然是電話會議,但是我感覺許多人一進到電話里頭就滿臉「我是誰?我在哪?」的感覺。
每一次有新同事加入時,就要重新解釋一遍問題、影響以及當(dāng)前進度,然后想辦法厘清原因、找到對應(yīng)的處理方式。
SOP(標準作業(yè)程序)是一個非常好的工具,可以幫助團隊在緊急的時候,有一個可以參考的依據(jù)。
「服務(wù)降級」也是一種常采用的方式,例如在大促活動的流量高峰時,僅維持重要的系統(tǒng)交互,避免過多的系統(tǒng)交互影響服務(wù)響應(yīng)速度…等等。
4. 建立監(jiān)測預(yù)警機制
監(jiān)測與預(yù)警是預(yù)防、盡早掌握事故發(fā)生的重要工具。
例如:確保預(yù)先充值的云服務(wù),會在額度快被用完之前會提供郵件或短信預(yù)警、定期監(jiān)測主要核心流程是否有系統(tǒng)交互、流量請求(有時候沒有系統(tǒng)請求是因為用戶根本無法訪問該頁面),越早發(fā)現(xiàn)事故,也可以越快控制影響范圍。
5. 事中優(yōu)先解決問題,事后詳細檢討
團隊在事故發(fā)生的當(dāng)下,僅需要專注于最快的速度解決問題。而在事故解決后,也需要十分詳細地檢討原因。
每一次的生產(chǎn)事故對團隊成員來說,都是極其寶貴的經(jīng)驗,而經(jīng)驗不僅需要時間積累,更需要被紀錄與傳承,避免重蹈覆轍,保持互聯(lián)網(wǎng)的精神,小步快跑,在錯誤中學(xué)習(xí)。
四、結(jié)語
處理生產(chǎn)事故的時候,在時間與情緒的雙重壓力下,其實常常需要花費相當(dāng)高的溝通成本。所以建立起團隊的合作共識,持續(xù)地磨合出一些應(yīng)變機制。我也時常跟同事分享一個正念思考的心態(tài),「有生產(chǎn)問題,代表真的有用戶在使用你的服務(wù)??!」
本文由 @是安娜啊 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
作為產(chǎn)品經(jīng)理,要有一種要應(yīng)對的能力,無論任何時候都要有一種轉(zhuǎn)變思維。