今天的網(wǎng)勢也會是我們將來美好的網(wǎng)勢
吃完飯付不了款、搶到特價商品卻眼睜睜看著交易關(guān)閉、公共自行車掃碼支付失敗,只好走著去上班……7月22日上午
支付寶扛得住雙十一 為何扛不住一個機房故障?
■IT時報 吳雨欣
吃完飯付不了款、搶到特價商品卻眼睜睜看著交易關(guān)閉、公共自行車掃碼支付失敗,只好走著去上班……7月22日上午,不少用戶發(fā)現(xiàn),支付寶出現(xiàn)故障,不管是買火車票、網(wǎng)上訂餐還是轉(zhuǎn)賬、提現(xiàn)均無法實現(xiàn),更不可思議的是,上午明明顯示轉(zhuǎn)賬失敗,通過其他方式轉(zhuǎn)賬后,下午支付寶就變成了轉(zhuǎn)賬成功??粗撁?“網(wǎng)絡(luò)不給力,請稍后再試”的提示,不管你怎么切換網(wǎng)絡(luò),重啟路由器,結(jié)果還是一樣。
作為全球最大的第三方支付機構(gòu),這不是支付寶第一次不給力,2015年5月28日,支付寶因杭州蕭山的光纖被挖斷出現(xiàn)全國范圍系統(tǒng)癱瘓長達2.5小時。14個月后,在阿里巴巴宣稱攻克了“服務(wù)器資源彈性部署”和“數(shù)據(jù)中心異地雙活”兩項技術(shù)難題后,此次發(fā)生的故障依然持續(xù)2個多小時。
當支付寶逐漸替代錢包成為人們的隨身支付工具時,兩個小時的網(wǎng)絡(luò)中斷所影響的人群和支付事項越來越多,而且再度引發(fā)專家對支付寶災(zāi)備能力的質(zhì)疑。
深圳機房發(fā)生故障
7月22日上午10點10分左右,有用戶開始在網(wǎng)上吐槽支付寶不可使用。11點44分,支付寶官方微博表示,上午10時多,由于支付寶在華南的一處機房出現(xiàn)故障,技術(shù)團隊緊急將業(yè)務(wù)逐步切流到其他機房,過程中影響了部分用戶對部分功能的使用,用戶的資金和信息安全不受影響。直到12點36分,支付寶再次回應(yīng)稱,系統(tǒng)已經(jīng)恢復(fù)正常。
“以目前阿里云的處理能力,在假想極端情況下,即便杭州的數(shù)據(jù)中心全部宕掉,依然能夠平穩(wěn)度過雙十一,互聯(lián)網(wǎng)創(chuàng)業(yè)網(wǎng),不影響用戶的購物體驗?!卑⒗飩鋺?zhàn)2015年雙十一時的豪言猶在耳邊。很難想象,在一個既非雙十一也非節(jié)假日的周五,支付寶一個機房的故障竟然導(dǎo)致服務(wù)中斷持續(xù)了兩個小時。
“出問題的機房在深圳,切流時間長且恢復(fù)慢,是有點不太正常?!币晃唤咏Ц秾毶钲跈C房的知情人士向《IT時報》記者透露,這次事故的原因是多方面的,互聯(lián)網(wǎng)創(chuàng)業(yè)網(wǎng),既有機房機件等硬件設(shè)施的原因,也有網(wǎng)絡(luò)故障方面的因素。他舉了個例子,支付寶就像是一輛小汽車,運營商提供的高速公路是通的,但小汽車內(nèi)部出了問題卡在了半路,數(shù)據(jù)從一個地方送不到另外一個地方。
“異地多活”架構(gòu)沒起充分作用
在2015年全球架構(gòu)師峰會上,阿里巴巴高級系統(tǒng)工程師曾歡(阿里花名為善衡)結(jié)合互聯(lián)網(wǎng)金融業(yè)務(wù)及系統(tǒng)特性,分享了支付寶的高可用與容災(zāi)架構(gòu)演進,表示支付寶在該方面已進入成熟的青年時期,有快速恢復(fù)的容災(zāi)能力,可做到同城內(nèi)數(shù)據(jù)中心之間,甚至城市和城市之間在故障發(fā)生時自如地進行應(yīng)急切換,使得支付寶實現(xiàn)“異地多活”的架構(gòu)能力。
“所謂異地多活是指數(shù)據(jù)中心在機房基礎(chǔ)設(shè)施、地理空間、網(wǎng)絡(luò)資源、軟硬件部署上是分布的,多中心之間可以并行為業(yè)務(wù)訪問提供服務(wù),互為備份,地位均等。一個數(shù)據(jù)中心出問題,其他數(shù)據(jù)中心可對業(yè)務(wù)接管實現(xiàn)無縫切換,用戶無感知。支付寶雙十一能撐起8.59萬筆/秒的交易峰值及支付寶平時的處理速度也是得益于異地多活,只是不知道為什么這次異地多活沒起太大作用?!币晃粯I(yè)內(nèi)人士向《IT時報》記者表示,正是因為異地多活所需的設(shè)備量,阿里機房摒棄了昂貴的專業(yè)高端設(shè)備,選用X86服務(wù)器和國產(chǎn)的開源軟件。支付寶這次的故障很可能是因為網(wǎng)絡(luò)出口有單點故障,瓶頸堵塞,導(dǎo)致引流出現(xiàn)問題。
據(jù)了解,國內(nèi)商業(yè)銀行采用的多是“兩地三中心”模式。以交通銀行為例,交通銀行的中心機房在上海,同城及1000公里外的地方各設(shè)一個災(zāi)備中心,當中心機房出現(xiàn)故障,ATM、POS等72小時不間斷的重要業(yè)務(wù)要做到秒級切換,無縫連接,即使考慮到通信延遲,這個時間也要控制在30秒內(nèi)。根據(jù)信息系統(tǒng)的時間敏感性,交通銀行把應(yīng)用系統(tǒng)的災(zāi)難恢復(fù)分成三個等級,亦將災(zāi)備的不同場景分為十個等級,六等級以上支付終端,中斷服務(wù)持續(xù)兩小時要上報銀監(jiān)會和央行,區(qū)域發(fā)生癱瘓四小時上報國務(wù)院。
一位交通銀行的內(nèi)部人士告訴《IT時報》記者,交通銀行要求各分行至數(shù)據(jù)中心的網(wǎng)絡(luò)采用多運營商通道,以防止某一家運營商網(wǎng)絡(luò)出問題,同時會與運營商達成協(xié)議,把網(wǎng)絡(luò)收斂時間控制在一定時間內(nèi),所謂“網(wǎng)絡(luò)收斂”,是指當A機房徹底癱瘓,網(wǎng)絡(luò)中所有結(jié)點全部更新它們的路由表,將網(wǎng)絡(luò)指向B機房的時間,在這段時間內(nèi),銀行的其他業(yè)務(wù)會被相繼切換。
中國銀聯(lián)在京滬兩地也是三個數(shù)據(jù)中心,兩城三地之間的數(shù)據(jù)一致,切換速度在分鐘以內(nèi),當任何一個數(shù)據(jù)中心發(fā)生問題,絲毫不會影響消費者的刷卡交易。
相較于開放、靈活的異地多活模式,“兩地三中心”投資巨大,所采用的設(shè)備大多是IBM、ORACLE(甲骨文)、EMC等高端設(shè)備,價格驚人,這幾年國內(nèi)盡管一直在要求“去IOE”,但出于對安全的考慮,很多銀行都不敢輕舉妄動。
第三方支付缺少災(zāi)備監(jiān)管
故障修復(fù)后,支付寶強調(diào),用戶的資金安全和信息安全不會受到任何影響。但不少用戶擔憂,自己充手機話費、叫外賣、網(wǎng)購、銀行轉(zhuǎn)賬、還貸,都習慣在支付寶上進行,如果以后類似故障再次發(fā)生,給生活造成的影響可能會更大。
據(jù)中國支付清算協(xié)會統(tǒng)計,截至2015年底,完成實名認證的支付賬戶共有13.46億個,占總支付賬戶總量的51.07%。在今年4月舉行的哥本哈根Money2020大會上,螞蟻金服國際事業(yè)部總裁彭翼捷預(yù)測,螞蟻金服旗下的支付寶未來10年的用戶量將增加至20億。
當?shù)谌街Ц杜c人們的生活越來越息息相關(guān),使用頻次甚至超過銀行卡時,對于信息數(shù)據(jù)和交易的安全要求,是否享受和銀行同樣的“待遇”呢?
2008年,中國人民銀行出臺的行業(yè)標準《銀行業(yè)信息系統(tǒng)災(zāi)難恢復(fù)管理規(guī)范》中,將信息系統(tǒng)按時間敏感性分為三類需求等級,確定了每類信息系統(tǒng)災(zāi)難恢復(fù)的時間。2015年,銀監(jiān)會發(fā)布的《商業(yè)銀行業(yè)務(wù)連續(xù)性監(jiān)管指引》中,要求商業(yè)銀行應(yīng)當在銀行集團內(nèi)建立內(nèi)部重大事項報告制度,附屬機構(gòu)要及時報告經(jīng)營活動中的重大事項、重大風險以及境內(nèi)外監(jiān)管機構(gòu)采取的重大監(jiān)管行動和監(jiān)管措施。商業(yè)銀行還應(yīng)當就各類風險分不同情景定期開展銀行集團層面的壓力測試,充分考慮各種情景的相互作用,并根據(jù)結(jié)果制定相應(yīng)預(yù)案,確保銀行集團能夠有效應(yīng)對各類不利情景。特別是對于重度壓力情景下的測試結(jié)果,商業(yè)銀行應(yīng)當在銀行集團內(nèi)建立詳細、完備的應(yīng)對預(yù)案。
2015年3月30日,證監(jiān)會證券基金監(jiān)管部開出一份罰單:由于2015年1月5日上午工商銀行三方存管系統(tǒng)出現(xiàn)異常,影響90家證券公司54709名客戶、48.8億元的銀證轉(zhuǎn)賬操作,造成部分投資者無法資金轉(zhuǎn)賬,9家證券公司出現(xiàn)客戶資金賬戶匯總余額虛增1237萬元。證監(jiān)會要求,工行需在2015年4月30日前予以改正,完善技術(shù)系統(tǒng),規(guī)范應(yīng)急處理,杜絕此類問題再次發(fā)生,同時應(yīng)當在2015年5月10日前,向證監(jiān)會提交書面報告,證監(jiān)會將組織檢查驗收。
但對于第三方支付機構(gòu)的災(zāi)備方案,《IT時報》記者僅在今年7月1日起施行、由中國人民銀行發(fā)布的《非銀行支付機構(gòu)網(wǎng)絡(luò)支付業(yè)務(wù)管理辦法》的第三十二條和三十八條中看到這樣的表述:支付機構(gòu)應(yīng)當制定突發(fā)事件應(yīng)急預(yù)案,建立災(zāi)備系統(tǒng),保障業(yè)務(wù)連續(xù)性和系統(tǒng)安全性;支付機構(gòu)應(yīng)當于每年1月31日前,將前一年度發(fā)生的風險事件、客戶風險損失、客戶損失賠付等情況在網(wǎng)站對外公告。記者并未查閱到監(jiān)管部門對第三方支付更細致的指引。
7月26日,支付寶內(nèi)部人士向《IT時報》記者表示,故障具體原因已向監(jiān)管機構(gòu)及合作伙伴說明,不便向媒體透露。
今天的網(wǎng)勢也會是我們將來美好的往事