何寶宏:中國信通院穩步推進各領域系統穩定性保障

2022-04-28 11:00:29

在今日召開的首屆“全球數據系統穩定峰會”上,中國信通院云計算與大數據研究所所長何寶宏對中國信通院數據系統穩定工作體系進行了介紹。

何寶宏稱,中國信通院于2021年啟動穩定相關工作,依托分布式系統穩定實驗室,面向供給側機構、監管機構及應用側機構,形成面向產品、工具、服務商、系統、災備和保障體系等對象的“STAR”評估體系,助力我國各領域系統穩定保障工作。

系統穩定保障關鍵問題凸出

在2021年全球發生了多起嚴重的信息系統宕機事件,其中不乏有互聯網基礎設施、金融核心業務系統等,這些關鍵系統的宕機事件不僅造成了大量經濟損失,也影響了社會的穩運行,同時也給其他系統建設運營者、監管機構敲響警鐘,系統的穩定保障成為當前熱點問題。

何寶宏指出,在我國,保障關鍵系統的穩運行受到國家層面高度重視,《關鍵信息基礎設施安全保護條例》自2021年9月1日起正式實施,明確要求關鍵基礎設施的運營者要依照條例和有關法律法規保障關鍵信息基礎設施的安全穩定運行。

隨著數字技術的更新,信息化系統的重要突顯,系統穩定面臨著新的挑戰?;ヂ摼W等數字原生企業為提升數字能力、滿足用戶需求,不斷擴大系統規模,引入敏捷開發流程,導致信息系統復雜直線上升,穩定風險點增多,金融、電信等科技密集型行業,系統在線化程度不斷提升,新技術不斷引入,信息系統功能范圍和復雜度不斷升級。而政務、能源等傳統行業也在政策推動下,將服務模式從原來的5×8的線下模式升級成7×24小時的線上模式,導致系統穩定壓力激增。

何寶宏表示,當前信息系統穩定保障領域在技術、管理等方面都存在不足,比如技術方面隨著新技術新架構應用存在異構軟硬件兼容問題,分布式架構普及集群規模擴大導致硬件故障更普遍、通信交互更不穩定。在管理方面,由于系統涉及的部門機構增多,帶來大量的溝通成本,導致穩定保障鏈路變長,跨團隊協作更加困難。

中國信通院穩步推進相關工作

據悉,因運營行程卡系統,中國信通院在系統保障方面積累了大量的實踐經驗,行程卡至今已經運行了2年,累計查詢突破458億次,期單日查詢量維持在3億次以上,其使用量隨著全國疫情變化波動,成為了疫情防控重要工具。為保障行程卡系統長期穩運行,行程卡團隊實施很多保障穩定的措施:

首先,通過優化技術架構,對不同訪問渠道的服務資源進行隔離,將三大運營商的服務通道解耦,實現各渠道及各運營商之間服務互不影響。

其次,對服務器負載均衡、帶寬、數據庫等資源進行多次擴容,已滿足不斷增長的訪問請求,目前系統峰值容量較去年已經提升10倍以上,并通過周期壓測隨時確認系統的容量情況。

第三,行程碼建立了備份容災系統,開展了多次應急演練,可以隨時進行主備切換。團隊開發了全鏈路監控系統,能夠監控各環節流量變化。為應對流量高峰,團隊建立了突發情況的限流機制,保障系統不中斷服務。

最后,行程卡還建立健全了運營維護的管理制度,形成了日常運維、重點保障、應急處置三位一體的運維保障體系。

何寶宏表示,基于以上背景,為助力我國各領域數據系統穩定提升,中國信通院于2020年啟動穩定相關工作,依托分布式系統穩定實驗室,面向供給側、監管機構、應用側等三類角色,形成產品穩定、穩定支撐工具、服務商、系統自身、系統災備能力、系統穩定體系等六條工作主線,統一構成了STAR評估系統。

其中,分布式系統穩定實驗室的定位是要打造行業臺,匯聚系統穩定相關方的智慧,共同定義、梳理、研究、推廣系統穩定相關工作和成果。由中國信通院牽頭,自2021年4月成立以來,目前共計50余家成員單位,并且已組建包括23位技術專家的專家團,形成強大的研究和服務能力。實驗室通過定期舉辦技術沙龍,集中編制穩定相關標準和、研究報告和實踐指南等方式,持續推動穩定各項工作。

詳解STAR評估六條主線

在會上,何寶宏詳細介紹了STAR評估體系的六條主線工作。其中,STAR-A為穩定保障體系評估,STAR-R為系統災備能力評估,STAR-S為系統壓測/撥測服務,STAR-E為服務商能力評估,STAR-T為穩定保障工具測評,STAR-P為軟件產品穩定測試。STAR評估體系完整涵蓋數據系統穩定相關工作中涉及的各類對象,可以全方位衡量各環節的相關能力。

1、STAR-A,穩定保障體系評估。當前系統技術迭代快,架構復雜,理論上來說,“沒有絕對穩定的系統,只有相對完善的保障體系”。由此,本部分工作主要是針對如何通過各類保障手段,最大限度確保系統穩定。因此,信通院聯合行業力量共同編制了一套評估體系——《分布式系統穩定保障能力分級要求》,以及兩本實踐方法論——《混沌工程實踐指南》和《系統穩定保障能力建設指南1.0》。同時,依據評估標準,開展首批數據系統穩定保障能力評估,首批共有12個信息系統通過。

2、STAR-R,系統災備能力評估。數據系統出現故障是不可避免的,災備系統能夠在數據盡量少丟失的情況下,保持業務系統盡快恢復甚至不間斷運行,是現代數據系統不可或缺的基礎設施。為衡量數據系統災備能力,中國信通院聯合行業編制了《數據系統災備能力成熟度模型》,從五大能力域、30個能力項全方位衡量系統的災備能力。標準的發布,一方面可以為應用方建設災備系統提供參考,另一方面,也可以評估已經建成災備系統的實際能力。

3、STAR-S,向數據系統提供壓測/撥測服務。系統穩定的真實情況一定要通過合理的測試和持續的監測才能獲得,因此,圍繞如何衡量系統實際的穩定狀況,中國信通院同相關的專業技術公司合作,開展面向各類系統的壓測/撥測服務。

系統實踐承載能力只有通過全鏈路壓測才能準確獲得,壓測結果是運營方預估系統容量、儲備額外資源、實施應急舉措的重要參考依據。針對各類系統聯合專業技術公司提供第三方全鏈路壓測服務,此外,針對小程序聯合支付寶和微信推出小程序端到端全鏈路壓測服務,準確衡量系統容量。同時,系統實際運行狀況需要持續不斷的監測才能夠加以確認,相對人工觀察,通過技術手段更能提升監測的及時、準確。信通院聯合專業技術公司,通過模擬真實用戶訪問形式,為數據系統提供撥測服務。

4、STAR-E,提供穩定保障的服務商能力評估。隨著穩定工作重要的提升,業內已經涌現出眾多專業提供穩定保障服務的企業,在這一方面,當前中國信通院正在研制《系統穩定保障服務商能力分級要求》,對服務過程、人員、技術工具等進行規范,也將依托該標準對產業內提供穩定保障服務的服務商進行評估,引導行業規范化發展。

5、STAR-T,穩定保障工具測試。系統穩定提升離不開專業技術工具支撐,工具好壞顯著影響著系統穩定的保障能力。當前,中國信通院已完成《系統穩定保障臺能力要求》這一標準,對支撐系統穩定工作的各類臺工具應具備的能力進行了全方位梳理,并形成階梯化分級要求,后續將繼續完善各類支撐工具標準的研制,并開展相應評測工作。

6、STAR-P,數據產品穩定測試工作。各類數據產品尤其是分布式軟件已成為各行業數據系統的重要組成部分,其自身的穩定是系統整體穩定的重要前提。因此,中國信通院開展了面向數據產品自身穩定的測試。為了能夠對各類數據產品進行標準化穩定測試,中國信通院基于Ansible和ChaosBlade自主研發了Databench-C分布式混沌測試臺,通過Databench-C可以對被測產品進行穩態確定、擾動注入、差異對比等操作??勺⑷氲墓收霞皵_動類別包括計算、存儲、網絡、線程等方面的高負載或者故障現象。最終通過被測產品在實施加擾時的功能是否正常、能下降程度,以及擾動移除后的系統恢復程度,來衡量其穩定能力。

基于Databench-C,截止目前已完成兩批次4類數據產品的穩定測試,以下是通過測試的參測企業和對應的被測產品。通過測試的結果可以觀察到,當前數據類產品多采用分布式架構,網絡擾動帶來的能影響明顯大于計算、存儲等對資源的擾動。

何寶宏表示,STAR評估體系將沿各方向持續推進,產出更多標準和研究報告,落地更多評測評估,持續擴大服務行業的能力。

據何寶宏透露,未來,分布式系統穩定實驗室將從以下幾個方面開展工作:一是按照主題設立工作組,聚焦重點方向開展工作。二是啟動人才培養計劃,聯合實驗室專家團、外部專業技術企業,共同開展專題技術培訓。三是開啟全國巡演,持續在更多地區舉辦活動,為行業提供更全面、更具規模的行業交流臺。

標簽: 形成面向產品 領域系統穩定性保障 層面高度重視 互聯網基礎設施

關閉
新聞速遞
免费看三级片