隨著電子商務(wù)、云計(jì)算、大數(shù)據(jù)、人工智能、互聯(lián)網(wǎng)金融等應(yīng)用的快速發(fā)展,數(shù)據(jù)中心單體規(guī)模越來越大、系統(tǒng)越來越復(fù)雜,應(yīng)對(duì)的挑戰(zhàn)也越來越多。
一個(gè)好的數(shù)據(jù)中心需要通過科學(xué)的運(yùn)維管理,充分利用技術(shù)和設(shè)備資源,將運(yùn)行成本降到最低,同時(shí)能源利用率最大化。
京東在宿遷的自建數(shù)據(jù)中心,按照世界一流數(shù)據(jù)中心的理念設(shè)計(jì)和建設(shè),也按照國際先進(jìn)的運(yùn)營管理模式投入運(yùn)行。
作為數(shù)據(jù)中心生命周期中最重要的一環(huán),如何針對(duì)基礎(chǔ)設(shè)施,各種IT設(shè)備,信息與數(shù)據(jù),應(yīng)用軟件等各方面展開數(shù)據(jù)中心的運(yùn)維管理,為基礎(chǔ)設(shè)施和信息系統(tǒng)提供穩(wěn)定可靠的運(yùn)行環(huán)境,確保他們安全,穩(wěn)定,可靠,持續(xù)并高效的運(yùn)行。
京東IDC建設(shè)的技術(shù)專家們,設(shè)計(jì)并落地了一套先進(jìn)的、可靠的智能化基礎(chǔ)設(shè)施運(yùn)維管理體系,進(jìn)行系統(tǒng)性的支撐。
接下來的內(nèi)容,我們將通過京東自建數(shù)據(jù)中心在運(yùn)營維護(hù)中的人,制度,流程規(guī)范,監(jiān)控管理等各個(gè)方面,一窺這里是如何高效滿足京東不斷增長(zhǎng)的業(yè)務(wù)需求。
1人
京東IDC建設(shè)部技術(shù)專家劉銘談到:人是數(shù)據(jù)中心IT設(shè)施運(yùn)維管理的基礎(chǔ),也是管理的核心,正所謂是三分靠技術(shù),七分靠管理。京東在宿遷的自建數(shù)據(jù)中心,設(shè)施運(yùn)維管理核心團(tuán)隊(duì)組建于數(shù)據(jù)中心建設(shè)初期,主要的專業(yè)技術(shù)管理人員都深度參與了整個(gè)數(shù)據(jù)中心園區(qū)的工程建設(shè)以及測(cè)試驗(yàn)證等重要環(huán)節(jié)。
在數(shù)據(jù)中心交付之前,他們就已經(jīng)充分的了解這個(gè)數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)的構(gòu)成,掌握了數(shù)據(jù)中心設(shè)計(jì)、施工、變更、整改的技術(shù)文檔和測(cè)試數(shù)據(jù),哪些是今后運(yùn)維工作的特別關(guān)注點(diǎn),都熟記于心。
京東自建數(shù)據(jù)中心的實(shí)施運(yùn)維團(tuán)隊(duì)主要有兩大工作職能。第一個(gè)是實(shí)行7*24小時(shí)輪崗工作制的運(yùn)維巡檢團(tuán)隊(duì),他們對(duì)基礎(chǔ)設(shè)備設(shè)施進(jìn)行巡檢,第一時(shí)間發(fā)現(xiàn)故障或問題。
第二個(gè)是對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施提供運(yùn)維技術(shù)支持,解決技術(shù)問題的技術(shù)管理團(tuán)隊(duì),他們承擔(dān)數(shù)據(jù)中心場(chǎng)地基礎(chǔ)設(shè)施的優(yōu)化改造工程和項(xiàng)目管理工作,也是運(yùn)維管理的核心團(tuán)隊(duì)。
2制度
設(shè)備臺(tái)賬制度
給每個(gè)獨(dú)立的數(shù)據(jù)中心模塊建立完整并實(shí)時(shí)更新的設(shè)備臺(tái)賬。臺(tái)賬包括所有關(guān)鍵基礎(chǔ)設(shè)施設(shè)備的清單,并完整記錄這些設(shè)備設(shè)施的運(yùn)行情況、事件情況、變更情況、維護(hù)保養(yǎng)頻次等信息。
對(duì)影響安全運(yùn)行的關(guān)鍵設(shè)備,比如UPS、冷水機(jī)組、精密空調(diào)等的設(shè)定參數(shù)以及關(guān)鍵點(diǎn)的報(bào)警閥值制定了統(tǒng)一管理制度,結(jié)合數(shù)據(jù)中心實(shí)際運(yùn)行情況與技術(shù),討論后按統(tǒng)一參數(shù)值設(shè)定,運(yùn)維巡檢人員不可以隨意修改。
預(yù)防性維護(hù)計(jì)劃
為了延長(zhǎng)設(shè)備的使用壽命,減少設(shè)備故障的概率,必須對(duì)所有設(shè)備設(shè)施進(jìn)行有計(jì)劃的維護(hù)。提前制定月度、季度、年度的預(yù)防性維護(hù)計(jì)劃。
運(yùn)維人員會(huì)按照設(shè)備和系統(tǒng)的特性、維護(hù)流程及規(guī)范,及時(shí)、完整的落實(shí)維護(hù)工作,并形成客觀實(shí)際的記錄和報(bào)告存檔。
此外,運(yùn)維團(tuán)隊(duì)還定期對(duì)設(shè)備運(yùn)行狀態(tài)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和趨勢(shì)量化分析,對(duì)于異常的趨勢(shì),及時(shí)作出報(bào)警和相關(guān)預(yù)案。
通過定期檢查和保養(yǎng),使得設(shè)備設(shè)施的某些缺陷或隱患在變得更嚴(yán)重之前被發(fā)現(xiàn)。
維修工單制度
運(yùn)維人員在接到工單時(shí),能明確獲悉工作任務(wù)與注意事項(xiàng),提前熟悉操作流程,做到心中有數(shù)。在維修操作過程中,工單也可以起到指導(dǎo)操作的作用;在維修工作結(jié)束交單、備案歸檔。如果在維修過程中遇到困難,也便于及時(shí)通過上溯的渠道,快速解決問題。
3監(jiān)控
京東在宿遷的自建數(shù)據(jù)中心園區(qū)中,包含有4個(gè)數(shù)據(jù)中心模塊,每個(gè)模塊都配置有一個(gè)獨(dú)立的監(jiān)控中心,整個(gè)園區(qū)中心位置設(shè)置了綜合監(jiān)控中心ECC。
ECC的綜合智能監(jiān)控管理平臺(tái),可以實(shí)現(xiàn)對(duì)數(shù)據(jù)中心各設(shè)備和系統(tǒng)的統(tǒng)一監(jiān)控與管理,提高整個(gè)系統(tǒng)的運(yùn)行可靠性、穩(wěn)定性和擴(kuò)展性,實(shí)現(xiàn)機(jī)房的科學(xué)管理。
作為園區(qū)級(jí)的監(jiān)控平臺(tái),ECC很好的實(shí)現(xiàn)了:
1、可視化展示各設(shè)備設(shè)施實(shí)時(shí)狀態(tài),實(shí)時(shí)掌握可用性狀況;
2、業(yè)務(wù)流程規(guī)范化管理,變更風(fēng)險(xiǎn)管控,降低變更帶給業(yè)務(wù)的影響;
3、復(fù)雜事件分析處理,準(zhǔn)確定位故障;大數(shù)據(jù)分析,智能預(yù)警;
4、設(shè)備部署合理化,平衡各維度容量綜合利用率,避免單項(xiàng)容量短板;
5、可視化容量管理,直觀展示容量使用情況及趨勢(shì)分析,擴(kuò)容決策及時(shí)準(zhǔn)確;
6、提供多維度運(yùn)行分析報(bào)告,為運(yùn)營決策提供數(shù)據(jù)支持;
7、重大故障可實(shí)時(shí)準(zhǔn)確提供數(shù)據(jù)中心應(yīng)急預(yù)案;
模塊級(jí)的監(jiān)控系統(tǒng)對(duì)基礎(chǔ)設(shè)施的監(jiān)控包括電氣,動(dòng)力,環(huán)境三部分,實(shí)時(shí)進(jìn)行監(jiān)測(cè)和展示被監(jiān)控的設(shè)備。
系統(tǒng)的架構(gòu)包含現(xiàn)場(chǎng)設(shè)備的數(shù)據(jù)采集層、現(xiàn)場(chǎng)設(shè)備監(jiān)控層和集中重慶監(jiān)控</a> http://www.dtxcwz.cn監(jiān)控層。
現(xiàn)場(chǎng)設(shè)備數(shù)據(jù)采集層:由各種I/O采集模塊組成,連接所有傳感器和被監(jiān)控設(shè)備,實(shí)現(xiàn)監(jiān)控平臺(tái)與被監(jiān)控對(duì)象的數(shù)據(jù)通訊。所有硬件采用模塊化架構(gòu),I/O模塊采集傳感器數(shù)據(jù)后,通過系統(tǒng)配置實(shí)現(xiàn)對(duì)所有傳感器的數(shù)據(jù)匹配對(duì)應(yīng),直接接入現(xiàn)場(chǎng)監(jiān)控層。
現(xiàn)場(chǎng)設(shè)備監(jiān)控層:由多臺(tái)嵌入式服務(wù)器或獨(dú)立網(wǎng)絡(luò)控制器組成,負(fù)責(zé)收集與處理由現(xiàn)場(chǎng)設(shè)備采集層發(fā)送過來的數(shù)據(jù)。
模塊集中監(jiān)控層:采集現(xiàn)場(chǎng)設(shè)備監(jiān)控層上傳的數(shù)據(jù),對(duì)模塊內(nèi)的現(xiàn)場(chǎng)監(jiān)控服務(wù)器進(jìn)行集中管理,實(shí)時(shí)監(jiān)測(cè)組內(nèi)基礎(chǔ)設(shè)施的參數(shù)、狀態(tài),并提供遠(yuǎn)程瀏覽。在這個(gè)模塊中的監(jiān)控?cái)?shù)據(jù),可以直接上傳至園區(qū)綜合監(jiān)控中心ECC的綜合監(jiān)控層。
集中管理平臺(tái)配置了“雙服務(wù)器+雙數(shù)據(jù)庫”,實(shí)現(xiàn)容錯(cuò)配置。也開發(fā)了移動(dòng)終端操控平臺(tái),可以對(duì)數(shù)據(jù)中心的基礎(chǔ)業(yè)務(wù)進(jìn)行實(shí)時(shí)操控
京東IT資源服務(wù)部負(fù)責(zé)人呂科說:“京東自建數(shù)據(jù)中心的設(shè)施運(yùn)維管理有一個(gè)非常重要的目標(biāo),那就是要“建立一套持續(xù)改進(jìn)的機(jī)制”,這一點(diǎn)往往容易被行業(yè)從業(yè)人員所忽略。數(shù)據(jù)中心設(shè)施運(yùn)維管理與數(shù)據(jù)中心設(shè)施系統(tǒng)建設(shè)階段的項(xiàng)目管理有很大的不同,項(xiàng)目管理是一次性的,必須保障“當(dāng)前最佳”。而數(shù)據(jù)中心運(yùn)維管理則是一個(gè)不斷迭代的過程,“一套持續(xù)改進(jìn)的機(jī)制”可以保障數(shù)據(jù)中心運(yùn)行效率不斷提高、重慶監(jiān)控</a> http://www.dtxcwz.cn運(yùn)行成本不斷降低。數(shù)據(jù)中心的設(shè)施運(yùn)維工作就是這樣一個(gè)不斷優(yōu)化的過程,這也是我們的目標(biāo):沒有最好,只有更好。”