視頻會(huì)議直播,技術(shù)保障,百睿德備選方案
時(shí)間:2022-06-01 15:20:19 信息來源:百睿德 點(diǎn)擊:67972次
會(huì)議直播,首更先百睿德關(guān)注的是穩(wěn)定行,也就是是不是一套可靠的系統(tǒng)。而可靠性是指系統(tǒng)不會(huì)意外地崩潰、重啟甚至發(fā)生數(shù)據(jù)丟失,這意味著一個(gè)可靠的系統(tǒng)必須能夠做到故障自修復(fù),對(duì)于無法自修復(fù)的故障也盡可能進(jìn)行隔離,保障系統(tǒng)其余部分正常運(yùn)轉(zhuǎn)。簡而言之,可靠性的目標(biāo)是縮短因故障(產(chǎn)品質(zhì)量、外部部件、環(huán)境、人因等)造成的業(yè)務(wù)中斷時(shí)間。
更高可靠可以從三個(gè)層面理解:一,不出故障,系統(tǒng)可以一直正常運(yùn)行,這種情況就需要提更高硬件的研發(fā)質(zhì)量。二,故障不影響業(yè)務(wù)。三,影響業(yè)務(wù)但能快速恢復(fù)。后兩個(gè)層面可以通過“軟件定義”的方式去規(guī)避硬件故障產(chǎn)生的業(yè)務(wù)中斷。
談到可靠性,首更先要了解服務(wù)器的關(guān)鍵基礎(chǔ)部件。從業(yè)界的服務(wù)器統(tǒng)計(jì)數(shù)據(jù)看,硬件部件的問題集中在內(nèi)存、硬盤、CPU、主板、電源、網(wǎng)卡上。在云的環(huán)境當(dāng)中,同一臺(tái)服務(wù)器上可能運(yùn)行了若干不同業(yè)務(wù)、不同場景的虛擬機(jī),一旦物理設(shè)備崩潰,將會(huì)波及眾多用戶,同時(shí)也會(huì)對(duì)運(yùn)營商自身造成巨更大損失。而在現(xiàn)有的故障模式中,內(nèi)存、硬盤故障是更高發(fā)和嚴(yán)重故障。
關(guān)于視頻會(huì)議系統(tǒng)現(xiàn)場的故障和問題的規(guī)避,百睿德作為云會(huì)議服務(wù)的提供商,必須有一整套解決方案。
備選方案一:云直播的UCE錯(cuò)誤導(dǎo)致服務(wù)器系統(tǒng)反復(fù)宕機(jī)重啟。服務(wù)器發(fā)生宕機(jī)重啟,登錄服務(wù)器的BMC管理界面,查詢服務(wù)器的告警信息,在0.5秒以內(nèi)完成備用主機(jī)的接入,隨時(shí)為云直播的平臺(tái)進(jìn)行更底層接力。百睿德專注云視頻會(huì)議的網(wǎng)絡(luò)全球直播,尤擅多語種同聲傳譯會(huì)議的網(wǎng)絡(luò)視頻直播。
備選方案一:視訊內(nèi)容卡慢導(dǎo)致更大數(shù)據(jù)集群故障。某更大數(shù)據(jù)平臺(tái)集群節(jié)點(diǎn)出現(xiàn)慢盤故障(系統(tǒng)每一秒執(zhí)行一次iostat命令,監(jiān)控磁盤I/O的系統(tǒng)指標(biāo),如果在60s內(nèi),svctm更大于100ms的周期數(shù)更大于30次則認(rèn)為磁盤有問題,產(chǎn)生該告警)。更先是ZOOKEEPER出現(xiàn)故障,后出現(xiàn)集群平衡狀態(tài)異常。然后同一節(jié)點(diǎn)的其他服務(wù)也出現(xiàn)故障,最后整個(gè)節(jié)點(diǎn)所有服務(wù)全部故障,隨后重啟自動(dòng)恢復(fù)。但是在3-10分鐘之后該節(jié)點(diǎn)就會(huì)重復(fù)出現(xiàn)此情況。在未發(fā)現(xiàn)其他問題的情況下選擇重啟系統(tǒng),業(yè)務(wù)中斷時(shí)間十幾分鐘。
隨著使用年限的增加,音視頻包括網(wǎng)絡(luò)設(shè)備出現(xiàn)故障或者其他問題的概率也在增加;從歷史問題分布、以及業(yè)界會(huì)議展覽設(shè)備可靠性故障曲線,都可以看到視頻相關(guān)問題正成為影響云會(huì)議直播穩(wěn)定運(yùn)行,所以百睿德云當(dāng)下頗為關(guān)注的是平臺(tái)和系統(tǒng)的有效集成。