高校數據治理現狀
從2020年國務院將數據定位為數字經濟時代的新型生產要素,到2023年國家數據局的組建,數據已經成為新時代各個領域創新發展的原生驅動力。隨著國家層面教育數字化戰略行動的提出,各高校都在積極探索推進數字化轉型。數據作為新型生產要素,其在高校數字化轉型過程中發揮著重要的作用,通過數據要素賦能高校各項事業發展,成為高校數字化轉型的突破點。
數據要素賦能離不開牢固的數據根基,這不僅要求數據有量的積累,更要求數據有質的保障,只有高質量的數據才能充分釋放要素潛能,賦能于高校各項事業的發展。但是對于高校數據本身而言,仍然存在著數據內容缺失、錯誤、不一致等質量問題,這成為影響高校發揮數據要素效能的關鍵因素,開展高校數據質量治理工作迫在眉睫。
高校數據質量治理是高校數據治理框架下的重要工作內容,其側重對數據全生命周期中可能出現的數據質量問題進行識別和監控,并通過改善管理流程、技術手段等一系列舉措來使得高校數據質量得到進一步提升。
數據質量概念的提出最早可以追溯到1958年,它表示數據滿足用戶特定業務場景需求的程度,具體表現在規范性、完整性、準確性、一致性、時效性、可訪問性等多個維度的屬性。數據質量是一個相對性的問題,不同的業務場景下,用戶對于數據質量的需要不盡相同,只要數據能滿足特定業務場景的需求,就可以說數據質量符合要求。
高校數據質量問題表面上看是由數據錄入不規范引發的,但深究其成因,我們發現影響高校數據質量的因素可以歸結為管理因素、技術因素、業務因素三大方面,具體有管理體系不健全、制度建設不完善、職責分工不明確、數據梳理不清晰、數據采集不規范、數據共享不充分、業務理解不到位、工作流程不穩定等表現。
高校數據質量治理思路探析
高校開展數據質量治理工作,就需要從根源上解決這些問題,從管理、技術、業務等角度多管齊下,打造全面綜合的治理體系,并將治理工作形成系統化、持續化的閉環工作模式,長此以往,高校的數據質量才能得到有效提升。如圖所示,高校進行數據質量治理可從如下幾個方面開展相關工作。
組織和人員建設,讓治理工作有保障
高校數據質量治理不是一項單靠信息化部門就能夠單獨完成的工作,需要利益相關單位構建一個穩定的組織機構,在組織架構下開展分工與合作,形成合力共同開展數據質量治理工作。
目前,高?;径汲闪⒂芯W信領導小組等組織機構,應該將數據質量治理的工作內容納入機構工作范圍,從領導層面對數據質量治理工作形成統一認知。
同時,我們也要看到,數據質量治理是一項具體明確的工作,需要有一線人員來負責落實,所以高校應成立數據質量專項工作小組,由學校信息化部門的技術人員及相關部門的系統管理員/業務負責人構成。通過專項小組的建設,實現技術和業務的融通,落實數據質量管理相關工作,收集、核對數據質量問題,制定數據更新計劃,在整個數據生命周期內解決數據質量問題。
圖 高校數據質量治理工作框架
完善制度機制,讓治理工作有據可依
高校數據質量的提升需要通過數據問題整改來實現,這一工作需要交由數據源頭單位來完成,所以必須要從管理制度、流程機制上將相關責任明確到位,推動數據得到有效整改,高校應將對數據質量的相關要求明確寫入學?!稊祿芾磙k法》中,明確數據相關部門的權利與義務,規范數據質量治理的要求和流程,使得數據質量治理相關工作有據可依和有序推進。
同時,考慮到不同業務對于數據質量的要求不盡相同,所以有必要針對每個業務單獨制定《數據質量管理規范》《數據質量技術規范》等文件,規范業務系統的數據質量標準,明確數據負責人和數據維護人角色及相關職責,明確數據錄入、維護、刪除的操作規范和相關機制。
梳理數據,讓治理工作明確范圍
高校應從業務角度出發,梳理數據流向、分類情況和數據間關系等內容,明確基礎數據、衍生數據等分類,形成包含人員身份、教學科研、資產設備、服務保障等在內的數據資源目錄,準確掌握高校數據基本情況,做到底數清、情況明。只有先梳理清楚目前高校的數據情況,才能從中找出關鍵突破點,并根據數據的不同分類,選擇不同的提升數據質量的方法。
數據梳理工作完成后,高校信息化部門應遵循“一數一源”的原則編制數據資源目錄,形成可視化的數據資產清單。高校數據資源目錄不僅是后續開展數據分類分級的前置工作,同時也能夠實現快速的數據溯源。
統一數據標準,讓治理工作規范開展
統一的數據標準是高校數據質量治理工作的基礎,也是數據質量評價的重要依據,高校越早統一數據標準,后期的數據質量治理成本就越低。
教育部已經發布《教育管理信息教育管理基礎信息》《教育管理信息教育管理基礎代碼》等標準規范,高??稍诮逃繕藴?、行業標準基礎上,結合學校自身實際業務情況,遵循可行性、合理性、可擴展性、規范性等原則來制定數據標準。
考慮到數據標準也是要應用在各業務系統中才能實現統一標準,這就要求高校在采購系統供應商服務時,不僅要考慮其技術能力及業務成熟度,還需要考慮其數據架構對現有數據標準的兼容性。
規范數據采集,讓治理工作變得簡單
規范數據采集主要包含兩個方面,一是從管理上規范,避免不同業務系統重復采集相同數據;二是從技術上規范采集過程,避免采集過程中出現臟數據。
通過技術手段來規范采集過程,需要業務系統在采集數據的時候,針對重要數據進行完整性、一致性等質量監測設置,達到能讓用戶選擇的就不要讓用戶去填寫的效果,對數據的前后內容進行驗證,嚴格按照數據標準來進行采集,避免出現數據采集錯誤或者不按標準采集數據的情況,同時在系統設計中,也要對數據刪除權限進行嚴格管控,避免數據出現不一致。
數據共享共用,讓治理工作有側重點
基于數據共享平臺,可以將數據推送給有數據需求的業務系統或者數據門戶、一表通等數據服務平臺,將數據充分應用到職稱評審、年度考核、評獎評優等關注度比較高的業務中,增加數據應用場景和數據服務力度。
數據利用的頻度高了,問題數據的曝光率也隨之增加,從而催生個體進行數據修正的驅動力,待數據問題在數據源頭修正后,數據質量也就隨之得到提升。
通過數據的共享共用,一定程度上可以避免因為數據重復采集導致的數據不一致的情況。另外,共享共用,也是為數據找到業務驅動的過程,由業務驅動,數據質量就更容易得到提升。
建立考核評價體系,讓治理工作有抓手
建立數據質量考核評價體系是高校實施和貫徹數據質量治理相關標準、制度和流程的抓手。實際操作中,可以根據高校的具體情況明確牽頭部門、輔助部門和考核主體,建立考核制度和認責體系,設置考核指標和考核辦法,并將考核要求納入年度部門考核中,督促相關單位加強數據質量管理并及時整改數據質量問題。
考核指標可由兩部分組成:一部分是對數據生產、管理和應用情況的評價,另一部分是對數據質量的評價。
對于數據質量的評價可以通過如下步驟開展:一是明確數據主體所涉及的質量屬性。二是根據質量屬性編制對應質量評價規則。三是根據數據主體的應用場景,為數據質量評價規則設定權重。四是執行評價規則,采用定量評價與定性評價相結合的方式對數據主體進行質量評價。
作者:楊樹春(對外經濟貿易大學網絡安全和信息化處)