物聯(lián)網(wǎng)數(shù)據(jù)的精煉應(yīng)用是跨越數(shù)字化轉(zhuǎn)型鴻溝的基礎(chǔ)
隨著公司根據(jù)從物聯(lián)網(wǎng)設(shè)備獲得的數(shù)據(jù)實(shí)施更多的用例,甚至完成業(yè)務(wù)模式轉(zhuǎn)型,需要一種對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量管理的結(jié)構(gòu)化方法變得至關(guān)重要。太多的公司試圖在質(zhì)量低劣的數(shù)據(jù)基礎(chǔ)上擴(kuò)大數(shù)字化轉(zhuǎn)型,這會(huì)導(dǎo)致很多挫敗感,并且?guī)缀鯖]有實(shí)際的商業(yè)利益。
我有時(shí)會(huì)用著名的“跨越鴻溝”圖進(jìn)行類比。事實(shí)上,初創(chuàng)公司從早期創(chuàng)新者轉(zhuǎn)向被大多數(shù)市場采用所面臨的挑戰(zhàn)有相似之處。當(dāng)應(yīng)用于數(shù)字化轉(zhuǎn)型時(shí),挑戰(zhàn)在于跨越從成功的數(shù)字化試點(diǎn)項(xiàng)目到全面實(shí)施的鴻溝。
許多公司無法在試點(diǎn)階段之后擴(kuò)大數(shù)字化轉(zhuǎn)型計(jì)劃。
行業(yè)公司最近的研究證實(shí),數(shù)據(jù)質(zhì)量是擴(kuò)展工業(yè)分析的主要障礙之一。換句話說,眾所周知的“垃圾進(jìn)——垃圾出”的口號(hào)仍然很盛行。
了解數(shù)據(jù)質(zhì)量
現(xiàn)在,盡管數(shù)據(jù)質(zhì)量對(duì)我們大多數(shù)人來說具有直觀的意義,但實(shí)際上它是一個(gè)具有多種可能定義的彈性概念。這些范圍可以更窄,例如:
當(dāng)數(shù)據(jù)正確地代表了它想要描述的潛在現(xiàn)實(shí)世界現(xiàn)象時(shí),數(shù)據(jù)就具有良好的質(zhì)量。
根據(jù)這個(gè)定義,數(shù)據(jù)需要有效、準(zhǔn)確、一致和完整等。數(shù)據(jù)質(zhì)量的另一個(gè)常見且同樣有用的定義如下:
當(dāng)數(shù)據(jù)適合目的時(shí),數(shù)據(jù)的質(zhì)量就很好。
在第二個(gè)定義中,數(shù)據(jù)結(jié)構(gòu)化、可解釋性和情境化的方面也被納入考慮范圍,只要這些方面與預(yù)期用例相關(guān)。
物聯(lián)網(wǎng)數(shù)據(jù)精煉廠
就像煉油廠中原油的情況一樣,質(zhì)量可能較差的原始數(shù)據(jù)可以得到提煉??梢詫⑵湟暈橥ㄟ^一系列“質(zhì)量門”的數(shù)據(jù),如下所示:
門1:可訪問
數(shù)據(jù)在可供使用時(shí)到達(dá)此門。此步驟需要成功連接到數(shù)據(jù)源并能夠查詢/讀取樣本。
門2:結(jié)構(gòu)化和情境化
通過此門的數(shù)據(jù)是結(jié)構(gòu)化和情境化的。對(duì)于物聯(lián)網(wǎng)數(shù)據(jù),此步驟通常意味著已添加設(shè)備和資產(chǎn)元數(shù)據(jù)以及其他關(guān)鍵上下文。
門3:已驗(yàn)證
下一步是數(shù)據(jù)的質(zhì)量驗(yàn)證。此時(shí),數(shù)據(jù)質(zhì)量是根據(jù)許多關(guān)鍵維度進(jìn)行評(píng)估的,包括準(zhǔn)確性、一致性和及時(shí)性。
門4:清理
評(píng)估數(shù)據(jù)質(zhì)量通常是不夠的。許多數(shù)據(jù)產(chǎn)品需要數(shù)據(jù)清理作為管道的一部分來創(chuàng)建可供使用的數(shù)據(jù)。
門5:帶注釋
除了清理和結(jié)構(gòu)化之外,可能還需要由主題專家(SME)或數(shù)據(jù)管理員提供的附加標(biāo)簽,以使數(shù)據(jù)適合使用。例如,可以標(biāo)記資產(chǎn)關(guān)閉的時(shí)間段或在檢查問題后添加根本原因信息。
門6:驗(yàn)證
對(duì)于關(guān)鍵數(shù)據(jù)(例如關(guān)鍵報(bào)告或計(jì)費(fèi)中使用的數(shù)據(jù)),讓數(shù)據(jù)管理員明確驗(yàn)證數(shù)據(jù)并承諾適合使用的事實(shí)通常是一種很好的做法。
門7:共享
此時(shí),數(shù)據(jù)已準(zhǔn)備好共享。共享可以發(fā)生在內(nèi)部或外部、與供應(yīng)商或客戶。
門8:可視化
數(shù)據(jù)可視化和探索是下一步。分析師可以在PowerBI或類似的描述性分析環(huán)境中研究數(shù)據(jù)。
門9:建模
一些數(shù)據(jù)用于建模。此任務(wù)通常由數(shù)據(jù)科學(xué)家執(zhí)行。
門10:預(yù)測
最后,模型可用于對(duì)新傳入數(shù)據(jù)進(jìn)行預(yù)測。
隨著數(shù)據(jù)通過大門,它變得更加精致、更加值得信賴、更加有價(jià)值。我們確實(shí)可以將這個(gè)逐步過程視為“數(shù)據(jù)精煉廠”,并與煉油廠或蒸餾過程進(jìn)行類比。
在真實(shí)的煉油廠中,生產(chǎn)各種產(chǎn)品。例如,靠近蒸餾塔底部的地方生產(chǎn)柴油和煤油等成分,用于重型卡車和噴氣式飛機(jī)。汽車中使用的汽油混合成分等較輕的成分被提取到蒸餾塔的頂部。
同樣,我們的數(shù)據(jù)精煉廠可能會(huì)產(chǎn)生各種數(shù)據(jù)產(chǎn)品。并非所有這些產(chǎn)品都同樣精致。重要的是,我們知道每個(gè)產(chǎn)品在數(shù)據(jù)特征和質(zhì)量方面的期望。沒錯(cuò),我們不想不小心把煤油放進(jìn)我們的跑車?yán)铮?/p>
數(shù)據(jù)產(chǎn)品占據(jù)中心舞臺(tái)
當(dāng)公司意識(shí)到有必要明確定義數(shù)據(jù)產(chǎn)品作為數(shù)據(jù)基礎(chǔ)設(shè)施和最終用戶應(yīng)用程序之間的一層時(shí),就會(huì)出現(xiàn)宣泄的時(shí)刻。
數(shù)據(jù)產(chǎn)品由K2view定義為