隨著大數(shù)據(jù)時(shí)代的到來與經(jīng)濟(jì)的不斷發(fā)展,物流企業(yè)管理人員面對(duì)的數(shù)據(jù)呈現(xiàn)豐富化、多樣化的趨勢(shì),這為善于使用從數(shù)據(jù)中挖掘出有用信息的物流企業(yè)帶來了全新的機(jī)遇,也給粗放式管理的物流企業(yè)帶來了新的挑戰(zhàn)。如何從繁雜的數(shù)據(jù)集中發(fā)掘出有價(jià)值的信息,對(duì)每個(gè)希望在大數(shù)據(jù)時(shí)代實(shí)現(xiàn)風(fēng)險(xiǎn)管理與評(píng)估的物流企業(yè)都具有重要的研究意義。
數(shù)據(jù)挖掘在物流企業(yè)風(fēng)險(xiǎn)管理與評(píng)估中既有計(jì)算機(jī)科學(xué)技術(shù)與機(jī)器學(xué)習(xí)的內(nèi)容,還融合了金融學(xué)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)等多方面的學(xué)科理論與方法
物流企業(yè)獲取到用于進(jìn)行風(fēng)險(xiǎn)管理評(píng)估的數(shù)據(jù),往往呈現(xiàn)海量性、多樣性的特點(diǎn)。物流企業(yè)可能從多個(gè)數(shù)據(jù)庫中取得大量呈現(xiàn)多個(gè)維度,具有多種形式的信息,例如文字、圖表等,形成龐大的數(shù)據(jù)集。這一方面體現(xiàn)了應(yīng)用數(shù)據(jù)挖掘技術(shù)的意義,另一方面也對(duì)數(shù)據(jù)的清洗和預(yù)處理提出了更高的要求。
物流企業(yè)在進(jìn)行風(fēng)險(xiǎn)管理時(shí)所參考數(shù)據(jù)往往是跨越多個(gè)層面,涉及多個(gè)維度的,這些未經(jīng)過處理的臟數(shù)據(jù)中往往或多或少地存在噪點(diǎn)、分散、缺失值、離群值等問題
物流企業(yè)在將獲取到的非結(jié)構(gòu)化數(shù)據(jù)處理為結(jié)構(gòu)化的數(shù)據(jù)后,便可以對(duì)這些結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘建模,發(fā)掘其中隱含的風(fēng)險(xiǎn)信息。此時(shí)物流企業(yè)需要面對(duì)兩大問題。第一大問題是難以找到與物流企業(yè)需求完全貼合的數(shù)據(jù)挖掘算法。在預(yù)測(cè)性數(shù)據(jù)挖掘中,由于數(shù)據(jù)具有較強(qiáng)的動(dòng)態(tài)性與實(shí)時(shí)性,一個(gè)運(yùn)行時(shí)間較長的算法往往是不被容忍的。第二大問題是數(shù)據(jù)挖掘算法的開發(fā)。在信息化時(shí)代,具備一定規(guī)模的物流企業(yè)產(chǎn)生的風(fēng)險(xiǎn)信息資源往往較為龐大,對(duì)從這些資源中抽取出的數(shù)據(jù)集進(jìn)行挖掘往往需要耗費(fèi)大量的時(shí)間。如果將靜態(tài)的算法套用到復(fù)雜多變的需求中,而不對(duì)其進(jìn)行定制與進(jìn)一步開發(fā),是難以完成物流企業(yè)風(fēng)險(xiǎn)管理與評(píng)估的數(shù)據(jù)挖掘任務(wù)的。
物流企業(yè)在應(yīng)用數(shù)據(jù)挖掘技術(shù)時(shí),往往會(huì)統(tǒng)合各部門的數(shù)據(jù),建立信息化大數(shù)據(jù)管理平臺(tái)。這一方面提高了物流企業(yè)的信息化程度,另一方面也成為物流企業(yè)新的風(fēng)險(xiǎn)點(diǎn)
要想對(duì)非結(jié)構(gòu)化的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)其中蘊(yùn)含的物流企業(yè)風(fēng)險(xiǎn)信息,我們需要對(duì)獲取到的數(shù)據(jù)進(jìn)行清洗及預(yù)處理,提升數(shù)據(jù)集的質(zhì)量,并使其更易于建模。針對(duì)原始數(shù)據(jù)集面臨的問題,主要有以下幾種解決思路。(1)數(shù)據(jù)降噪。原始數(shù)據(jù)集中常常存在由于各種測(cè)量錯(cuò)誤、記錄錯(cuò)誤導(dǎo)致的噪點(diǎn),為此我們要通過噪聲降除算法進(jìn)行處理。例如將有序的原始數(shù)據(jù)進(jìn)行分箱,根據(jù)一定的規(guī)則劃分出某屬性的多個(gè)區(qū)間,再通過平均值平滑、邊界值平滑等方法聚合各分箱中的數(shù)據(jù),這樣可以將一個(gè)區(qū)間內(nèi)的一組數(shù)據(jù)用一個(gè)有代表性的數(shù)據(jù)表示,在不改變數(shù)據(jù)原有含義的基礎(chǔ)上便于輸入模型進(jìn)行分析?;蛘呋跀?shù)據(jù)集的其他特征運(yùn)用聚類方法進(jìn)行分簇,通過離群的孤立點(diǎn)或小數(shù)據(jù)簇找出噪點(diǎn)。在實(shí)際操作中,應(yīng)使用機(jī)器挖掘與人工檢驗(yàn)相結(jié)合的方法,由熟悉業(yè)務(wù)的管理人員或核心員工判斷是否應(yīng)作為普通噪點(diǎn)處理。(2)數(shù)據(jù)填充。為了應(yīng)對(duì)原始數(shù)據(jù)集中的數(shù)據(jù)缺失,將含有缺失項(xiàng)的數(shù)據(jù)樣本整個(gè)丟棄是最簡(jiǎn)單易行的方法。但這種方法只適用于含有數(shù)據(jù)缺失的樣本較少,或含有數(shù)據(jù)缺失的樣本不重要時(shí)使用,否則會(huì)造成數(shù)據(jù)集較為嚴(yán)重的萎縮。因此,我們還可以采取另一種思路,即用一定的方法將其填充起來。如將一些未能收集到或已丟失的數(shù)據(jù)項(xiàng)用特殊值填充,使其可被作為有意義的數(shù)據(jù)項(xiàng)處理,又可以標(biāo)記該數(shù)據(jù)項(xiàng)具有特殊意義。或者利用統(tǒng)計(jì)學(xué)方法,結(jié)合該數(shù)據(jù)樣本的其他數(shù)據(jù)項(xiàng),采取中值填充、均值填充等方法,也可找到大致合理的值實(shí)現(xiàn)缺失數(shù)據(jù)項(xiàng)的填充。(3)離群值處理。數(shù)據(jù)集中的離群值有些是由于數(shù)據(jù)獲取時(shí)的誤差產(chǎn)生的,應(yīng)進(jìn)行異常值檢測(cè)與處理。傳統(tǒng)物流企業(yè)一般采用人工檢測(cè)的方法,選取對(duì)業(yè)務(wù)需求較為了解的員工,人為選出離群的數(shù)據(jù)項(xiàng),但這種方法難以適應(yīng)大數(shù)據(jù)時(shí)代信息處理的需要,且可能產(chǎn)生新的錯(cuò)誤?,F(xiàn)代物流企業(yè)應(yīng)通過設(shè)計(jì)合適的算法或建立模型的方法解決問題,基于統(tǒng)計(jì)學(xué)的異常值檢測(cè)處理方法是最常用的離群值提取方法,這種方法將數(shù)據(jù)的基礎(chǔ)分布假設(shè)為正態(tài)分布,結(jié)合3σ法則判斷離群值,但不適用于基礎(chǔ)分布難以描述的模型。或者基于樣本兩兩之間的歐式距離、編輯距離在所有樣本中的該距離分布,識(shí)別出離群點(diǎn)或離群簇,進(jìn)而將其刪除或進(jìn)一步分析,挖掘其中可能隱藏的物流企業(yè)風(fēng)險(xiǎn)信息。
各物流企業(yè)的風(fēng)險(xiǎn)信息數(shù)據(jù)具有自己獨(dú)特的特性,對(duì)模型的準(zhǔn)確度、實(shí)時(shí)性的要求也不盡相同。如有些物流企業(yè)對(duì)人事變動(dòng)較為敏感,員工離職成為損失期望值較大的風(fēng)險(xiǎn)點(diǎn),這些物流企業(yè)往往希望基于以往的離職員工簡(jiǎn)歷、離職原因、股市變動(dòng)等多維度信息進(jìn)行描述性數(shù)據(jù)挖掘,盡可能詳細(xì)地從多方面描述導(dǎo)致員工離職的因素,幫助物流企業(yè)保護(hù)自己的人才資源。甚至如Entelo公司的“前獵頭”服務(wù),通過70多個(gè)指標(biāo)分析核心人才的離職傾向,推送給購買了他們服務(wù)的物流企業(yè)家。還有的公司以期貨市場(chǎng)波動(dòng)為主要風(fēng)險(xiǎn)點(diǎn),希望基于近幾日的市場(chǎng)信息盡快完成預(yù)測(cè)性數(shù)據(jù)挖掘任務(wù),注重模型的運(yùn)行效率。由此可知,一個(gè)適合物流企業(yè)風(fēng)險(xiǎn)管理的數(shù)據(jù)挖掘模型應(yīng)該是針對(duì)某一物流企業(yè)的需求定制的,且具有較強(qiáng)的交互性與可視化功能。
面對(duì)搭建信息化大數(shù)據(jù)平臺(tái)時(shí)面臨的新風(fēng)險(xiǎn),物流企業(yè)需要在多方面做出應(yīng)對(duì)。一方面可以成立大數(shù)據(jù)平臺(tái)管理小組,由深刻理解業(yè)務(wù)且具備大數(shù)據(jù)與IT知識(shí)的管理人員領(lǐng)導(dǎo)。同時(shí)由于大數(shù)據(jù)平臺(tái)統(tǒng)合了物流企業(yè)的所有業(yè)務(wù)數(shù)據(jù)與管理信息,如果采用物流企業(yè)外部招聘的方法獲取大數(shù)據(jù)平臺(tái)管理小組的成員,由于這些人員對(duì)物流企業(yè)業(yè)務(wù)與風(fēng)險(xiǎn)點(diǎn)不熟悉導(dǎo)致出現(xiàn)工作效率較低、錯(cuò)誤率較高的問題,還會(huì)增加物流企業(yè)數(shù)據(jù)泄露的風(fēng)險(xiǎn)。因此,從物流企業(yè)內(nèi)部選拔一批熟悉公司業(yè)務(wù)與風(fēng)險(xiǎn),并具備一定IT知識(shí)的綜合性人才進(jìn)行培養(yǎng),是物流企業(yè)獲取大數(shù)據(jù)風(fēng)險(xiǎn)管理人才較好的辦法。另一方面,物流企業(yè)應(yīng)健全大數(shù)據(jù)信息管理體系,建立起一套全面、高效、安全的大數(shù)據(jù)信息管理系統(tǒng)與規(guī)章制度。規(guī)范大數(shù)據(jù)管理人員的權(quán)限分級(jí)管理、身份識(shí)別工作,強(qiáng)化數(shù)據(jù)加密存儲(chǔ)的意識(shí)與能力,確保權(quán)限不足的人員訪問相應(yīng)加密數(shù)據(jù)時(shí)受到制約。
總而言之,數(shù)據(jù)挖掘技術(shù)可以從多個(gè)維度實(shí)現(xiàn)高價(jià)值數(shù)據(jù)的提取,在大數(shù)據(jù)時(shí)代有著豐富的應(yīng)用與廣闊的前景,對(duì)想要實(shí)現(xiàn)風(fēng)險(xiǎn)管理與評(píng)估的大數(shù)據(jù)時(shí)代物流企業(yè)具有重要意義。本文研究了數(shù)據(jù)挖掘技術(shù)應(yīng)用的過往經(jīng)驗(yàn)與現(xiàn)狀,以及物流企業(yè)應(yīng)用落地的問題與對(duì)策,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展與物流企業(yè)應(yīng)用經(jīng)驗(yàn)的積累,數(shù)據(jù)挖掘技術(shù)在物流企業(yè)風(fēng)險(xiǎn)管理與評(píng)估中必將有更大的用武之地,為市場(chǎng)經(jīng)濟(jì)的發(fā)展提供更強(qiáng)的動(dòng)力。