相關性分析
我們希望一個項目內的客群是豐富的,而且店鋪之前是可以互相影響的,但如何判斷這個標準在以往的手段中是無法做到的。為此我們引入相關性分析作為分析手段。
相關性分析可以在眾多數據中找到兩個不同品牌、樓層的統一性,從而確定兩者是否存在強相關。舉例來說,可以分析兩個位置不相關、品類不相關的品牌,在銷售周期區間是否有同樣的銷售波動曲線。
如圖中,在規定時段內,某商場全部品牌和其余每一個品牌的相關性。分別展示了正向強相關的兩個品牌和負向相關的品牌。在單位時間內,正相關品牌具備強烈的趨同銷售曲線趨勢,這可以判定該品牌組合即使不在同一樓層和品類,仍可能享有同一客群。
用輪詢方式計算了規定時段內,某商場全部品牌和其余每一個品牌的相關性。分別展示了正向強相關的兩個品牌和負向相關的品牌。在單位時間內,正相關品牌具備強烈的趨同銷售曲線趨勢,這可以判定該品牌組合即使不在同一樓層和品類,仍可能享有同一客群。
而存在負相關的品牌則說明該品牌組合可能存在完全不同的客群,根據這個算法,可以計算出某一品類與另一品類之間的相關性和相互作用。
從上圖可以看出,餐飲則與其他業態關聯性不強,這可以判斷餐飲客人的消費習慣并不和其他品牌相關;另一方面,配套業態品牌內循環非常強烈,說明該品類客群內部消化情況很重,同時對于其他品類也有貢獻;最后零售業內部關聯數量為0,則說明這個品類的客群有可能是非常不同的。綜上均需要進一步分析,以便于得到更完整的結論。
品牌相關性分析算法相對簡單,不用過多的數學計算,對于客群、店鋪銷售數據不完整的情況下,分析客群是非常有效的。但必須要確定數據的真實性和可靠性,且數據清洗過程必須嚴密,否則數據不能得到有效結果。最后相關性閥值一定要有所取舍,否則會得到一張非常繁雜的報表。
根據以上計算,配合每月分析,可以得到各品類客群的流動性分析,判斷企劃引流是否奏效。
時間序列分析
當判斷一個品牌是否具備強勁交易能力,或者判斷生命周期時,應該對其進行時間序列分析。時間序列分析是指將原來的銷售分解為四部分來看——趨勢、周期、時期和不穩定因素,然后綜合這些因素,提出銷售預測。強調的是通過對一個區域進行一定時間段內的連續遙感觀測,提取圖像有關特征,并分析其變化過程與發展規模。
通過時間序列分析,可以尋找到數據的長期趨勢變化、季節性周期變化、循環變化、隨機性變化。一般在這個領域使用的模型有AR 、 MA、 ARMA等。
計算的過程,除了需要計算自相關性和偏自相關性,還需要在計算結果后以AIC BIC進行驗證,同時其中數學期望的指定非常重要,它會影響算法的準確是否偏差過大。
某個品牌的銷售能力可以通過去除白噪聲的趨勢進行預判,這是時間序列分析的最大益處。在沒有過多參考參數情況下,數據的同方差性、自相關性對于判斷自身銷售趨勢有著重要的影響。
如一個品牌的銷售,我們可以用移動平均模型進行預測:
但需要注意,時間序列模型無法判斷相對于樣本較長期的數據預測,根據以往經驗,不得超過3倍q值或k值,否則會導致預測數據平穩化,從而失去算法預測意義。且置信區間會隨著預測周期的延長而變為喇叭狀,預測方差檢驗會越來越大,也就失去了判斷的標準。實際經營中,交易能力的判斷也許會影響商業調改、經營預警等等經營環節。
上面介紹了多維度和單維度的數據如何分析,但當數據維度不足時,如何進行分類和劃分,以便于達到分析目的,這便要引用支持向量機作為分析手段
支持向量機
支持向量機最直觀的解釋是可以將低緯度數據映射為高維度,比如在只有2~3行會員參數的情況下(如只有年齡、性別、消費金額),可能無法在已有算法內進行準確分隔,支持向量機提供的理論可以將低緯度數據映射為多維度數據,這樣即可在映射后的數據中添加超平面,用來分隔數據,也就是可以基于支持向量機的方法進行有效的數據回歸和分類。這種算法可以更準確的分析樣本屬性,更加準確的分析對方價值。
依照此理論,我對某商業品牌的按月品牌銷售和國家統計局數據人均存款指數和消費者價格指數進行輔助,進行了SVM回歸,使用高斯核函數,得到預測值與實際值殘差極小的結果。
支持向量機可以進行分類和回歸,最常用的分類應用對于顧客分類是非常有效的,同時也可以對商家的經營情況預警進行分類。同時如上圖所示,SVM的回歸效果也相當不錯。
支持向量機的關鍵在于核函數的選擇,它對于最終結果起著決定性的作用,因此在核函數選擇的原則非常關鍵。有時往往需要多次試驗,會發現不是所有的品牌都可以利用同一個核函數,這時可以對數據進行標準化或正則化預處理