国产精品一久久香蕉产线看-国产精品一区在线播放-国产精品自线在线播放-国产毛片久久国产-一级视频在线-一级视频在线观看免费

以集市賣家為例對用戶進行分層

時間:2022-07-10 18:48:10 其他 我要投稿
  • 相關推薦

以集市賣家為例對用戶進行分層

本文討論的是用戶分層,有別于常規的用戶細分,最大的區別在于分層是定序的概念,即各層之間有遞進關系;而常規細分是定類的概念,即各類之間相對獨立。廣義上而言,細分包括分層。
現以集市賣家分層為例,介紹整個研究方法。根據以往賣家研究的經驗,選取參與賣家分層的重要變量,從BI提取了100萬集市賣家的相關數據。
重構變量
首先對100萬集市賣家數據進行清洗,考察各重要變量的分布情況。由于一些定距變量存在超出正常范圍的數據,如交易數量、交易額等;一些定序變量兩端組的樣本過少,如賣家星級、店鋪類型等。這些都不利于模型的建構,因此將每個待分析變量都細分出若干組,原則為:組盡量多,能與定距變量更相當;每組的分布盡量保證在正常范圍內,避免出現異常值。調整后的分組情況表略。其次,需要查看一下各變量的方向,后續分析的時候,根據輸出的統計量來觀察各變量之間是否有不同。如果方向有不同,最好能做相應的調整。
將100萬數據隨機拆分出三個60萬的數據庫,四個數據分別作后續分析,以保證所得指數的穩定性。
因子分析
首先對重要變量做因子分析,去除變量間的多重共線性,經多次嘗試,剔除了支付寶交易量和交易額的結果更加穩定,且更符合業務經驗。最終得到的KMO值為0.788,Bartlett 球形檢驗顯著,非常適宜進行因子分析。最終萃取出6個公因子,依次為GMV與星級、時長情況、訂購服務情況、旺鋪類型、實物商品、是否參加消保等,累積方差貢獻率為90.4%(詳見下表),解釋效果很強;變量原始矩陣與重構矩陣之間的殘差>0.05的個數比例為10%,擬合效果也非常好。
經多次驗證整個因子分析非常穩定,前三個因子的累積方差貢獻率達到60%,為主要因子;后三個因子的累積方差貢獻率為30%,是次要因子。這與日常業務經驗也非常吻合。

分層
利用六個因子得分可以算出每個樣本的因子綜合得分,其中六個因子得分軟件能夠自動計算出來;各因子得分在因子綜合得分中所占比例,可由(每個公因子的方差貢獻率/累積方差貢獻率)算得(詳見下表),也可以直接使用每個公因子的方差貢獻率。

因為因子綜合得分為標準化值,利用(X-最小值)/(最大值-最小值),將其轉化為0-100的指數,然后按照指數高低,并結合實際現狀對其進行分層,TOP1為指數最高的10%,TOP2為指數次高的20%,TOP3為指數次高的30%,剩余的是第四層,指數最低的40%。此種劃分方法比較簡單,數據也較穩定,利于實際應用。各組上下限如下表,此種劃分的上下限可以固定下來,逐步修正。

判別分析
按照7:3的比例劃分為分析樣本和驗證樣本,利用判別分析對這四層劃分結果進行檢驗,即用6個因子得分與層級做判別分析。所得判別函數對區分各層均有顯著貢獻,且第一個判別函數解釋的方差貢獻率達到98.2%,為主函數。使用組內協方差陣計算,分析樣本和驗證樣本的正確率、交叉核實法的正確率均為91.6%,達到很高的水平。
各層賣家在重要變量上均存在較明顯的差異,詳情如下:

從六個因子中找出解釋力較高的關鍵變量,并根據實際業務經驗判斷是否合適,最終選定了七個關鍵變量。它們直接與層級做判別分析,第一主判別函數的方差貢獻率為97.8%,使用組內協方差陣計算,分析樣本和驗證樣本的正確率、交叉核實法的正確率均為85.0%,也達到很高的水平。
回歸分析
為了方便應用,簡化分層的計算過程,用判別分析中確定的七個關鍵變量與因子綜合得分指數作回歸分析,以考察他們的解釋力。
回歸分析結果顯示,R、R Square、Adjusted R Square分別為0.985、0.970、0.970;剩余標準誤差為2.709,達到較小的水平;Durbin-Watson的值為1.252,與2有一定差距,殘差間的獨立性尚可,綜合判斷,模型解釋效果非常好。
多重共線性方面,賣家星級的容忍度值最小為0.39,第八個主成分的條件指數小于15,表明不存在嚴重的多重共線性。
各變量的主要指標如下:


經標準化偏回歸系數和偏相關系數共同分析,可知開店時長、近三個月GMV金額、賣家星級等對因子綜合得分指數的影響更重要。
因子綜合得分指數=a+b1*賣家星級分段+b2*開店時長分段+b3*近三個月GMV總金額分段+ b 4*店鋪類型+ b 5*是否主營實物+ b 6*訂購服務個數分段+ b 7*是否參加消保
因此,通過這七個關鍵變量預測因子綜合得分指數非常合適,得到新的因子綜合得分指數后,根據上文中的上下限臨近值,即可劃分賣家層級。
綜上所訴,研究流程歸納如下:
1、根據以往研究中對用戶的理解,確定參與分層的重要變量,提取后臺數據,對數據進行清洗和處理;
2、采用因子分析對參與分析的重要變量進行降維,計算出因子綜合得分;
3、將因子綜合得分轉換成指數,根據指數的分布情況,對用戶進行分層,并用判別分析,對分層結果進行驗證;
4、根據因子分析中變量的解釋情況和業務實際情況,從重要變量中篩選出關鍵變量作為自變量,把因子綜合得分作為因變量,建立回歸方程,用關鍵變量推算因子綜合得分,進行快速分層,便于后期業務應用;
5、將后臺數據隨機拆分成不同的數據庫,分別重復以上分析過程,反復驗證結果的穩定性。
后續研究的思考
整個研究做下來,或許最有價值的是最終得到的回歸方程,雖然解釋力很高,但仍然缺少一些不易獲得的重要變量,如每月投入廣告的金額,包括直通車、鉆石展位等,后續的研究會逐漸把這些變量納入其中。這也表明,用戶分層研究考察的變量需要盡可能周全,這樣結果才能更具參考價值。
還有就是最后的分層結果顯得“平淡”,各層賣家在重要變量上,基本都是強者愈強、弱者愈弱,特色不明顯。這也是分層研究與細分研究的區別所在,分層更多體現的是趨勢性的結果。后續可以嘗試采用不等概率的抽樣方式減少一部分樣本,如發單量低的賣家占了絕大多數,可以適當減少這部分樣本,一定程度上能夠均衡各個重要變量在分層中的作用。
不論哪種樣本結構,都需要在實際應用中,檢驗效果,不斷迭代完善。

[以集市賣家為例對用戶進行分層]相關文章:

1.以集市賣家為例對用戶進行分層

《完美世界辰东,完美世界有声小说全集,魔天记 忘语 小说.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

【以集市賣家為例對用戶進行分層】相關文章:

雙減教研小學語文如何進行分層作業設計02-25

熱鬧的集市作文04-17

《集市和超市》教學設計04-05

賣家感謝信03-20

端午節集市優秀作文11-07

用戶分析崗位職責01-15

分層教學心得體會08-29

賣家給買家的道歉信01-29

賣家道歉信01-27

淘寶賣家的道歉信03-25

主站蜘蛛池模板: 老司机午夜视频在线观看 | 艳妇乳肉豪妇荡乳 | 在线视频一区二区三区四区 | 一个人看的www视频在线播放 | 九九精品成人免费国产片 | 一级做a爰视频免费观看2019 | 国产黄色大片网站 | 亚洲精品国产福利片 | 黄色短视频网站 | 操操网站| 欧美在线观看a | 欧美中文字幕一二三四区 | 亚洲美女高清aⅴ视频免费 亚洲美女福利 | 笫一次爽女人免费视频 | 最近的中文字幕大全免费8 最近的中文字幕2019更新 | 久久久国产成人精品 | 毛片免费在线观看 | 国产高清片 | 成年大片免费高清在线观看 | 老妇毛片| 国产一卡二卡≡卡四卡无人 | 亚洲日本一区二区三区在线 | 久热久操| 国产成人一区二区三中文 | 最近资源中文字幕4 | 国内精品免费久久久久妲己 | 波多野结衣一区二区三区88 | 成人免费视频网 | 国产精品亚洲国产三区 | 日韩欧美亚洲视频 | 国产精品成人免费视频 | 午夜影视剧场 | 国产成人亚洲综合小说区 | 华人欧美国产在线精品 | 国产精品成人一区二区三区 | 成人怡红院 | 性激烈的欧美三级高清视频 | 午夜久久免影院欧洲 | 久久久精品国产免费观看同学 | 亚洲成人福利在线观看 | 天天插天天射 |

以集市賣家為例對用戶進行分層

本文討論的是用戶分層,有別于常規的用戶細分,最大的區別在于分層是定序的概念,即各層之間有遞進關系;而常規細分是定類的概念,即各類之間相對獨立。廣義上而言,細分包括分層。
現以集市賣家分層為例,介紹整個研究方法。根據以往賣家研究的經驗,選取參與賣家分層的重要變量,從BI提取了100萬集市賣家的相關數據。
重構變量
首先對100萬集市賣家數據進行清洗,考察各重要變量的分布情況。由于一些定距變量存在超出正常范圍的數據,如交易數量、交易額等;一些定序變量兩端組的樣本過少,如賣家星級、店鋪類型等。這些都不利于模型的建構,因此將每個待分析變量都細分出若干組,原則為:組盡量多,能與定距變量更相當;每組的分布盡量保證在正常范圍內,避免出現異常值。調整后的分組情況表略。其次,需要查看一下各變量的方向,后續分析的時候,根據輸出的統計量來觀察各變量之間是否有不同。如果方向有不同,最好能做相應的調整。
將100萬數據隨機拆分出三個60萬的數據庫,四個數據分別作后續分析,以保證所得指數的穩定性。
因子分析
首先對重要變量做因子分析,去除變量間的多重共線性,經多次嘗試,剔除了支付寶交易量和交易額的結果更加穩定,且更符合業務經驗。最終得到的KMO值為0.788,Bartlett 球形檢驗顯著,非常適宜進行因子分析。最終萃取出6個公因子,依次為GMV與星級、時長情況、訂購服務情況、旺鋪類型、實物商品、是否參加消保等,累積方差貢獻率為90.4%(詳見下表),解釋效果很強;變量原始矩陣與重構矩陣之間的殘差>0.05的個數比例為10%,擬合效果也非常好。
經多次驗證整個因子分析非常穩定,前三個因子的累積方差貢獻率達到60%,為主要因子;后三個因子的累積方差貢獻率為30%,是次要因子。這與日常業務經驗也非常吻合。

分層
利用六個因子得分可以算出每個樣本的因子綜合得分,其中六個因子得分軟件能夠自動計算出來;各因子得分在因子綜合得分中所占比例,可由(每個公因子的方差貢獻率/累積方差貢獻率)算得(詳見下表),也可以直接使用每個公因子的方差貢獻率。

因為因子綜合得分為標準化值,利用(X-最小值)/(最大值-最小值),將其轉化為0-100的指數,然后按照指數高低,并結合實際現狀對其進行分層,TOP1為指數最高的10%,TOP2為指數次高的20%,TOP3為指數次高的30%,剩余的是第四層,指數最低的40%。此種劃分方法比較簡單,數據也較穩定,利于實際應用。各組上下限如下表,此種劃分的上下限可以固定下來,逐步修正。

判別分析
按照7:3的比例劃分為分析樣本和驗證樣本,利用判別分析對這四層劃分結果進行檢驗,即用6個因子得分與層級做判別分析。所得判別函數對區分各層均有顯著貢獻,且第一個判別函數解釋的方差貢獻率達到98.2%,為主函數。使用組內協方差陣計算,分析樣本和驗證樣本的正確率、交叉核實法的正確率均為91.6%,達到很高的水平。
各層賣家在重要變量上均存在較明顯的差異,詳情如下:

從六個因子中找出解釋力較高的關鍵變量,并根據實際業務經驗判斷是否合適,最終選定了七個關鍵變量。它們直接與層級做判別分析,第一主判別函數的方差貢獻率為97.8%,使用組內協方差陣計算,分析樣本和驗證樣本的正確率、交叉核實法的正確率均為85.0%,也達到很高的水平。
回歸分析
為了方便應用,簡化分層的計算過程,用判別分析中確定的七個關鍵變量與因子綜合得分指數作回歸分析,以考察他們的解釋力。
回歸分析結果顯示,R、R Square、Adjusted R Square分別為0.985、0.970、0.970;剩余標準誤差為2.709,達到較小的水平;Durbin-Watson的值為1.252,與2有一定差距,殘差間的獨立性尚可,綜合判斷,模型解釋效果非常好。
多重共線性方面,賣家星級的容忍度值最小為0.39,第八個主成分的條件指數小于15,表明不存在嚴重的多重共線性。
各變量的主要指標如下:


經標準化偏回歸系數和偏相關系數共同分析,可知開店時長、近三個月GMV金額、賣家星級等對因子綜合得分指數的影響更重要。
因子綜合得分指數=a+b1*賣家星級分段+b2*開店時長分段+b3*近三個月GMV總金額分段+ b 4*店鋪類型+ b 5*是否主營實物+ b 6*訂購服務個數分段+ b 7*是否參加消保
因此,通過這七個關鍵變量預測因子綜合得分指數非常合適,得到新的因子綜合得分指數后,根據上文中的上下限臨近值,即可劃分賣家層級。
綜上所訴,研究流程歸納如下:
1、根據以往研究中對用戶的理解,確定參與分層的重要變量,提取后臺數據,對數據進行清洗和處理;
2、采用因子分析對參與分析的重要變量進行降維,計算出因子綜合得分;
3、將因子綜合得分轉換成指數,根據指數的分布情況,對用戶進行分層,并用判別分析,對分層結果進行驗證;
4、根據因子分析中變量的解釋情況和業務實際情況,從重要變量中篩選出關鍵變量作為自變量,把因子綜合得分作為因變量,建立回歸方程,用關鍵變量推算因子綜合得分,進行快速分層,便于后期業務應用;
5、將后臺數據隨機拆分成不同的數據庫,分別重復以上分析過程,反復驗證結果的穩定性。
后續研究的思考
整個研究做下來,或許最有價值的是最終得到的回歸方程,雖然解釋力很高,但仍然缺少一些不易獲得的重要變量,如每月投入廣告的金額,包括直通車、鉆石展位等,后續的研究會逐漸把這些變量納入其中。這也表明,用戶分層研究考察的變量需要盡可能周全,這樣結果才能更具參考價值。
還有就是最后的分層結果顯得“平淡”,各層賣家在重要變量上,基本都是強者愈強、弱者愈弱,特色不明顯。這也是分層研究與細分研究的區別所在,分層更多體現的是趨勢性的結果。后續可以嘗試采用不等概率的抽樣方式減少一部分樣本,如發單量低的賣家占了絕大多數,可以適當減少這部分樣本,一定程度上能夠均衡各個重要變量在分層中的作用。
不論哪種樣本結構,都需要在實際應用中,檢驗效果,不斷迭代完善。

[以集市賣家為例對用戶進行分層]相關文章:

1.以集市賣家為例對用戶進行分層