1000部丰满熟女富婆视频,托着奶头喂男人吃奶,厨房挺进朋友人妻,成 人 免费 黄 色 网站无毒下载

電子商務(wù)聚類挖掘應(yīng)用

前言:本站為你精心整理了電子商務(wù)聚類挖掘應(yīng)用范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。

電子商務(wù)聚類挖掘應(yīng)用

摘要:闡述了在電子商務(wù)系統(tǒng)中的研究和應(yīng)用中,利用基于關(guān)聯(lián)規(guī)則的多層次、超圖分割聚類方法,對(duì)Web網(wǎng)頁(yè)和用戶進(jìn)行有效聚類。該方法借助網(wǎng)站層次圖,可以根據(jù)實(shí)際需要,在各個(gè)層次上進(jìn)行聚類分析,僅將高度相關(guān)的網(wǎng)頁(yè)和用戶聚在同一類,而將關(guān)聯(lián)性較小的網(wǎng)頁(yè)排除在聚類外。

關(guān)鍵詞:聚類挖掘電子商務(wù)關(guān)聯(lián)規(guī)則超圖

由于Web具有方便、易用、高效的特點(diǎn),電子商務(wù)顯示出越來(lái)越強(qiáng)大的生命力,同時(shí)各種商業(yè)Web站點(diǎn)也面臨越來(lái)越激烈的競(jìng)爭(zhēng)。

有效聚類Web用戶和網(wǎng)頁(yè)對(duì)改進(jìn)網(wǎng)站質(zhì)量、完善電子商務(wù)中產(chǎn)品銷售策略具有十分重要的意義。在電子商務(wù)中,瀏覽模式相似的用戶具有相似的購(gòu)買習(xí)慣,通過(guò)聚類挖掘,將這些用戶聚集在同一類,可以制定相似的銷售策略。根據(jù)瀏覽模式聚集在同一類中的網(wǎng)頁(yè),是大多數(shù)用戶共同訪問(wèn)的網(wǎng)頁(yè),在這些網(wǎng)頁(yè)之間建立超鏈接,以方便用戶使用。

現(xiàn)有的基于瀏覽模式的Web聚類挖掘研究方法中,只要用戶請(qǐng)求了一個(gè)網(wǎng)頁(yè),便認(rèn)為用戶閱讀了該網(wǎng)頁(yè),事實(shí)上有些被請(qǐng)求的網(wǎng)頁(yè)用戶并不關(guān)心,不會(huì)認(rèn)真閱讀的。通常一個(gè)實(shí)用網(wǎng)站包含大量的網(wǎng)頁(yè),現(xiàn)有的Web聚類方法將每個(gè)網(wǎng)頁(yè)當(dāng)作一個(gè)被聚項(xiàng),無(wú)論用戶訪問(wèn)的頻繁與否,總是歸入一個(gè)類中,結(jié)果造成有些類中的網(wǎng)頁(yè)之間幾乎沒(méi)有相關(guān)性。

鑒于以上考慮,本文提出了基于關(guān)聯(lián)規(guī)則和超圖分割的聚類Web網(wǎng)頁(yè)及用戶的方法,不僅考慮了用戶瀏覽網(wǎng)頁(yè)的時(shí)間長(zhǎng)短,還考慮了聚類層次(級(jí)別),將不相關(guān)網(wǎng)頁(yè)項(xiàng)排除在聚類之外,使每個(gè)類中的網(wǎng)頁(yè)具有較高的相關(guān)性。采用這種方法,可以優(yōu)化Web站點(diǎn)拓?fù)浣Y(jié)構(gòu),指導(dǎo)企業(yè)調(diào)整營(yíng)銷策略,給客戶提供動(dòng)態(tài)的個(gè)性化的高效率服務(wù)。

一、建立電子商務(wù)網(wǎng)站的層次模型

建立電子商務(wù)網(wǎng)站的層次模型出于三點(diǎn)考慮。第一,網(wǎng)站中網(wǎng)頁(yè)內(nèi)容組織呈現(xiàn)樹(shù)狀結(jié)構(gòu)。第二,在進(jìn)行關(guān)聯(lián)規(guī)則挖掘過(guò)程中,可能最下一級(jí)挖掘不出達(dá)到指定Support的強(qiáng)規(guī)則,但是能從上級(jí)層次挖掘出達(dá)到指定Support的強(qiáng)規(guī)則,或根據(jù)實(shí)際需要在某一個(gè)層次進(jìn)行聚類分析。第三,對(duì)于電子商務(wù)網(wǎng)站,有些用戶雖然訪問(wèn)了某網(wǎng)頁(yè),但是對(duì)其內(nèi)容并不感興趣,可能只是掃一眼就放棄。在此情況下,不應(yīng)該認(rèn)為用戶認(rèn)真閱讀了該網(wǎng)頁(yè),所以應(yīng)該記錄網(wǎng)頁(yè)的長(zhǎng)度,通過(guò)計(jì)算用戶的瀏覽時(shí)間和網(wǎng)頁(yè)長(zhǎng)度的比值來(lái)判斷用戶是否真正認(rèn)真閱讀了該頁(yè)內(nèi)容。

層次模型采用樹(shù)狀結(jié)構(gòu)來(lái)描述,節(jié)點(diǎn)的數(shù)據(jù)域包含對(duì)應(yīng)網(wǎng)頁(yè)的層次名稱(編號(hào))和網(wǎng)頁(yè)長(zhǎng)度。樹(shù)根應(yīng)該取所研究的網(wǎng)站根目錄(研究整個(gè)網(wǎng)站)或所研究的網(wǎng)站分支的最上層目錄。在建立層次模型時(shí),應(yīng)根據(jù)網(wǎng)站的具體情況決定采用的方法。通常情況下,網(wǎng)頁(yè)文件名能完全反映網(wǎng)頁(yè)所在的層次,可以采用完全自動(dòng)方法進(jìn)行轉(zhuǎn)換。

二、基于關(guān)聯(lián)規(guī)則的聚類挖掘

1.預(yù)處理

在Web站點(diǎn)中,服務(wù)器日志文件記錄用戶的訪問(wèn)方式、所訪問(wèn)的頁(yè)面、訪問(wèn)時(shí)間、用戶IP地址等信息,通過(guò)收集Web日志所記錄的用戶瀏覽信息可以對(duì)網(wǎng)頁(yè)和用戶聚類。首先要對(duì)收集到的數(shù)據(jù)進(jìn)行預(yù)處理,獲得每個(gè)用戶所訪問(wèn)的網(wǎng)頁(yè)序列。將一個(gè)用戶對(duì)某個(gè)特定網(wǎng)站的一次連續(xù)瀏覽(從登錄該網(wǎng)站一直到離開(kāi)該網(wǎng)站)所訪問(wèn)的網(wǎng)頁(yè)序列稱為一個(gè)用戶瀏覽事務(wù)。如果用戶中途訪問(wèn)了另一網(wǎng)站,而后又返回該網(wǎng)站,返回后所瀏覽的網(wǎng)頁(yè)序列將組成另一個(gè)用戶瀏覽事務(wù)。處理后的事務(wù)序列將具有如下的形式:

u_id(用戶標(biāo)志編號(hào)),p_id(頁(yè)面編號(hào))序列

2.挖掘關(guān)聯(lián)規(guī)則并計(jì)算關(guān)聯(lián)規(guī)則可信度的平均值

對(duì)經(jīng)過(guò)預(yù)處理的瀏覽事務(wù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,挖掘出滿足一定支持度的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是在挖掘出頻繁網(wǎng)頁(yè)集的基礎(chǔ)上發(fā)現(xiàn)的,由于頻繁網(wǎng)頁(yè)集是大多數(shù)用戶在一個(gè)事務(wù),即一次網(wǎng)站訪問(wèn)中所共同瀏覽的頁(yè)面,所以頻繁網(wǎng)頁(yè)集反映了這些網(wǎng)頁(yè)或共同訪問(wèn)這些網(wǎng)頁(yè)的用戶之間存在一定的聯(lián)系,如網(wǎng)頁(yè)內(nèi)容高度相關(guān)。在進(jìn)行聚類時(shí),應(yīng)該首先考慮將頻繁網(wǎng)頁(yè)集中的網(wǎng)頁(yè)聚合在一個(gè)類中。

通常挖掘頻繁網(wǎng)頁(yè)集的方法是在給定某一支持度的基礎(chǔ)上進(jìn)行的,滿足該給定支持度的一個(gè)頻繁網(wǎng)頁(yè)集中的網(wǎng)頁(yè)可能是另一個(gè)或另幾個(gè)頻繁網(wǎng)頁(yè)集中的元素,那么將這些網(wǎng)頁(yè)應(yīng)該聚合到前一項(xiàng)目集還是后面的某一項(xiàng)目集?正確的選擇應(yīng)該是看這些網(wǎng)頁(yè)和哪一項(xiàng)目集聯(lián)系更為密切,可采用的方案有兩種:提高支持度繼續(xù)挖掘頻繁網(wǎng)頁(yè)集直到每一網(wǎng)頁(yè)僅處于一個(gè)項(xiàng)目集或利用各頻繁網(wǎng)頁(yè)集中網(wǎng)頁(yè)之間關(guān)聯(lián)規(guī)則的可信度。進(jìn)一步仔細(xì)分析,前一方案不可取,首先可能不存在一個(gè)支持度使每個(gè)網(wǎng)頁(yè)僅位于一個(gè)頻繁網(wǎng)頁(yè)集中;其次即使存在這樣一個(gè)支持度,再進(jìn)行多次的頻繁網(wǎng)頁(yè)集挖掘代價(jià)也太高,實(shí)際中是不可行的。

相比之下,后一方案可行度高,在挖掘出滿足指定支持度的頻繁網(wǎng)頁(yè)集的基礎(chǔ)上,可以較為方便地計(jì)算出每一個(gè)頻繁網(wǎng)頁(yè)集中的每個(gè)關(guān)聯(lián)規(guī)則的可信度。可信度的大小也反映了網(wǎng)頁(yè)之間關(guān)聯(lián)的密切程度。為此,計(jì)算每個(gè)頻繁網(wǎng)頁(yè)集中所有的關(guān)聯(lián)規(guī)則的可信度,在此基礎(chǔ)上計(jì)算其所有關(guān)聯(lián)規(guī)則可信度的平均值,用可信度的平均值反映網(wǎng)頁(yè)與不同的頻繁網(wǎng)頁(yè)集之間聯(lián)系的密切程度。

3.利用超圖進(jìn)行網(wǎng)頁(yè)聚類

超圖是對(duì)圖的擴(kuò)充,允許一條邊連接三個(gè)或三個(gè)以上的點(diǎn)。每條邊帶有權(quán)的超圖稱為加權(quán)超圖,在挖掘出頻繁網(wǎng)頁(yè)集和關(guān)聯(lián)規(guī)則的基礎(chǔ)上,可以得到網(wǎng)站的加權(quán)超圖。超圖中的一個(gè)頂點(diǎn)代表一個(gè)網(wǎng)頁(yè),超圖的邊稱為超邊,超邊連接的頂點(diǎn)是頻繁網(wǎng)頁(yè)集中的網(wǎng)頁(yè)。每個(gè)超邊的權(quán)取該邊所對(duì)應(yīng)的頻繁網(wǎng)頁(yè)集中所有關(guān)聯(lián)規(guī)則可信度的平均值。

上圖為超圖的示意圖,代表A,B和C所組成的頻繁網(wǎng)頁(yè)集的超邊的權(quán)值,0.7是A,B和C三個(gè)網(wǎng)頁(yè)所組成的所有關(guān)聯(lián)規(guī)則可信度的平均值。

為了使聚集結(jié)果的每個(gè)類中的網(wǎng)頁(yè)具有高度相關(guān)性,超圖中僅包含出現(xiàn)在強(qiáng)關(guān)聯(lián)規(guī)則中的網(wǎng)頁(yè)。利用超圖進(jìn)行聚類的方法是逐步切割超邊將超圖進(jìn)行分割,分割成多個(gè)子超圖,分割的原則是被切割的超邊的權(quán)值和盡可能小,從而保證將相互關(guān)聯(lián)比較小的網(wǎng)頁(yè)分割在不同的子圖,而將關(guān)聯(lián)比較密切的網(wǎng)頁(yè)保留在同一子圖內(nèi)。分割過(guò)程繼續(xù)進(jìn)行直到被切割超邊的權(quán)值和與留下的超邊權(quán)值和的比值大于某一臨界值,或所得到的子超圖數(shù)目達(dá)到某指定值,分割過(guò)程結(jié)束,留下的各子超圖便是聚類的結(jié)果。每一個(gè)子超圖對(duì)應(yīng)一個(gè)聚類,超圖中的各頂點(diǎn)代表該聚類中所包含的網(wǎng)頁(yè)。

4.事務(wù)和用戶聚類

在將網(wǎng)頁(yè)進(jìn)行聚類的基礎(chǔ)上,可以將瀏覽網(wǎng)站的事務(wù)和用戶進(jìn)行聚類。瀏覽事務(wù)聚類的原則是根據(jù)事務(wù)和網(wǎng)頁(yè)聚類的相似度進(jìn)行,將事務(wù)聚合在相似度最高的網(wǎng)頁(yè)類中。事務(wù)和網(wǎng)頁(yè)類的相似度可以按照如下公式計(jì)算:

|Tj∩Ci|/|Ci|

其中,Tj為一個(gè)事務(wù),Ci為一個(gè)聚類,|Tj∩Ci|為Tj和Ci中所包含的相同頁(yè)面的數(shù)目,|Ci|為Ci中所包含的頁(yè)面數(shù)目。

在記錄網(wǎng)站用戶標(biāo)志的情況下,可以通過(guò)用戶的瀏覽事務(wù)聚類將用戶進(jìn)行聚類,即將訪問(wèn)相似網(wǎng)頁(yè)的用戶聚在同一類。

5.聚類挖掘結(jié)果的可視化

聚類挖掘的結(jié)果是多維的,由于笛卡兒坐標(biāo)系最多只有三個(gè)坐標(biāo),所以不能用通常的方法作圖。而且這

些多維的數(shù)據(jù)集一般不含有空間語(yǔ)義,數(shù)據(jù)集的各維之間沒(méi)有空間連貫性,這也很難用傳統(tǒng)的二維或三維圖形直接表達(dá)多維空間。本文采用了一種通過(guò)主分量分析將多維空間坐標(biāo)轉(zhuǎn)換為三維坐標(biāo)的挖掘結(jié)果可視化方法,實(shí)現(xiàn)聚類挖掘結(jié)果的可視化。根據(jù)生成的各個(gè)點(diǎn)之間的距離和簇的形狀,我們可以有效地從大量數(shù)據(jù)中發(fā)現(xiàn)對(duì)我們有用的信息。

三、結(jié)論

闡述了在電子商務(wù)系統(tǒng)的研究和應(yīng)用中,利用基于關(guān)聯(lián)規(guī)則的多層次、超圖分割聚類方法,對(duì)Web網(wǎng)頁(yè)和用戶進(jìn)行有效聚類。該方法借助網(wǎng)站層次圖,可以根據(jù)實(shí)際需要,在各個(gè)層次上進(jìn)行聚類分析;在挖掘出滿足一定Support的關(guān)聯(lián)規(guī)則的基礎(chǔ)上進(jìn)行聚類,僅將高度相關(guān)的網(wǎng)頁(yè)和用戶聚在同一類,而將關(guān)聯(lián)性較小的網(wǎng)頁(yè)排除在聚類外。該方法對(duì)于改進(jìn)網(wǎng)站質(zhì)量、完善電子商務(wù)中產(chǎn)品銷售策略具有十分重要的意義。

參考文獻(xiàn):

[1]PeiJ,HanJ,BehazadM,etal.Proceedingsofthe1999KDDWorkshoponWebMining[C],Kyoto:PKDD,1999.396-407

[2]CooleyR,MobasherB,SrivastavaJ.DataPreparationforminingWorldWideWebBrowsingPatterns[J].KnowledgeandInformationSystem,1999,1(1):25-29

[3]KarypisG,AggarwalR,KumarV,etal.Multi-levelHypergraphPartitioning:ApplicationsinVLSIDomain[R].Minnesota:UniversityofMinnesota,DepartmentofComputerScience,1997.1-50

[4]劉子維等:一種聚類挖掘結(jié)果的可視化方法[J].計(jì)算機(jī)應(yīng)用研究,2006,23(5):75-76

主站蜘蛛池模板: 龙南县| 旬阳县| 重庆市| 萍乡市| 塘沽区| 日土县| 尤溪县| 屏边| 麻阳| 卓资县| 琼结县| 深水埗区| 霍州市| 肥东县| 彭州市| 乌兰县| 喀什市| 乌什县| 乐东| 班戈县| 台南市| 临桂县| 贵定县| 阿克苏市| 苗栗市| 府谷县| 贡山| 临桂县| 分宜县| 黑河市| 镶黄旗| 个旧市| 普安县| 株洲市| 沁阳市| 遂川县| 五常市| 手游| 徐闻县| 鄱阳县| 姜堰市|