<rp id="zsypk"></rp>

Frame頁面網(wǎng)絡(luò)日志數(shù)據(jù)挖掘預(yù)處理方法的論文

時間：2021-06-11 09:11:33 論文我要投稿

關(guān)于Frame頁面網(wǎng)絡(luò)日志數(shù)據(jù)挖掘預(yù)處理方法的論文

　　摘要

關(guān)于Frame頁面網(wǎng)絡(luò)日志數(shù)據(jù)挖掘預(yù)處理方法的論文

　　本文結(jié)合網(wǎng)絡(luò)日志數(shù)據(jù)挖掘技術(shù)，通過對Frame頁面和SubFrame頁面進(jìn)行分析，提出基于改進(jìn)的Frame頁面數(shù)據(jù)挖掘預(yù)處理方法。該方法從SubFrame頁面信息著手，從而提高預(yù)處理過程中的信息識別能力。實驗表明，該方法在網(wǎng)絡(luò)日志的數(shù)據(jù)挖掘預(yù)處理過程中，有效提高了信息的精準(zhǔn)度。

　　【關(guān)鍵詞】數(shù)據(jù)挖掘 Frame頁面 SubFrame頁面

　　1 引言

　　隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展，簡單的信息搜索技術(shù)已經(jīng)不能滿足現(xiàn)階段網(wǎng)絡(luò)信息獲取的需求。網(wǎng)絡(luò)日志數(shù)據(jù)挖掘技術(shù)是結(jié)合網(wǎng)絡(luò)日志用戶的訪問行為規(guī)律、興趣需求等信息，加以分析，優(yōu)化網(wǎng)絡(luò)內(nèi)容與網(wǎng)絡(luò)文本文檔的組織結(jié)構(gòu)，以此提高網(wǎng)絡(luò)站點的競爭力。我們發(fā)現(xiàn)網(wǎng)絡(luò)日志記錄往往十分龐大，傳統(tǒng)的預(yù)處理方法，并不能很好解決日志頁面對站點組織結(jié)構(gòu)的影響。因此，進(jìn)行網(wǎng)絡(luò)日志預(yù)處理方法的研究，具有一定的現(xiàn)實意義。

　　對于傳統(tǒng)的網(wǎng)絡(luò)日志的數(shù)據(jù)挖掘，預(yù)處理階段的Frame頁面和SubFrame頁面在用戶會話文件出現(xiàn)的概率很高，這就降低了會話識別的興趣度。因此，必須消除Frame頁面對網(wǎng)絡(luò)日志數(shù)據(jù)挖掘的影響。我們將Frame頁面以及其SubFrame頁面被看為一個整體，用Frame頁面代替通過會話文件尋找Frame頁面和Subframe頁面，并剔除多余的頁面，以提高日志數(shù)據(jù)挖掘的興趣性。

　　2 改進(jìn)的'Frame頁面數(shù)據(jù)挖掘預(yù)處理方法

　　通過對Frame頁面過濾方法，結(jié)合實際情況分析，我們利用ID3決策樹算法，提出基于改進(jìn)的Frame頁面過濾方法，以提高網(wǎng)絡(luò)日志數(shù)據(jù)挖據(jù)的效率。該方法如下：

　　輸入：FS表（pidframne ， pidsubframe）所對應(yīng)的集合；集合屬性包括 {index.html，top.html，left.html，main.html，…}

　　輸出：判定策略

　　For each users session

　　{

　　currentframe=null

　　make_node（web）

　　if（（cerrenframe， pid， ∈FS） make_tree（currentframe，web_left）

　　Else if pid， ∈dom（FS）

　　{curremtframe pidi make_decition_tree（currentframe，web_left}

　　else make_decition-tree（currentframe，web_rleft

　　if attribute_list=null{make_decition_tree（currentframe，web_right）；}

　　else if（one ofattribute_list）>allgain

　　currentframe=test-attribute；

　　make_decition（ai，web_left）

　　Else generate_decision_tree（ai，web_right）

　　}

　　上述策略認(rèn)為，訪問站點的頁面為根節(jié)點，具有信息增益最高的特征，currentframe變量記錄web當(dāng)前頁面pidi。若當(dāng)前頁面pidi不屬于frame頁面，則歸類左子樹，反之當(dāng)前頁面pidi歸入右子樹。即pid，∈DOM（FS）。而frame頁面的subframe頁面歸類左子樹。這樣一來，frame頁面為決策樹右樹，subframe頁面為決策樹左樹，subframe頁面在會話識別階段得到保留，以便后續(xù)路徑補(bǔ)充。該方法優(yōu)化了站點的組織結(jié)構(gòu)，較好提升了網(wǎng)絡(luò)日志數(shù)據(jù)預(yù)處理效率。

　　3 實驗分析

　　我們通過Frame頁面過濾預(yù)處理方法實驗，驗證本文提出的改進(jìn)方法。實驗提取700個日志所記錄的訪問頁面，共20萬條日志文件，結(jié)合本文提出的改進(jìn)Frame頁面網(wǎng)絡(luò)日志數(shù)據(jù)挖掘預(yù)處理方法，與傳統(tǒng)頁面預(yù)處理方法進(jìn)行對比測試。結(jié)果如表1所示。

　　在表1中，絕對支持度表示用戶頻繁訪問頁面的最小會話數(shù)，F(xiàn)Si表示用戶頻繁訪問頁面集合數(shù)，*為用戶不感興趣的頁面集，△表示頁面集是用戶感興趣的，△△表示頁面集用戶感興趣程度加強(qiáng)。實驗表明，改進(jìn)Frame頁面過濾方法相比傳統(tǒng)方法，預(yù)處理結(jié)果得到提高，因此，網(wǎng)絡(luò)日志的數(shù)據(jù)挖掘效率得到加強(qiáng)。

　　4 小結(jié)

　　本文通過對網(wǎng)絡(luò)日志數(shù)據(jù)挖掘預(yù)處理技術(shù)進(jìn)行分析，結(jié)合預(yù)處理過程中的實際情況，著重考慮SubFrame頁面剔除對站點組織結(jié)構(gòu)的影響，提出了改進(jìn)的Frame頁面網(wǎng)絡(luò)日志數(shù)據(jù)挖掘預(yù)處理方法，實驗表明，該方法較好的提高了網(wǎng)絡(luò)日志數(shù)據(jù)挖掘的預(yù)處理精度和效率。

　　參考文獻(xiàn)

　　[1]方元康等.一種改進(jìn)的Web日志會話識別方法[J].計算機(jī)技術(shù)與發(fā)展，2008，18（11）：214-216.

　　[2]朱明.數(shù)據(jù)挖掘[M].合肥：中國科技大學(xué)出版社，2008：13-56.

　　[3]朱志國等.持久偏愛的Web用戶訪問路徑信息挖掘方法[J].情報學(xué)報，2010，29（2）.

　　[4]凌海峰等.基于混合蟻群算法的web用戶會話聚類[J].計算機(jī)工程與應(yīng)用，2013（22）.

　　[5]韓法旺.Web日志挖掘數(shù)據(jù)預(yù)處理過程研究[J].南京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報，2012（2）.

　　[6]凌海峰等.基于聚類的web用戶會話識別優(yōu)化方法[J].計算機(jī)應(yīng)用研究，2012（8）.

【Frame頁面網(wǎng)絡(luò)日志數(shù)據(jù)挖掘預(yù)處理方法的論文】相關(guān)文章：

數(shù)據(jù)挖掘論文03-31

數(shù)據(jù)挖掘論文07-15

數(shù)據(jù)挖掘教學(xué)方法研究論文07-04

專利數(shù)據(jù)挖掘的論文06-12

數(shù)據(jù)挖掘論文精選5篇論文06-13

網(wǎng)絡(luò)數(shù)據(jù)挖掘規(guī)劃論文04-03

大數(shù)據(jù)自動分析與數(shù)據(jù)挖掘探討的論文04-26

數(shù)據(jù)挖掘技術(shù)在WEB的運用論文04-26

數(shù)據(jù)挖掘在CRM中的應(yīng)用論文04-10

最新文章

99热这里只有精品国产7_欧美色欲色综合色欲久久_中文字幕无码精品亚洲资源网久久_91热久久免费频精品无码

<rp id="zsypk"></rp>