一種靈活的網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)采集與分析系統(tǒng)論文
摘要:網(wǎng)絡(luò)學(xué)習(xí)正在日益興起,在多樣化的教與學(xué)過程中充分利用網(wǎng)絡(luò)上日益豐富的學(xué)習(xí)資源,滿足不同層次求學(xué)者的需要。對(duì)網(wǎng)絡(luò)學(xué)習(xí)中學(xué)習(xí)者的各項(xiàng)學(xué)習(xí)行為進(jìn)行分析,從中找出學(xué)習(xí)者群體的特征和個(gè)體的特點(diǎn),從而幫助教育者促進(jìn)網(wǎng)絡(luò)教與學(xué)的建設(shè)是目前迫切學(xué)要解決的問題。本文結(jié)合當(dāng)前主流的學(xué)習(xí)行為數(shù)據(jù)采集和分析的方法的優(yōu)點(diǎn)和不足,提出了一種基于數(shù)據(jù)流獲取的網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)采集與分析的方案,詳細(xì)介紹了數(shù)據(jù)采集和數(shù)據(jù)分析的方法,并探討了實(shí)現(xiàn)這套方案的軟件系統(tǒng)設(shè)計(jì)。該軟件系統(tǒng)具有較強(qiáng)的靈活性和實(shí)用性,能夠幫助學(xué)習(xí)者和教育者進(jìn)行更加有效網(wǎng)絡(luò)教與學(xué)。
關(guān)鍵詞:網(wǎng)絡(luò)學(xué)習(xí);學(xué)習(xí)行為數(shù)據(jù)采集;學(xué)習(xí)行為分析;數(shù)據(jù)流獲取;文本挖掘
1.引言
現(xiàn)代教育教學(xué)除了傳統(tǒng)的課堂教學(xué)和實(shí)踐培訓(xùn)外,越來越多地采用了網(wǎng)絡(luò)學(xué)習(xí)的方式。網(wǎng)絡(luò)學(xué)習(xí)可以分為兩種類型,一種是集中式網(wǎng)絡(luò)學(xué)習(xí),比如遠(yuǎn)程網(wǎng)絡(luò)教育以及企事業(yè)內(nèi)部網(wǎng)絡(luò)的業(yè)務(wù)培訓(xùn);一種是發(fā)散式網(wǎng)絡(luò)學(xué)習(xí),比如在學(xué)生在互聯(lián)網(wǎng)上廣泛、分散地查閱資料等自主學(xué)習(xí)。不論哪一種方式的網(wǎng)絡(luò)學(xué)習(xí)都能在多樣化的教與學(xué)過程中,充分利用網(wǎng)絡(luò)上日益豐富的學(xué)習(xí)資源,滿足不同層次求學(xué)者的需要。
對(duì)網(wǎng)絡(luò)學(xué)習(xí)中學(xué)習(xí)者的各項(xiàng)學(xué)習(xí)行為進(jìn)行分析,從中找出學(xué)習(xí)者的學(xué)習(xí)規(guī)律,可以幫助教育者不斷修正目前還不成熟的網(wǎng)絡(luò)學(xué)與教,促進(jìn)網(wǎng)絡(luò)教育的建設(shè)。
對(duì)網(wǎng)絡(luò)學(xué)習(xí)者的學(xué)習(xí)行為進(jìn)行分析,首先需要采集學(xué)生在網(wǎng)絡(luò)學(xué)習(xí)過程中的學(xué)習(xí)行為信息數(shù)據(jù),然后對(duì)這些數(shù)據(jù)進(jìn)行集成、分類和分析。目前,基于計(jì)算機(jī)和網(wǎng)絡(luò)平臺(tái)的網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)采集與分析的常用方法主要有兩類,一是基于Web服務(wù)(Web Services)的方法[1][2],一是基于Web日志挖掘(Web Usage Mining)的方法[3][4]。目前,基于Web Services的方法應(yīng)用較多,但這種方法也存在比較明顯的不足,主要是:只能得到在該網(wǎng)站進(jìn)行學(xué)習(xí)的注冊學(xué)習(xí)者的學(xué)習(xí)行為數(shù)據(jù),并對(duì)他們的學(xué)習(xí)行為進(jìn)行分析,具有局限性;這樣的系統(tǒng)開發(fā)要與網(wǎng)站程序的設(shè)計(jì)以及數(shù)據(jù)庫設(shè)計(jì)同步進(jìn)行,才能做到無縫集成,專用性強(qiáng),靈活性較差。Web Usage Mining的不足在于Web日志和客戶端數(shù)據(jù)不容易得到,即使得到了,也和Web安全的相關(guān)原則有沖突,而且這些數(shù)據(jù)都是學(xué)習(xí)者通過該Web服務(wù)器時(shí)留下的,同樣存在局限性。
通過實(shí)際對(duì)比分析和研究發(fā)現(xiàn),如果能結(jié)合上述兩者,就將是一種比實(shí)用的解決方案。本方案的基本思路是:在服務(wù)器或網(wǎng)關(guān)上使用netmate進(jìn)行數(shù)據(jù)流捕獲,然后處理并輸出為文本,然后使用文本挖掘的成熟算法進(jìn)行處理,得到網(wǎng)絡(luò)學(xué)習(xí)者學(xué)習(xí)的特點(diǎn)、偏好等學(xué)習(xí)規(guī)律,幫助教育者進(jìn)行教育學(xué)分析,從而有效地指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)和教學(xué)的建設(shè)。
2.學(xué)習(xí)行為數(shù)據(jù)采集
學(xué)習(xí)行為數(shù)據(jù)的采集是進(jìn)行學(xué)習(xí)行為分析的前提,是整個(gè)方案的基礎(chǔ)。學(xué)生網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)的采集是一種基于開源軟件netmate的數(shù)據(jù)流自動(dòng)獲取,這種方式很容易對(duì)流經(jīng)節(jié)點(diǎn)服務(wù)器或網(wǎng)關(guān)的數(shù)據(jù)流進(jìn)行實(shí)時(shí)獲取,然后回根據(jù)netmate提供的接口,生成文本已備后續(xù)的文本處理。
2.1數(shù)據(jù)流獲取
數(shù)據(jù)流獲取是網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)采集的第一步。這種獲取是實(shí)時(shí)的、基于隨機(jī)樣本的,由于樣本容量可以取很大,即使出現(xiàn)丟包的情況,也能夠接近實(shí)際情況。由于經(jīng)過節(jié)點(diǎn)服務(wù)器或者網(wǎng)關(guān)的數(shù)據(jù)流既有流入的也有流出的,因此既能夠獲取到學(xué)習(xí)者在站或者內(nèi)部網(wǎng)絡(luò)上的集中式學(xué)習(xí)的行為數(shù)據(jù),又能夠獲取到學(xué)習(xí)者通過服務(wù)器或網(wǎng)關(guān)進(jìn)入互聯(lián)網(wǎng)絡(luò)的發(fā)散式學(xué)習(xí)的行為數(shù)據(jù)。由此可見,這樣的基于數(shù)據(jù)流的網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)采集能夠滿足前述兩種主要的網(wǎng)絡(luò)學(xué)習(xí)方式。
首先要在節(jié)點(diǎn)服務(wù)器或者網(wǎng)關(guān)計(jì)算機(jī)上安裝好netmate及配套的庫(libpcap、readline),然后根據(jù)數(shù)據(jù)獲取的需求在配置文件(netmate.conf.xml)中進(jìn)行配置,主要是根據(jù)需求制定自己的規(guī)則(rule)。在netmate工作過程中,根據(jù)制訂好的規(guī)則,會(huì)將獲取到的數(shù)據(jù)流以指定的形式進(jìn)行輸出。
由于netmate部署的位置可以根據(jù)需要而改變,獲得的文本可以通過傳送工具傳到指定的目的主機(jī),因此具有很強(qiáng)的靈活。在集中式網(wǎng)絡(luò)學(xué)習(xí)中,如果獲取點(diǎn)在遠(yuǎn)程教育網(wǎng)站上,則可以獲取在該網(wǎng)站學(xué)習(xí)的所有學(xué)習(xí)者的學(xué)習(xí)信息,如果獲取點(diǎn)在校園網(wǎng)的Web服務(wù)器上,就可以獲取該校校園網(wǎng)絡(luò)學(xué)習(xí)資源的利用情況;在發(fā)散式網(wǎng)絡(luò)學(xué)習(xí)中,如果獲取點(diǎn)在校園網(wǎng)的網(wǎng)絡(luò)服務(wù)器上,就可以獲取全校學(xué)生在互聯(lián)網(wǎng)上的學(xué)習(xí)情況,如果獲取點(diǎn)在某個(gè)院系的`網(wǎng)關(guān)服務(wù)器上,就可以獲取該院系的學(xué)生在實(shí)驗(yàn)室在各個(gè)時(shí)段的網(wǎng)絡(luò)學(xué)習(xí)情況。
3.學(xué)習(xí)行為的文本挖掘
文本挖掘也被稱作文本數(shù)據(jù)挖掘,是指從文本中得到高質(zhì)量的、事先未知的、可理解的信息的過程。在得到通過節(jié)點(diǎn)服務(wù)器的數(shù)據(jù)文本后,就可以進(jìn)行文本分類,從中找出網(wǎng)絡(luò)學(xué)習(xí)行為的特點(diǎn)以及一些規(guī)律。
3.1文本預(yù)處理
在進(jìn)行文本分類之前,須先對(duì)文本文檔進(jìn)行預(yù)處理,并將信息存放在比文本數(shù)據(jù)更適合處理的數(shù)據(jù)結(jié)構(gòu)中。對(duì)英文單詞而言,動(dòng)詞的不同時(shí)態(tài)一般在動(dòng)詞后加后綴表示(ing或ed),而單詞的基本意義還是在原形式上,這時(shí)就需要進(jìn)行詞根還原,將一個(gè)詞加后綴后的形式還原為它們基本形式。對(duì)中文文本的理解在于正確地?cái)嗑洌捎谥形脑~與詞之間沒有空格,因此在進(jìn)行中文文本挖掘之前,需要對(duì)文本進(jìn)行分詞處理,把中文的漢字序列切分成有意義的詞。
在預(yù)處理的末期,將得到非常巨大的向量空間,這時(shí)需要進(jìn)行特征降維處理。由于不同的標(biāo)準(zhǔn)對(duì)同一學(xué)習(xí)行為的界定原本就不是很明確,因此采用了卡方統(tǒng)計(jì)(CHI)算法進(jìn)行特征選擇,接下來采用聚類方法進(jìn)行特征提取。
3.2文本分類
在特征降維之后,應(yīng)用分類器對(duì)文本分類。目前的分類器大致可分為兩類:基于統(tǒng)計(jì)的分類器和基于語義的分類器;诮y(tǒng)計(jì)的方法中,成熟的有中心法,樸素貝葉斯,支持向量機(jī);谡Z義的有決策樹等。通過比較算法實(shí)現(xiàn)的難度和算法能達(dá)到的精度,本案采用了基于統(tǒng)計(jì)的分類器,通過支持向量機(jī)算法來實(shí)現(xiàn)。
4.采集和分析系統(tǒng)的設(shè)計(jì)
通過前面的描述,對(duì)本案采集和分析系統(tǒng)進(jìn)行了詳細(xì)地分析。
系統(tǒng)的軟件設(shè)計(jì)結(jié)合前述采用的算法和工具,自行開發(fā)的一些軟件模塊,從而構(gòu)成一個(gè)比較完整的采集和分析系統(tǒng)。軟件的結(jié)構(gòu)如圖1所示。系統(tǒng)采用客戶機(jī)/服務(wù)器模式,數(shù)據(jù)流獲取與傳輸模塊作為客戶機(jī)端模塊,部署在獲取點(diǎn)計(jì)算機(jī)上,其余模塊作為服務(wù)器端模塊,部署在文本處理和分析的主機(jī)上。
4.1數(shù)據(jù)流獲取與傳輸模塊
數(shù)據(jù)流獲取與傳輸負(fù)責(zé)對(duì)網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行廣泛的采集,然后將數(shù)據(jù)傳輸?shù)街付ǖ闹鳈C(jī)上。如前所述,數(shù)據(jù)流獲取通過netmate進(jìn)行,當(dāng)配置為text輸出時(shí),就會(huì)取得需要的數(shù)據(jù)流文本?紤]到當(dāng)前網(wǎng)絡(luò)基本都是高速的,在獲取數(shù)據(jù)流的過程中對(duì)服務(wù)器的需求已經(jīng)很高,因此,將這些文本數(shù)據(jù)傳輸?shù)竭h(yuǎn)程主機(jī)的學(xué)習(xí)行為樣本庫中,然后再進(jìn)行離線處理和分析工作。遠(yuǎn)程傳輸部分采用多線程的TCP套接字實(shí)現(xiàn)。recConfig也采用多線程的TCP套接字實(shí)現(xiàn),用來接收來自于遠(yuǎn)程主機(jī)上Configer的參數(shù),對(duì)采集端的配置參數(shù)進(jìn)行修正,然后重啟netmate和remTrans。
4.2學(xué)習(xí)行為樣本庫
學(xué)習(xí)行為樣本庫存放從各個(gè)獲取點(diǎn)得到學(xué)習(xí)行為數(shù)據(jù)樣本,并以文本文件形式存放。樣本庫中的文本根據(jù)其采集時(shí)間或者指定來源進(jìn)行簡單檢索4.3文本分析模塊文本分析模塊負(fù)責(zé)對(duì)學(xué)習(xí)行為樣本庫中的文本進(jìn)行分析,包括文本預(yù)處理(Preproceed)、文本分類(Classify)、輸出(Export)和模式調(diào)整(RecModify)四個(gè)部分。PreProceed和Classify如前面敘述所設(shè)計(jì)。Export負(fù)責(zé)把經(jīng)過分類的文本數(shù)據(jù)輸出為Weka的數(shù)據(jù)格式,或者直接把各分類的數(shù)據(jù)統(tǒng)計(jì)結(jié)果輸出到屏幕。RecModify接收來自Modifer的模式調(diào)整參數(shù),并重啟PreProceed和Classify,以便對(duì)文本挖掘的調(diào)整馬上生效。
4.4可視化顯示模塊
可視化顯示模塊主要是利用Weka工具提供的可視化功能,對(duì)文本分析的結(jié)果進(jìn)行顯示,或者做進(jìn)一步的關(guān)聯(lián)規(guī)則分析并可視化輸出。
4.5運(yùn)行控制模塊
運(yùn)行控制模塊主要負(fù)責(zé)系統(tǒng)運(yùn)行期間對(duì)數(shù)據(jù)獲取和文本分析兩個(gè)模塊的運(yùn)行參數(shù)作調(diào)整,以便系統(tǒng)能夠靈活處理需求變化。其中,Configer針對(duì)netmate配置文件和遠(yuǎn)程傳輸?shù)刂愤M(jìn)行調(diào)整,為多線程TCP服務(wù)器套接字設(shè)計(jì);Modier對(duì)文本預(yù)處理和文本分類的模式進(jìn)行調(diào)整。
結(jié)束語
本文提出了一個(gè)比較靈活的網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)采集和分析系統(tǒng),采用了開源軟件工具和成熟的算法,在此基礎(chǔ)上進(jìn)行軟件設(shè)計(jì),從而實(shí)現(xiàn)網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)采集和學(xué)習(xí)行為的分析。遠(yuǎn)程傳輸模塊的設(shè)計(jì)大大方便了對(duì)學(xué)習(xí)行為分析的本地化,在每個(gè)階段都設(shè)計(jì)了相應(yīng)的反饋和調(diào)整模塊使得系統(tǒng)在運(yùn)行過程中能適應(yīng)具體環(huán)境。系統(tǒng)還處在試驗(yàn)的階段,下一步將繼續(xù)完善與改進(jìn),除了分類算法改進(jìn)外,結(jié)果可視化也需要改進(jìn)。
參考文獻(xiàn):
[1]Karin Anna Hummel,Helmut Hlavacs Anytime.AnywhereLearning Behavior Using a Web-Based Platform for a University Lecture.[EB/OLD.www.ani.univie.ac.at/hlavacs/publications/ssgrr_winter03.pdf,2006-3-1]
[2]呂莉,張屹.基于Web服務(wù)的網(wǎng)絡(luò)學(xué)習(xí)行為采集研究現(xiàn)狀[J].開放教育研究,2009(15)
[3]Chien-Sing Lee and YashwanL Prasud Singly.Student modelingusing Principle component analysis of SOM clusters.Proceedings of theIEEE International Conference on Advanced Learning Technologies,2004
[4]黎孟雄.基于Web挖掘的遠(yuǎn)程教學(xué)質(zhì)量跟蹤系統(tǒng)設(shè)計(jì)[J].河南科技大學(xué)學(xué)報(bào),2007(28)
[5]黃克斌,王鋒,王會(huì)霞.智能化網(wǎng)絡(luò)學(xué)習(xí)行為分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中國教育信息化,2008(3)
【一種靈活的網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)采集與分析系統(tǒng)論文】相關(guān)文章:
教育消費(fèi)的心理與行為分析01-19
系統(tǒng)的基本特性分析說課稿11-02
我最敬佩的一種行為小學(xué)作文11-15
學(xué)生質(zhì)量考核系統(tǒng)的制度分析12-06
中職生學(xué)習(xí)心理障礙分析及對(duì)策 德育論文12-05