1. <rp id="zsypk"></rp>

      2. 數(shù)據(jù)挖掘論文

        時(shí)間:2023-07-29 07:53:58 論文 我要投稿

        數(shù)據(jù)挖掘論文錦集15篇

          在平時(shí)的學(xué)習(xí)、工作中,大家都跟論文打過(guò)交道吧,借助論文可以達(dá)到探討問(wèn)題進(jìn)行學(xué)術(shù)研究的目的。你知道論文怎樣寫才規(guī)范嗎?下面是小編為大家收集的數(shù)據(jù)挖掘論文,僅供參考,大家一起來(lái)看看吧。

        數(shù)據(jù)挖掘論文錦集15篇

        數(shù)據(jù)挖掘論文1

          0引言

          隨著我國(guó)信息化建設(shè)進(jìn)程的不斷推進(jìn),許多高校都已經(jīng)建立起各類基于業(yè)務(wù)的數(shù)據(jù)庫(kù)用于日常管理,作為應(yīng)用廣泛的新興學(xué)科,數(shù)據(jù)挖掘技術(shù)在高校教育信息化中的應(yīng)用前景較好,為高校的管理、建設(shè)、服務(wù)過(guò)程的絕學(xué)提供了全新而科學(xué)的分析途徑。在新形勢(shì)下,高校學(xué)生思政管理工作面臨著巨大挑戰(zhàn),所以適時(shí)不斷調(diào)整思想工作的途徑,加強(qiáng)先進(jìn)經(jīng)驗(yàn)的交流,可以有效的提高高校思政工作的效果,對(duì)此,本文借助數(shù)據(jù)挖掘技術(shù)進(jìn)行嘗試,通過(guò)聚類結(jié)果分析,所挖掘到的信息對(duì)學(xué)生工作具有一定的參考價(jià)值。

          1數(shù)據(jù)挖掘技術(shù)在思想政治教育中的實(shí)際應(yīng)用

         。保彼枷胝谓逃芾黼S著高等教育的不斷發(fā)展與普及,給高校思想政治教育帶來(lái)一定挑戰(zhàn),在通常情況下,學(xué)校相關(guān)部門會(huì)對(duì)教育管理工作進(jìn)行數(shù)據(jù)收集,但是目前對(duì)這些數(shù)據(jù)的處理還處于底層的查找與簡(jiǎn)單分析階段,不能夠挖掘出其中的價(jià)值。為了更加具體的了解思政教育工作者的工作情況,學(xué)校每學(xué)期會(huì)組織學(xué)生對(duì)輔導(dǎo)員的工作進(jìn)行評(píng)議,填寫輔導(dǎo)員“工作考核量化表”如何從中提取有價(jià)值的信息,對(duì)高校思想政治教育有非常重要的意義[1]。1.2解決方案數(shù)據(jù)挖掘?qū)儆谝粋(gè)方案得到肯定的過(guò)程,是數(shù)據(jù)分析研究的深層系手段,將數(shù)據(jù)挖掘技術(shù)運(yùn)用到輔導(dǎo)員工作考核中具有特別意義。例如:通過(guò)數(shù)據(jù)挖掘技術(shù)手段分析“輔導(dǎo)員工作考核量化表”中的數(shù)據(jù),可以了解“某所高校思政管理整體水平”,在管理中“哪些方面做得好,哪些方面做得不到位”等相關(guān)問(wèn)題。通過(guò)這些結(jié)論進(jìn)一步完善高校思政教育管理。本文提出運(yùn)用聚類分析的數(shù)據(jù)挖掘技術(shù)對(duì)輔導(dǎo)員的工作成效數(shù)據(jù)進(jìn)行分析,將大批的數(shù)據(jù)轉(zhuǎn)換為聚類結(jié)果,從而更好的對(duì)數(shù)據(jù)加以利用。數(shù)據(jù)挖掘過(guò)程.步驟1:明確數(shù)據(jù)挖掘的對(duì)象和主要目的,通過(guò)數(shù)據(jù)挖掘雖然不能預(yù)測(cè)最終結(jié)果,但是可以對(duì)所研究的問(wèn)題進(jìn)行預(yù)測(cè),所以挖掘目標(biāo)的確定是數(shù)據(jù)挖掘的關(guān)鍵步驟[2]。步驟2:數(shù)據(jù)采集,該過(guò)程的任務(wù)比較繁重,并且需要時(shí)間比較多。在品勢(shì)的教育管理中,要認(rèn)真的收集數(shù)據(jù)信息,一部分?jǐn)?shù)據(jù)是直接可以拿到的,一部分?jǐn)?shù)據(jù)則需要通過(guò)調(diào)研才能獲得。步驟3:數(shù)據(jù)預(yù)處理,將收集到的數(shù)據(jù)轉(zhuǎn)變成可分析的數(shù)據(jù)模型,該模型是根據(jù)算法來(lái)準(zhǔn)備的,不同的算法對(duì)數(shù)據(jù)模型的要求是不一樣的。步驟4:數(shù)據(jù)類聚挖掘,通過(guò)類聚挖掘能夠?qū)?shù)據(jù)模型劃分為相似的多個(gè)組,該過(guò)程主要為數(shù)據(jù)模型的輸入過(guò)程以及聚類算法的選擇進(jìn)行實(shí)現(xiàn)。步驟5:聚類結(jié)果分析,該過(guò)程主要分析研究聚類數(shù)據(jù)挖掘之后得到的多個(gè)組屬性。步驟6:知識(shí)應(yīng)用,將研究所得的信息集成到輔導(dǎo)員的管理教育環(huán)節(jié)中,思政工作者通過(guò)該結(jié)論促進(jìn)教學(xué)管理,形成良好的管理方針[3]。

          2數(shù)據(jù)挖掘技術(shù)在思政教育工作中具體方案實(shí)施

         。玻贝_定數(shù)據(jù)挖掘?qū)ο笫占⒄砟炒髮W(xué)2017年“輔導(dǎo)員工作考核量化表”,整理其中關(guān)于輔導(dǎo)員教育管理的120張考核量化表,嘗試解答高校思政教育中存在的問(wèn)題,經(jīng)過(guò)對(duì)有價(jià)值數(shù)據(jù)的挖掘,得出結(jié)論為教學(xué)管理帶來(lái)有效的指導(dǎo)價(jià)值。2.2數(shù)據(jù)采集從學(xué)校學(xué)生工作處,搜集2017年度“輔導(dǎo)員工作考核量化表”。2.3數(shù)據(jù)預(yù)處理“輔導(dǎo)員工作考核量化表”要求輔導(dǎo)員在“堅(jiān)持標(biāo)準(zhǔn),獎(jiǎng)懲分明,客觀公正的對(duì)待每一位學(xué)生!薄罢J(rèn)真做好勤工助學(xué)活動(dòng)!薄罢_分析學(xué)生的思想動(dòng)態(tài)”等幾個(gè)指標(biāo)項(xiàng)目中,根據(jù)輔導(dǎo)員的實(shí)際工作表現(xiàn),劃分為“優(yōu)秀、良好、合格、較差、差”五等類型等級(jí)。最終獲得比較完整的考核記錄工作考核量化表117張。2.4數(shù)據(jù)轉(zhuǎn)換在工作考核量化表中考核等級(jí)的`項(xiàng)目共15項(xiàng),如何將數(shù)據(jù)合成到一個(gè)聚類分析的模式中非常關(guān)鍵,按照“管理態(tài)度”“管理能力”“管理方法”“管理效果”四方面屬性來(lái)對(duì)工作考核量化表中的數(shù)據(jù)進(jìn)行重新組合:其中“管理態(tài)度”=(堅(jiān)持標(biāo)準(zhǔn)+與同學(xué)之間感情融洽+言談得體+辦事客觀)/4“管理能力”=(準(zhǔn)確掌握貧困生情況+準(zhǔn)確掌握特殊群體+嚴(yán)格教育與查出違紀(jì)學(xué)生+勝任工作+組織學(xué)生做好評(píng)優(yōu)工作)/5“管理方法”=(每周3次以上探入班級(jí)宿舍+積極參加檢查學(xué)生早操+學(xué)生獎(jiǎng)學(xué)金發(fā)放到位+有準(zhǔn)備的與學(xué)生談話+檢查宿舍衛(wèi)生)/5“管理效果”=(積極參加團(tuán)活班會(huì)+課下了解學(xué)生思想狀況+評(píng)論與建議)/3通過(guò)以上處理,可以將工作考核量化表關(guān)系到的十五個(gè)考評(píng)等級(jí)統(tǒng)一演化到四個(gè)屬性中。然后針對(duì)117份數(shù)據(jù)樣本信息的4個(gè)屬性采取聚類挖掘的方法進(jìn)行研究。通過(guò)樣本預(yù)處理得到數(shù)據(jù)樣本.2.5數(shù)據(jù)聚類挖掘數(shù)據(jù)的聚類挖掘采用劃分方法中的經(jīng)典算法K均值以及K中心點(diǎn)算法,其中K代表類別個(gè)數(shù)(K=3),主要挖掘思路為:將n個(gè)對(duì)象劃分為K個(gè)簇,使同一簇中的對(duì)象具有較高的相似度,K均值算法主要是使用簇中對(duì)象的平均值作為參考值。K均值算法的復(fù)雜度可以通過(guò)進(jìn)一步計(jì)算得出O(nkt),n代表簇的數(shù)量,t代表反復(fù)迭代的次數(shù),在一般情況下,k與t都會(huì)遠(yuǎn)小于n。針對(duì)所要分析的數(shù)據(jù)樣本,四類屬性都是通過(guò)數(shù)據(jù)轉(zhuǎn)換而得到的,所要的數(shù)據(jù)都是算術(shù)平均值,所以產(chǎn)生孤立點(diǎn)的可能性非常小,最終選用K均值的算法來(lái)運(yùn)用于本研究的數(shù)據(jù)聚類中。一般情況下,K均值算法當(dāng)局部取得最優(yōu)解時(shí)會(huì)終止,所以一定要對(duì)數(shù)據(jù)樣本進(jìn)行改進(jìn),考察數(shù)據(jù)樣本信息的綜合比例分布情況,采取進(jìn)一步措施對(duì)K均值算法進(jìn)行改進(jìn)得到三個(gè)等級(jí)樣本,3數(shù)據(jù)挖掘算法流程3.1算法實(shí)現(xiàn)的流程算法實(shí)現(xiàn)流程。在K均值算法中,函數(shù)LoadPatterns的作用主要是將數(shù)據(jù)信息裝載到程序中,目的是為了從數(shù)據(jù)庫(kù)文件中讀取相關(guān)信息,并且將文件中的數(shù)據(jù)轉(zhuǎn)換成樣本數(shù)組。函數(shù)RunK-Means()的作用是算法的主程序,將所有對(duì)象同簇中心距離進(jìn)行對(duì)比,然后將對(duì)象劃分到最近的簇中。函數(shù)Show-Centers()代表算法所描述的聚類中心。函數(shù)ShowClusters()表示樣本的標(biāo)識(shí)符號(hào)[4]。3.2主控程序RunKMeans()的調(diào)用從而找到最短距離的簇,然后運(yùn)用DistributeSam-ples()將所有對(duì)象劃分到最近的簇當(dāng)中,算出所有簇中對(duì)象的平均值,作為新的質(zhì)心,如果所有新的質(zhì)心不發(fā)生改變,則聚類結(jié)束。

          3聚類結(jié)果分析

          本文運(yùn)用K均值算法對(duì)120個(gè)數(shù)據(jù)通過(guò)數(shù)據(jù)轉(zhuǎn)換得到的樣本數(shù)據(jù)進(jìn)行分析,對(duì)管理態(tài)度、管理能力、管理方法、管理效果4個(gè)屬性進(jìn)行數(shù)據(jù)挖掘聚類,設(shè)置初始k值為3,最終挖掘到的結(jié)果.根據(jù)以上結(jié)果,每個(gè)簇所包括的數(shù)據(jù)樣本最后的比例分布范圍如下:簇1(較好)共計(jì)36個(gè)樣本,刪除定義樣本,剩余35個(gè)數(shù)據(jù)樣本,占35/117=30%。簇2(中等)共計(jì)74個(gè)樣本,刪除一個(gè)標(biāo)準(zhǔn)樣本,剩余73個(gè)數(shù)據(jù)樣本,占73/117=62%。簇3(較差)共計(jì)10個(gè)樣本,刪除一個(gè)標(biāo)準(zhǔn)樣本,剩余9個(gè)數(shù)據(jù)樣本,占9/117=8%“管理態(tài)度”=0.77*30%+0.61*62%+0.31*8%=0.634“管理能力”=0.77*30%+0.57*62%+0.31*8%=0.6092“管理方法”=0.74*30%+0.54*62%+0.28*8%=0.5792“管理效果”=0.79*30%+0.56*62%+0.30*8%=0.6082從總體得分由高到低排序?yàn)椋汗芾響B(tài)度、管理能力、管理效果、管理方法。總體上證明該校的思政管理水平屬于中等偏上的。

          4總結(jié)

          數(shù)據(jù)挖掘,主要是通過(guò)對(duì)原始數(shù)據(jù)的分析、提煉,找到最優(yōu)價(jià)值的信息的過(guò)程,屬于一類深層次的數(shù)據(jù)分析方法。將數(shù)據(jù)挖據(jù)技術(shù)運(yùn)用在高校思想政治教育中,有利于對(duì)思政教育工作者的多項(xiàng)工作指標(biāo)進(jìn)行分析,對(duì)其綜合能力進(jìn)行評(píng)定,為高校進(jìn)一步完善思想政治教育管理決策,準(zhǔn)確定位人才培養(yǎng)目標(biāo),加強(qiáng)教育團(tuán)隊(duì)建設(shè)提供有效的數(shù)據(jù)依據(jù)。

          參考文獻(xiàn)

         。郏保輨(qiáng)珺,丁養(yǎng)斌.基于數(shù)據(jù)挖掘技術(shù)的高校思政教育管理研究[J].電子測(cè)試,2015(1):101-103.

         。郏玻莘跺肺鳎n松洋.思想政治教育在高校內(nèi)涵式發(fā)展中的重新定位[J].中共珠海市委黨校珠海市行政學(xué)院學(xué)報(bào),2015(4):50-54.

          [3]吳小龍,張麗麗.大數(shù)據(jù)視角下高校思想政治理論教育創(chuàng)新[J].江西理工大學(xué)學(xué)報(bào),2017(8):20-23.

          [4]李平榮.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報(bào),2014(5):159.

         。郏担菔嬲澹疁\談數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].中國(guó)西部科技,2010(2):148-150.

          作者:關(guān)翠玲 單位:陜西財(cái)經(jīng)職業(yè)技術(shù)學(xué)院

        數(shù)據(jù)挖掘論文2

          [摘要] 電子商務(wù)是現(xiàn)代商業(yè)模式,數(shù)據(jù)挖掘是先進(jìn)的信息處理技術(shù),因此數(shù)據(jù)挖掘在電子商務(wù)中具有廣闊的應(yīng)用前景。本文主要介紹了web數(shù)據(jù)挖掘的概念和分類,論述了電子商務(wù)中web數(shù)據(jù)挖掘的過(guò)程和方法,最后闡述了web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用。

          [關(guān)鍵詞] web 數(shù)據(jù)挖掘 電子商務(wù)

          一、引言

          電子商務(wù)是利用計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)和遠(yuǎn)程通信技術(shù),實(shí)現(xiàn)整個(gè)商務(wù)(買賣)過(guò)程中的電子化、數(shù)字化和網(wǎng)絡(luò)化。在全球范圍內(nèi),基于internet的電子商務(wù)迅猛發(fā)展,促使各企業(yè)經(jīng)營(yíng)者必須及時(shí)搜集大量的數(shù)據(jù),并且將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息,為企業(yè)創(chuàng)造更多潛在的利潤(rùn)。利用web數(shù)據(jù)挖掘技術(shù)可以有效地幫助企業(yè)分析從網(wǎng)上獲取的大量數(shù)據(jù),提取出有效信息,進(jìn)而指導(dǎo)企業(yè)調(diào)整營(yíng)銷策略,給客戶提供動(dòng)態(tài)的個(gè)性化的高效率服務(wù)。

          二、web數(shù)據(jù)挖掘

          1.web數(shù)據(jù)挖掘的概念

          數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的過(guò)程。web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在web環(huán)境下的應(yīng)用,是從web文檔和web活動(dòng)中發(fā)現(xiàn)潛在的、有用的模式或信息。它是一項(xiàng)綜合技術(shù),涉及到internet、人工智能、計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域。

          2.web數(shù)據(jù)挖掘的類型

          電子商務(wù)中web信息的多樣性決定了挖掘任務(wù)的多樣性。按照web處理對(duì)象的不同,web數(shù)據(jù)挖掘可以分為以下三種類型:

          (1)web內(nèi)容挖掘(web content mining):可分為web頁(yè)面內(nèi)容挖掘和搜索結(jié)果挖掘。WWW.133229.COM前者指的是對(duì)web頁(yè)面上的數(shù)據(jù)進(jìn)行挖掘。而后者指的是以某一搜索引擎為基礎(chǔ),對(duì)已搜索結(jié)果的挖掘,以得到更精確有用的信息。web內(nèi)容挖掘常用的方法有weboql和ahoy。

          (2)web結(jié)構(gòu)挖掘(web structure mining):可分為超鏈接挖掘、內(nèi)容挖掘和url挖掘。整個(gè)web空間里,有用的知識(shí)不僅包含在web頁(yè)面的內(nèi)容之中,而且包含在頁(yè)面的結(jié)構(gòu)之中。web結(jié)構(gòu)挖掘是挖掘web潛在的鏈接結(jié)構(gòu)模式,是對(duì)web頁(yè)面超鏈接關(guān)系、文檔內(nèi)部結(jié)構(gòu)、文檔url中的目錄途徑結(jié)構(gòu)的挖掘。page2rank方法就是利用文檔間鏈接信息來(lái)查找相關(guān)的web頁(yè)。

          (3)web使用挖掘(web usage mining):可分為一般訪問(wèn)模式挖掘和個(gè)性化服務(wù)模式挖掘。它是從web的訪問(wèn)記錄中抽取感興趣的模式。/dianzijixie/">電子商務(wù)中,關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)也就是找到客戶對(duì)網(wǎng)站上各種文件之間訪問(wèn)的相互聯(lián)系。聯(lián)系的問(wèn)題就是得到如下形式的規(guī)則:“”, 其中與均為在數(shù)據(jù)庫(kù)中相關(guān)數(shù)據(jù)特征屬性值的集合。例如,用關(guān)聯(lián)規(guī)則技術(shù),我們可以發(fā)現(xiàn):如果客戶在一次訪問(wèn)行為中,訪問(wèn)了頁(yè)面/page1時(shí),一般也會(huì)訪問(wèn)頁(yè)面/page2。進(jìn)行web上的數(shù)據(jù)挖掘,構(gòu)建關(guān)聯(lián)模型,我們可以更好地組織站點(diǎn),減少用戶過(guò)濾信息的負(fù)擔(dān),實(shí)施有效的市場(chǎng)策略,增加交叉銷售量。

          4.序列模式(sequential pattern)

          序列模式分析的目的是為了挖掘出數(shù)據(jù)間的前后或因果關(guān)系,就是在時(shí)間戳有序的事務(wù)集中,找到那些“一些項(xiàng)跟隨另一個(gè)項(xiàng)”的內(nèi)部事務(wù)模式。例如,在/page1上進(jìn)行過(guò)在線訂購(gòu)的顧客,有60%的人在過(guò)去10天內(nèi)也在/page2上下過(guò)定單。通過(guò)序列模式的發(fā)現(xiàn),能夠便于電子商務(wù)的經(jīng)營(yíng)者預(yù)測(cè)客戶的'訪問(wèn)模式,在服務(wù)器方選取有針對(duì)性的頁(yè)面,以滿足訪問(wèn)者的特定要求;網(wǎng)站的管理員可將訪問(wèn)者按瀏覽模式分類,在頁(yè)面上只展示具有該瀏覽模式的訪問(wèn)者經(jīng)常訪問(wèn)的鏈接,而用一個(gè)“更多內(nèi)容”指向其他未被展示的內(nèi)容。當(dāng)訪問(wèn)者瀏覽到某頁(yè)面時(shí),檢查他的瀏覽所符合的序列模式,并在顯眼的位置提示“訪問(wèn)該頁(yè)面的人通常接著訪問(wèn)”的若干頁(yè)面。

          5.分類規(guī)則(classification regulation)

          分類要解決的問(wèn)題是為一個(gè)事件或?qū)ο髿w類。設(shè)有一個(gè)數(shù)據(jù)庫(kù)和一組具有不同特征的類別(標(biāo)記),該數(shù)據(jù)庫(kù)中的每一個(gè)記錄都賦予一個(gè)類別的標(biāo)記,這樣的數(shù)據(jù)庫(kù)稱為示例數(shù)據(jù)庫(kù)或訓(xùn)練集。分類分析就是通過(guò)分析示例數(shù)據(jù)庫(kù)中的數(shù)據(jù),為每個(gè)類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個(gè)分類規(guī)則對(duì)其它數(shù)據(jù)庫(kù)中的記錄進(jìn)行分類。例如,經(jīng)過(guò)web挖掘發(fā)現(xiàn),在/page1進(jìn)行過(guò)在線訂購(gòu)的客戶中有60%是20歲~30歲生活在大中城市的年輕人。得到分類后,就可以針對(duì)這一類客戶的特點(diǎn)展開商務(wù)活動(dòng),提供有針對(duì)性的個(gè)性化的信息服務(wù)。用于分類分析的方法有統(tǒng)計(jì)方法的貝葉斯分類、機(jī)器學(xué)習(xí)的判定樹歸納分類、神經(jīng)網(wǎng)絡(luò)的后向傳播分類、k-最臨近分類、mbr、遺傳法、粗糙集和模糊集等。

          6.聚類分析(clustering analysis)

          聚類分析不同于分類規(guī)則,其輸入集是一組未標(biāo)定的記錄,也就是說(shuō),此時(shí)輸入的記錄還沒(méi)有進(jìn)行任何分類。其目的是根據(jù)一定的規(guī)則,合理地劃分記錄集合,并用顯式或隱式的方法描述不同的類別。在電子商務(wù)中,通過(guò)聚類具有相似瀏覽行為的客戶,可使經(jīng)營(yíng)者更多地了解客戶,為客戶提供更好的服務(wù)。例如,一些客戶在一個(gè)時(shí)間段內(nèi)經(jīng)常瀏覽“wedding celebration”,經(jīng)過(guò)分析可將這些客戶聚類為一組,并可進(jìn)一步得知這是一組即將結(jié)婚的客戶,對(duì)他們的服務(wù)就應(yīng)該有別于其他的聚類客戶,如“經(jīng)理人員階層組”、“學(xué)生階層組”。這樣,web可自動(dòng)給這個(gè)特定的顧客聚類發(fā)送新產(chǎn)品信息郵件,為這個(gè)顧客聚類動(dòng)態(tài)地改變一個(gè)特殊的站點(diǎn)。在一定程度上滿足客戶的要求,這對(duì)客戶和銷售商來(lái)說(shuō)更有意義。

          三、web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用

          1.挽留老顧客,挖掘潛在客戶

          通過(guò)web挖掘,電子商務(wù)的經(jīng)營(yíng)者可以獲知每位訪問(wèn)者的個(gè)人愛(ài)好,充分地了解客戶的需要,根據(jù)每一類顧客的獨(dú)特需求提供定制化的產(chǎn)品,并根據(jù)需求動(dòng)態(tài)地向客戶做頁(yè)面推薦,調(diào)整web頁(yè)面,提高客戶滿意度,延長(zhǎng)客戶駐留的時(shí)間,最終達(dá)到留住客戶的目的。通過(guò)挖掘web日志記錄,可以先對(duì)已經(jīng)存在的訪問(wèn)者進(jìn)行分類,然后從它的分類判斷出某個(gè)新客戶是否是潛在的客戶。

          2.制定產(chǎn)品營(yíng)銷策略,優(yōu)化促銷活動(dòng)

          通過(guò)對(duì)商品訪問(wèn)情況和銷售情況進(jìn)行挖掘,企業(yè)能夠獲取客戶的訪問(wèn)規(guī)律,確定顧客消費(fèi)的生命周期,根據(jù)市場(chǎng)的變化,針對(duì)不同的產(chǎn)品制定相應(yīng)的營(yíng)銷策略。

          3.降低運(yùn)營(yíng)成本,提高企業(yè)競(jìng)爭(zhēng)力

          電子商務(wù)的經(jīng)營(yíng)者通過(guò)web數(shù)據(jù)挖掘,可以得到可靠的市場(chǎng)反饋信息,認(rèn)真分析顧客的將來(lái)行為,進(jìn)行有針對(duì)性的電子商務(wù)營(yíng)銷活動(dòng);可以根據(jù)關(guān)心某產(chǎn)品的訪問(wèn)者的瀏覽模式來(lái)決定廣告的位置,增加廣告針對(duì)性,提高廣告的投資回報(bào)率,從而降低運(yùn)營(yíng)成本,提高企業(yè)競(jìng)爭(zhēng)力。

          4.提高站點(diǎn)點(diǎn)擊率,完善電子商務(wù)網(wǎng)站設(shè)計(jì)

          通過(guò)挖掘客戶的行為記錄和反饋情況為站點(diǎn)設(shè)計(jì)者提供改進(jìn)的依據(jù),進(jìn)一步優(yōu)化網(wǎng)站組織結(jié)構(gòu)以提高網(wǎng)站的點(diǎn)擊率。比如利用關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),可以針對(duì)不同客戶動(dòng)態(tài)調(diào)整站點(diǎn)結(jié)構(gòu),使客戶訪問(wèn)的有關(guān)聯(lián)的文件間的鏈接更直接,讓客戶容易地訪問(wèn)到想要的頁(yè)面,就能給客戶留下好的印象,增加下次訪問(wèn)的機(jī)率。

          同時(shí)對(duì)網(wǎng)站上各種數(shù)據(jù)的統(tǒng)計(jì)分析有助于改進(jìn)系統(tǒng)性能,增強(qiáng)系統(tǒng)安全性,并提供決策支持。

          四、結(jié)束語(yǔ)

          當(dāng)今時(shí)代,電子商務(wù)的發(fā)展勢(shì)頭越來(lái)越強(qiáng)勁,面向電子商務(wù)的數(shù)據(jù)挖掘?qū)⑹且粋(gè)非常有前景的領(lǐng)域。但是,不可否認(rèn),在面向電子商務(wù)的數(shù)據(jù)挖掘中還存在很多急需解決的問(wèn)題, 比如:怎樣將服務(wù)器的日志數(shù)據(jù)轉(zhuǎn)化成適合某種數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)格式;怎樣解決分布性、異構(gòu)性數(shù)據(jù)源的挖掘問(wèn)題;如何控制整個(gè)web上的知識(shí)發(fā)現(xiàn)過(guò)程等。

          參考文獻(xiàn):

          [1]jiawei han,micheline kamber著,范明孟小峰譯:數(shù)據(jù)挖掘概念與技術(shù).機(jī)械工業(yè)出版社,20xx,8

          [2]凌傳繁:web挖掘技術(shù)在電子商務(wù)中的應(yīng)用[j].情報(bào)雜志,20xx,(1)

          [3]柳:web挖掘技術(shù)與電子商務(wù)[j].商場(chǎng)現(xiàn)代化,20xx,(03x)

        數(shù)據(jù)挖掘論文3

          摘要:隨著信息技術(shù)的發(fā)展與進(jìn)步,大數(shù)據(jù)時(shí)代已經(jīng)悄然走進(jìn)人們身邊,云計(jì)算技術(shù)的運(yùn)用已經(jīng)隨處可見(jiàn),并改變和影響著人們的生活。在此基礎(chǔ)上,數(shù)據(jù)挖掘技術(shù)產(chǎn)生并發(fā)展,其在信息安全系統(tǒng)開發(fā)和建設(shè)方面產(chǎn)生重要影響和作用,以數(shù)據(jù)挖掘技術(shù)為依托構(gòu)建相應(yīng)的信息安全系統(tǒng)則更加能夠讓網(wǎng)絡(luò)信息建設(shè)可靠、安全。

          關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);信息安全系統(tǒng);開發(fā)研究

          一、數(shù)據(jù)挖掘的主要任務(wù)

          在數(shù)據(jù)挖掘的主要任務(wù)中,包含關(guān)聯(lián)分析、聚類分析、異常檢測(cè)等任務(wù)。關(guān)聯(lián)分析也叫頻繁模式分析,其指的是就同一任務(wù)或者統(tǒng)一事件的查找過(guò)程中,另一事件也同樣會(huì)發(fā)生相同規(guī)律,兩者之間具有緊密聯(lián)系。聚類分析主要是的是對(duì)各個(gè)數(shù)據(jù)內(nèi)在的規(guī)律摸索,以及特點(diǎn)分析,通過(guò)對(duì)特點(diǎn)和規(guī)律進(jìn)行對(duì)比,依照特點(diǎn)和規(guī)律進(jìn)行數(shù)據(jù)源分類,使其成為若干個(gè)數(shù)據(jù)庫(kù)。異常檢測(cè)指的是對(duì)數(shù)據(jù)樣本的范本進(jìn)行建設(shè),利用這一范本,與數(shù)據(jù)源中所存在的數(shù)據(jù)開展對(duì)比分析工作,將數(shù)據(jù)中的異常樣本查找出來(lái)[1]。在監(jiān)督學(xué)習(xí)中,主要包含分類與預(yù)測(cè)兩種形式,利用已知樣本的類型與大小,對(duì)新到樣本開展有關(guān)預(yù)測(cè)活動(dòng)。

          二、基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)信息安全策略

          1.安全的網(wǎng)絡(luò)環(huán)境

          (1)對(duì)控制技術(shù)進(jìn)行隔離與訪問(wèn),包括物理隔離、可信網(wǎng)絡(luò)隔離、邏輯隔離與不可信網(wǎng)絡(luò)隔離,相關(guān)用戶如果需要進(jìn)行網(wǎng)絡(luò)資源搜集或者訪問(wèn),需要得到相關(guān)授權(quán)。

          (2)對(duì)防病毒技術(shù)進(jìn)行運(yùn)用,由于網(wǎng)絡(luò)安全已受到病毒的嚴(yán)重威脅,應(yīng)當(dāng)對(duì)病毒預(yù)警、防護(hù)以及應(yīng)急機(jī)制進(jìn)行建設(shè),確保網(wǎng)絡(luò)的安全性;

          (3)通過(guò)網(wǎng)絡(luò)入侵檢測(cè)技術(shù)的應(yīng)用,能夠?qū)Ψ欠ㄈ肭终叩钠茐男袨榧皶r(shí)發(fā)現(xiàn),并依照存在的隱患進(jìn)行預(yù)警機(jī)制的建設(shè)。網(wǎng)絡(luò)安全環(huán)境的建設(shè)還包括對(duì)系統(tǒng)安全性開展定期分析,在第一時(shí)間對(duì)系統(tǒng)漏洞進(jìn)行查找,并制定有關(guān)解決措施;

         。4)通過(guò)有關(guān)分析審計(jì)工作的開展,可以對(duì)計(jì)算機(jī)網(wǎng)絡(luò)中的各種運(yùn)行活動(dòng)進(jìn)行記錄,不僅可以對(duì)網(wǎng)絡(luò)訪問(wèn)者予以確定,而且還能夠?qū)ο到y(tǒng)的使用情況進(jìn)行記錄;

          (5)通過(guò)網(wǎng)絡(luò)備份與災(zāi)難恢復(fù)工作,能夠利用最短的時(shí)間回復(fù)已破壞的系統(tǒng)。

          2.保證數(shù)據(jù)挖掘信息安全的策略。安全的數(shù)據(jù)挖掘信息指的是數(shù)據(jù)挖掘信息的儲(chǔ)存、傳送以及運(yùn)用工作的安全性。在數(shù)據(jù)挖掘信息的存儲(chǔ)安全中,主要包括其物理完整性、邏輯完整性以及保密性。利用數(shù)據(jù)完整性技術(shù)、數(shù)據(jù)傳輸加密技術(shù)以及防抵賴性技術(shù),使數(shù)據(jù)挖掘信息傳送的安全性得到充分保障。數(shù)據(jù)挖掘信息運(yùn)用的安全性指的是針對(duì)網(wǎng)絡(luò)中的主體,應(yīng)當(dāng)開展有關(guān)驗(yàn)證工作,預(yù)防非授權(quán)主體對(duì)網(wǎng)絡(luò)資源進(jìn)行私自運(yùn)用。

          3.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)安全數(shù)據(jù)分析策略

         。1)關(guān)聯(lián)性分析。在一次攻擊行為中,利用源地址、目的地址以及攻擊類型這三要素,通過(guò)三要素之間的隨意指定或組合,都能夠?qū)⒕邆湟欢ㄒ饬x的網(wǎng)絡(luò)攻擊態(tài)勢(shì)反映出來(lái)。

          (2)事件預(yù)測(cè)機(jī)制。對(duì)某一事件的發(fā)展情況進(jìn)行跟蹤,通過(guò)數(shù)據(jù)聚類算法的應(yīng)用,對(duì)依照網(wǎng)絡(luò)事件所構(gòu)建的模型進(jìn)行分析,進(jìn)而做出判定。一般來(lái)說(shuō),規(guī)模比較大的網(wǎng)絡(luò)事件中,擴(kuò)散一般是其所呈現(xiàn)的重要特征。

         。3)可控?cái)?shù)量預(yù)測(cè)模型。利用對(duì)事件中受控主機(jī)狀態(tài)增長(zhǎng)數(shù)量進(jìn)行觀測(cè),判斷該事件的感染能力。所謂的受控主機(jī)狀態(tài)增長(zhǎng)指的'是,先前未檢測(cè)出主機(jī)受到某類攻擊,利用有關(guān)檢測(cè),對(duì)其狀態(tài)變化增長(zhǎng)情況予以發(fā)現(xiàn)[2]。

         。4)分析處理模型。通過(guò)分析處理模型,能夠科學(xué)分析運(yùn)營(yíng)商事件處理反饋情況,并對(duì)其針對(duì)被控主機(jī)的處理能力進(jìn)行判定。利用對(duì)所有運(yùn)營(yíng)商所開展的綜合評(píng)估,能夠?qū)ζ涔茌牱秶鷥?nèi)的主機(jī)處理能力予以綜合判斷。

         。5)網(wǎng)絡(luò)安全數(shù)據(jù)分析模型。針對(duì)網(wǎng)絡(luò)事件進(jìn)行數(shù)據(jù)分析,通過(guò)分析構(gòu)建相應(yīng)模型,結(jié)合模型進(jìn)行異常情況的跟進(jìn)和跟蹤,從而為網(wǎng)絡(luò)安全環(huán)境的營(yíng)造創(chuàng)造條件。其運(yùn)行過(guò)程主要包括兩個(gè)階段:

         、僭趯W(xué)習(xí)階段中,用戶主要是對(duì)事件進(jìn)行確定,并在計(jì)算機(jī)系統(tǒng)中進(jìn)行定義,對(duì)各個(gè)時(shí)間段所發(fā)生的安全事件數(shù)量進(jìn)行統(tǒng)計(jì)。一般來(lái)說(shuō),統(tǒng)計(jì)以小時(shí)為單位,單位時(shí)間內(nèi)的安全事件平均數(shù)為x,方差為σ。

         、谠趯(shí)時(shí)檢測(cè)階段中,根據(jù)時(shí)間間隔各類安全事件的數(shù)量ix對(duì)安全事件數(shù)量是否出現(xiàn)異常情況進(jìn)行判定,正常的安全事件數(shù)量輕度異常的安全事件數(shù)量中度異常的安全事件數(shù)量重度異常的安全事件數(shù)量在建設(shè)模型的過(guò)程中開展有關(guān)配置工作,依據(jù)不同的情形,對(duì)該參數(shù)進(jìn)行調(diào)整,各類安全事件數(shù)量異常的最高值也就是安全事件數(shù)量指標(biāo)值。

          三、結(jié)語(yǔ)

          云計(jì)算和大數(shù)據(jù)時(shí)代都對(duì)信息技術(shù)提出了更高的安全要求和標(biāo)準(zhǔn),網(wǎng)絡(luò)安全系統(tǒng)的構(gòu)建影響著人們的生活和生產(chǎn),并對(duì)相關(guān)的數(shù)據(jù)起到重要保護(hù)作用。結(jié)合數(shù)據(jù)挖掘技術(shù)進(jìn)行信息安全系統(tǒng)的開發(fā)和建設(shè),則能夠更好地促進(jìn)網(wǎng)絡(luò)安全性的提升,能夠有效抵制網(wǎng)絡(luò)不法分子的侵襲,讓網(wǎng)絡(luò)安全性真正為人們的生活工作提供幫助。

          參考文獻(xiàn)

          [1]趙悅品.網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),20xx,40(04):61-65.

          [2]梁雪霆.數(shù)據(jù)挖掘技術(shù)的計(jì)算機(jī)網(wǎng)絡(luò)病毒防御技術(shù)研究[J].科技經(jīng)濟(jì)市場(chǎng),20xx(01):25.

        數(shù)據(jù)挖掘論文4

          摘要:橡膠是一種重要的戰(zhàn)略物資, 其種植受到土地資源、地理環(huán)境、橡膠機(jī)械化的影響, 產(chǎn)量波動(dòng)很大。本文對(duì)農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工引入數(shù)據(jù)挖掘技術(shù)的必要性進(jìn)行了初步探究, 指出通過(guò)提取土壤圖像的特征, 用支持向量機(jī)的算法可以發(fā)現(xiàn)橡膠種植、生產(chǎn)加工的規(guī)律, 進(jìn)而制定精準(zhǔn)的橡膠產(chǎn)業(yè)相關(guān)策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤(rùn)。

          關(guān)鍵詞:橡膠種植; 數(shù)據(jù)挖掘; 特征提取; 支持向量機(jī).

          基金:廣東農(nóng)工商職業(yè)技術(shù)學(xué)院校級(jí)課題“基于數(shù)據(jù)挖掘技術(shù)的橡膠產(chǎn)業(yè)的數(shù)字化研究” (xykt1601)橡膠是一種重要的戰(zhàn)略物資, 與石油、鋼鐵、煤炭并稱為四大工業(yè)原料。我國(guó)是全球最大的天然橡膠消費(fèi)國(guó)和進(jìn)口國(guó), 國(guó)內(nèi)天然橡膠長(zhǎng)期處于缺口狀態(tài), 需求的2/3依賴進(jìn)口來(lái)滿足[1]。天然橡膠產(chǎn)業(yè)屬于資源約束型、勞動(dòng)密集型產(chǎn)業(yè), 相對(duì)其他農(nóng)作物來(lái)說(shuō), 具有周期長(zhǎng)、收益長(zhǎng)等特點(diǎn)。農(nóng)墾橡膠業(yè)的產(chǎn)生、發(fā)展與壯大實(shí)際上是中國(guó)橡膠業(yè)發(fā)展的一個(gè)縮影, 一直是學(xué)術(shù)界研究的熱點(diǎn)。根據(jù)農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工的歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘, 發(fā)現(xiàn)其種植、生產(chǎn)加工的規(guī)律, 進(jìn)而制定精準(zhǔn)的橡膠產(chǎn)業(yè)相關(guān)策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤(rùn)的數(shù)字化研究, 目前國(guó)內(nèi)還比較少。

          1 引入數(shù)據(jù)挖掘技術(shù)的必要性

          天然橡膠以其獨(dú)具的高彈性、高強(qiáng)度、高伸長(zhǎng)率、耐磨、耐撕裂、耐沖擊、耐酸堿、耐油、耐腐蝕、耐高低溫和絕緣性好、粘合性、密封性強(qiáng)等特點(diǎn), 始終處于不可替代的地位。我國(guó)天然橡膠需求量大, 近幾年一直處于供不應(yīng)求的狀態(tài)。造成這種局面的原因主要有以下兩點(diǎn):一、國(guó)內(nèi)輪胎工業(yè)迅猛發(fā)展;二、天然橡膠的種植條件苛刻。其種植條件苛刻主要體現(xiàn)在對(duì)種植地要求高, 如對(duì)土地的含碳、含氮、濕度等要求都很嚴(yán)格;容易受到寒害、蟲害、臺(tái)風(fēng)的襲擊。橡膠的供應(yīng)不足阻礙了我國(guó)經(jīng)濟(jì) (特別是輪胎行業(yè)) 的發(fā)展;诖吮尘跋, 本文通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)橡膠樹生長(zhǎng)地的土壤進(jìn)行評(píng)價(jià)研究, 為尋找出最適合橡膠樹生長(zhǎng)的土壤和尋找橡膠樹種植地提供依據(jù), 一方面可以降低種植橡膠的成本, 另一方面可以讓新的橡膠農(nóng)更容易掌握種植橡膠技巧, 讓更多的人加入種植橡膠的隊(duì)伍中。

          2 數(shù)字化流程圖

          2.1 樣本采集

          研究的橡膠林可以分為4種不同林齡膠林:幼林早期 (0~2齡) 、幼林晚期 (2~7齡) 、開割數(shù) (7~16齡) 、老齡即將更新數(shù) (>16齡) 。取土壤樣本的時(shí)間要在晴天上午, 如果遇雨天, 則等2個(gè)晴天后再進(jìn)行取樣。每個(gè)林齡段中隨機(jī)設(shè)置n個(gè)樣地:每個(gè)樣地的面積a (m) ×b (m) , 分0~15cm、15~30cm、30~45cm、45~60cm4個(gè)層次拍攝土壤樣品, 每個(gè)層次拍攝m張。每張土壤樣品圖片的命名規(guī)則為“膠林-層次.jpg”。

          2.2 特征提取

          通過(guò)拍攝得到的土壤圖像, 由于圖像的維度過(guò)大, 不容易分析, 需要從中提取土樣圖像的特征, 提取反應(yīng)圖像本質(zhì)的一些關(guān)鍵指標(biāo), 以達(dá)到自動(dòng)進(jìn)行圖像識(shí)別的目的。

          圖像的特征主要包括顏色特征、紋理特征、形狀特征等。本文主要運(yùn)用圖片的顏色特征和紋理特征建立圖片自動(dòng)識(shí)別模型。

          2.2.1 顏色特征

          圖片的顏色特征用顏色矩表示;陬伾靥崛D像特征的數(shù)學(xué)基礎(chǔ)在于圖像中任何的顏色分布均可以用它的矩來(lái)表示。顏色的矩包含各個(gè)顏色通道的一階矩、二階矩和三階矩, 對(duì)于一幅RGB顏色空間的圖像, 具有R、G和B三個(gè)顏色通道, 共有9個(gè)分量。

          2.2.2 紋理特征

          圖片的紋理特征主要灰度共生矩陣?yán)锩嬷刑崛。因(yàn)榧y理是由灰度分布在空間位置上反復(fù)交替變化而形成的, 因而在圖像空間中相隔某距離的兩個(gè)像素間一定存在一定的'灰度關(guān)系, 稱為是圖像中灰度的空間相關(guān)特性。

          其中L表示圖像的灰度級(jí), i, j分別表示像素的灰度。d表示兩個(gè)像素間的空間位置關(guān)系。不同的d決定了兩個(gè)像素間的距離和方向。元素Pd (1, 0) 代表了圖像上位置關(guān)系為d的兩個(gè)像素灰度分別為1和0的情況出現(xiàn)的次數(shù)。

          在建模中一般不直接用圖片的灰度共生矩陣建模, 往往要從灰度共生矩陣中提取它的特征參數(shù)用戶建模;叶裙采仃嚨奶卣鲄(shù)有二階距、對(duì)比度、相關(guān)、熵。

          3 模型構(gòu)建

          特征提取完之后, 用支持向量機(jī)算法對(duì)圖像進(jìn)行圖片識(shí)別。根據(jù)識(shí)別出的結(jié)果就可以有針對(duì)性的對(duì)土壤做些有利于橡膠樹生長(zhǎng)的干預(yù)工作, 如:如果識(shí)別出土壤缺少氮元素, 可以給土壤適當(dāng)?shù)氖┬┑?如果識(shí)別出土壤的水分較少, 就要給土壤澆水, 給農(nóng)墾橡膠產(chǎn)業(yè)提供數(shù)學(xué)指導(dǎo)意義。

          4 結(jié)論

          本文分析了橡膠種植中引入數(shù)據(jù)挖掘技術(shù)的必要性, 對(duì)橡膠種植數(shù)字化研究做了初步闡述?梢越o橡膠業(yè)提供一定的參考意義。

          參考文獻(xiàn)

          [1]黃冠, 吳紅宇.廣東農(nóng)墾天然橡膠種植現(xiàn)狀及“走出去”戰(zhàn)略實(shí)踐.中國(guó)熱帶農(nóng)業(yè), 20xx, 3 (4) , 18-21.

          [2]李煒.廣東農(nóng)墾“走出去”做強(qiáng)做大橡膠產(chǎn)業(yè).今日熱作, 20xx, 19 (1) , 52-53.

          [3]Rapepun Wititsuwannakul, Piyaporn Pasitkul, et.al.Hevea latex lectin binding protein in C-serum as an anti-latex coagulating factor and its role in a proposed new model for latex coagulation, Phytochemistry 20xx, 69 (1) , 656–662.

          [4]勒碧.數(shù)據(jù)挖掘算法及其生產(chǎn)優(yōu)化應(yīng)用中的研究.浙江大學(xué)碩士學(xué)位論文, 20xx.

        數(shù)據(jù)挖掘論文5

          摘要:本文主要以電力調(diào)度自動(dòng)化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)運(yùn)用分析為重點(diǎn)進(jìn)行闡述,結(jié)合當(dāng)下數(shù)據(jù)挖掘概述為主要依據(jù),從神經(jīng)網(wǎng)絡(luò)法、灰色分析法、模糊分析法、線路故障專家系統(tǒng)、負(fù)荷管理專家系統(tǒng)、狀態(tài)檢修專家系統(tǒng)這六方面進(jìn)行深入探索與研究,其目的在于提升電力調(diào)度自動(dòng)化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)運(yùn)用效率,為加強(qiáng)電力調(diào)度自動(dòng)化系統(tǒng)的實(shí)效性做鋪墊。

          關(guān)鍵詞:數(shù)據(jù)挖掘;電力調(diào)度自動(dòng)化;數(shù)據(jù)倉(cāng)庫(kù)

          0引言

          對(duì)于電力調(diào)度自動(dòng)化系統(tǒng)來(lái)講合理應(yīng)用數(shù)據(jù)挖掘技術(shù)十分重要,其是確保電力調(diào)度自動(dòng)化系統(tǒng)效用充分發(fā)揮的基礎(chǔ),也是推動(dòng)現(xiàn)代化社會(huì)持續(xù)穩(wěn)定發(fā)展的關(guān)鍵;诖,相關(guān)人員需給予數(shù)據(jù)挖掘技術(shù)高度重視,促使其存在的價(jià)值與效用在電力調(diào)度自動(dòng)化系統(tǒng)中發(fā)揮出最大,為提高我國(guó)國(guó)民生活水平奠定基礎(chǔ)。本文主要分析電力調(diào)度自動(dòng)化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)運(yùn)用,具體如下。

          1數(shù)據(jù)挖掘相關(guān)概述

          從技術(shù)層面講,數(shù)據(jù)挖掘便是在諸多數(shù)據(jù)中,利用多種分析工具探尋數(shù)據(jù)同模型間的關(guān)系,并通過(guò)此種關(guān)系的發(fā)現(xiàn)為決策提供有效依據(jù)。由于數(shù)據(jù)挖掘的飛速發(fā)展,隨著出現(xiàn)了許多多元化的技術(shù)與方法,基于此便形成了多種不同的分類。通俗的講,能夠把數(shù)據(jù)挖掘分為驗(yàn)證驅(qū)動(dòng)性和發(fā)現(xiàn)驅(qū)動(dòng)型這兩種知識(shí)發(fā)現(xiàn)。驗(yàn)證驅(qū)動(dòng)型指的是客戶利用多元化工具對(duì)自己所提的假設(shè)進(jìn)行查詢與檢索,來(lái)否定或是驗(yàn)證假設(shè)的一個(gè)過(guò)程;而發(fā)現(xiàn)驅(qū)動(dòng)型是通過(guò)統(tǒng)計(jì)或是機(jī)器學(xué)習(xí)等技術(shù)來(lái)研究新的假設(shè)。

          2數(shù)據(jù)挖掘技術(shù)在電力調(diào)度自動(dòng)化系統(tǒng)中的運(yùn)用

         。1)灰色分析法。在對(duì)時(shí)間線上相關(guān)聯(lián)的數(shù)據(jù)進(jìn)行分析時(shí)會(huì)應(yīng)用到灰色分析法,通過(guò)應(yīng)用一定的數(shù)學(xué)方法,把數(shù)據(jù)中的白色部分當(dāng)作主要依據(jù),找出它同黑色部分有關(guān)聯(lián)的地方,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)灰色化。在挖掘電力數(shù)據(jù)時(shí),灰色分析法為最普遍的利用方法之一,主要把其應(yīng)用到電力數(shù)據(jù)預(yù)測(cè)及分析中。它的優(yōu)點(diǎn)為盡管數(shù)據(jù)不完整或是數(shù)據(jù)有限皆能夠應(yīng)用與分析,但其不足為不能將大數(shù)據(jù)的使用價(jià)值充分的發(fā)揮出。

         。2)神經(jīng)網(wǎng)絡(luò)法。所謂神經(jīng)網(wǎng)絡(luò)法指的是合理應(yīng)用計(jì)算機(jī)的計(jì)算機(jī)能力的前提下,對(duì)離散數(shù)據(jù)展開邏輯處理的一種方式,為專家系統(tǒng)中應(yīng)用的基礎(chǔ)方式。通過(guò)對(duì)計(jì)算機(jī)云計(jì)算的能力合理應(yīng)用,這些專家系統(tǒng)能夠?qū)﹄娏?shù)據(jù)進(jìn)行深度分析、充分挖掘,其對(duì)電力數(shù)據(jù)預(yù)測(cè)與整理具有不可或缺的作用,事實(shí)上,神經(jīng)網(wǎng)絡(luò)法屬于人工智能法,其能夠?qū)崿F(xiàn)對(duì)諸多數(shù)列展開聯(lián)動(dòng)分析,并明確每個(gè)數(shù)列間的關(guān)系,讓其邏輯性得到有效發(fā)揮。

          (3)模糊分析法。此種方法為聚類分析法的一種,是最常應(yīng)用聚類方法,其主要是對(duì)已知數(shù)列進(jìn)行聚類與分析,讓數(shù)據(jù)能夠展開全面、綜合的分類。同灰色分析法差異點(diǎn)為,利用模糊分析法能夠合理應(yīng)用大數(shù)據(jù)優(yōu)勢(shì),滿足對(duì)其的實(shí)質(zhì)性需求。

          3電力調(diào)度自動(dòng)化對(duì)數(shù)據(jù)挖掘技術(shù)的具體需求

          目前,我國(guó)數(shù)據(jù)挖掘技術(shù),因五防系統(tǒng)等技術(shù)還處于發(fā)展的初級(jí)階段,對(duì)應(yīng)的管理措施還未完全構(gòu)成,所以,盡管說(shuō)數(shù)據(jù)挖掘的專家系統(tǒng)以能夠在多方面展現(xiàn)出優(yōu)勢(shì),但若想實(shí)現(xiàn)遙控系統(tǒng)和專家系統(tǒng)是一件不可能實(shí)現(xiàn)的事。

         。1)負(fù)荷管理系統(tǒng)。電力負(fù)荷管理為電力調(diào)度自動(dòng)化系統(tǒng)中的主要環(huán)節(jié)。依據(jù)冗余回路間的負(fù)荷分布,電能能夠自動(dòng)對(duì)負(fù)荷的上級(jí)節(jié)點(diǎn)進(jìn)行連續(xù)與切換。另外,當(dāng)其中有一個(gè)節(jié)點(diǎn)出現(xiàn)故障,符合管理系統(tǒng)則能夠充分發(fā)揮效用,讓該故障節(jié)點(diǎn)在事故出現(xiàn)以后被自動(dòng)切除。負(fù)荷管理系統(tǒng)的實(shí)際工作原理為依據(jù)對(duì)各線路的.負(fù)荷狀態(tài)進(jìn)行全面監(jiān)測(cè),并通過(guò)合理應(yīng)用數(shù)據(jù)挖掘技術(shù),對(duì)滿足這些狀態(tài)表現(xiàn)出的數(shù)據(jù)進(jìn)行預(yù)測(cè),并分析、判斷、整理這些數(shù)據(jù)變化形式,基于此來(lái)對(duì)負(fù)荷進(jìn)行道閘分配。目前,在我國(guó)電力調(diào)度中,負(fù)荷管理系統(tǒng)已投入應(yīng)用,但因有關(guān)技術(shù)的滯后性,不能實(shí)現(xiàn)同電網(wǎng)遠(yuǎn)控系統(tǒng)完美對(duì)接,所以還沒(méi)有實(shí)現(xiàn)廣泛應(yīng)用,對(duì)于調(diào)度系統(tǒng)中所發(fā)布的命令皆由人工來(lái)實(shí)現(xiàn)。

         。2)線路故障系統(tǒng)。傳統(tǒng)的電力線路檢修,一般都是在線路出現(xiàn)嚴(yán)重故障以后,才開展利用相應(yīng)方法對(duì)電力線路進(jìn)行巡查,并且探尋出存在其中的故障。但若是把線路故障系統(tǒng)利用到其中,那么該系統(tǒng)會(huì)依據(jù)電力線路兩端產(chǎn)生故障形式,在電力線路產(chǎn)生故障以后自動(dòng)且及時(shí)的判斷出電力線路受損的部位。相比于較完善的線路故障系統(tǒng)而言,還能夠同時(shí)判斷多個(gè)故障點(diǎn)。通過(guò)將線路故障系統(tǒng)利用到電力調(diào)動(dòng)自動(dòng)化系統(tǒng)之中,不但能夠?qū)⑷唠s的線路切除掉,還能減小電力線路故障發(fā)生率,以及停電檢修率,并且還能在很大程度上監(jiān)督電力線路巡查力度,讓電力維修人員能夠有足夠的實(shí)踐對(duì)線路出現(xiàn)故障的部位分析、判斷,并制定與之對(duì)應(yīng)的補(bǔ)救措施。特別是一些地埋線路等,利用此種能夠定位的線路故障系統(tǒng)具有積極作用。

         。3)狀態(tài)檢修系統(tǒng)。對(duì)變壓器、電纜、開關(guān)等設(shè)施的具體運(yùn)行狀態(tài)進(jìn)行充分分析,外加對(duì)互感器、集中器等設(shè)備的運(yùn)行狀況進(jìn)行判斷,狀態(tài)檢修系統(tǒng)能夠以此來(lái)對(duì)電力調(diào)度自動(dòng)化系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行檢查,探究其是否健康,并深入規(guī)劃故障設(shè)備切除方案,自動(dòng)的把故障設(shè)備切除掉。合理利用狀態(tài)檢修系統(tǒng)是電力檢修的前提條件,為實(shí)現(xiàn)對(duì)全部設(shè)備充分管理的關(guān)鍵點(diǎn),并且其利用價(jià)值為能夠自動(dòng)化更換再用設(shè)備,使倒閥變成檢修的狀態(tài),并朝著調(diào)動(dòng)系統(tǒng)進(jìn)行報(bào)警。當(dāng)然,因有關(guān)技術(shù)的不成熟,導(dǎo)致?tīng)顟B(tài)檢修系統(tǒng)在部分企業(yè)依舊處于閑置的狀態(tài),致使其含有的效用無(wú)法充分的發(fā)揮出。

          4結(jié)束語(yǔ)

          綜上所述,若想電力調(diào)度自動(dòng)化系統(tǒng)存在的價(jià)值發(fā)揮出最大,有關(guān)人員加強(qiáng)數(shù)據(jù)挖掘技術(shù)應(yīng)用勢(shì)在必行。因其是保證電力調(diào)度自動(dòng)化系統(tǒng)穩(wěn)定性的根本要素,還是推動(dòng)電力調(diào)度自動(dòng)化系統(tǒng)效用發(fā)揮的關(guān)鍵點(diǎn)。為此,有關(guān)部門需合理應(yīng)用數(shù)據(jù)挖掘技術(shù),讓其包含的作用都利用到電力調(diào)度自動(dòng)化系統(tǒng)中,為進(jìn)一步提高社會(huì)公眾生活水平提供有效依據(jù)。

          參考文獻(xiàn):

          [1]聶宇,羅超,高小芊,寇霄宇,何宇雄,苑晉沛,李蔚.基于電力調(diào)度自動(dòng)化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].科技創(chuàng)新與應(yīng)用,20xx(03):143-144.

          [2]周洋.數(shù)據(jù)挖掘在電力調(diào)度自動(dòng)化系統(tǒng)中的應(yīng)用解析[J].科技創(chuàng)新與應(yīng)用,20xx(35):149-150.

          [3]劉雅銘.解析電力調(diào)度自動(dòng)化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)應(yīng)用[J].低碳世界,20xx(33):66-67.

          [4]朱維佳,曹堅(jiān).電力調(diào)度自動(dòng)化系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].電氣時(shí)代,20xx(07):108-111.

        數(shù)據(jù)挖掘論文6

          1.軟件工程數(shù)據(jù)的挖掘測(cè)試技術(shù)

          1.1代碼編寫

          通過(guò)對(duì)軟件數(shù)據(jù)進(jìn)行分類整理,在進(jìn)行缺陷軟件的排除工作以后,根據(jù)軟件開發(fā)過(guò)程中的各種信息進(jìn)行全新的代碼編寫;诖a編寫人員的編寫經(jīng)驗(yàn),在一般情況,對(duì)結(jié)構(gòu)功能與任務(wù)類似的模塊進(jìn)行重新編寫,這些重新編寫的模塊應(yīng)遵循特定的編寫規(guī)則,這樣才能保證代碼編寫的合理有效性。

          1.2錯(cuò)誤重現(xiàn)

          代碼編寫完成以后開發(fā)者會(huì)將這些代碼進(jìn)行版本的確認(rèn),然后將正確有效的代碼實(shí)際應(yīng)用到適當(dāng)版本的軟件中去。而對(duì)于存在缺陷的代碼,開發(fā)者需要針對(duì)代碼產(chǎn)生缺陷的原因進(jìn)行分析,通過(guò)不但調(diào)整代碼內(nèi)的輸入數(shù)據(jù),直到代碼內(nèi)的數(shù)據(jù)與程序報(bào)告中的描述接近為止。存在缺陷的代碼往往會(huì)以缺陷報(bào)告的形式對(duì)開發(fā)者予以說(shuō)明,由于缺陷報(bào)告的模糊性,常常會(huì)誤導(dǎo)開發(fā)者,進(jìn)而造成程序設(shè)計(jì)混亂。

          1.3理解行為

          軟件開發(fā)者在設(shè)計(jì)軟件的過(guò)程中需要明確自己設(shè)計(jì)軟件中每一個(gè)代碼的內(nèi)容,同時(shí)還需要理解其他開發(fā)者編寫的代碼,這樣才能有效地完善軟件開發(fā)者的編寫技術(shù)。同時(shí),軟件開發(fā)者在進(jìn)行代碼編寫的過(guò)程中,需要對(duì)程序行為進(jìn)行準(zhǔn)確的理解,以此保證軟件內(nèi)文檔和注釋的準(zhǔn)確性。

          1.4設(shè)計(jì)推究

          開發(fā)者在準(zhǔn)備對(duì)軟件進(jìn)行完善設(shè)計(jì)的過(guò)程中,首先需要徹底了解軟件的總體設(shè)計(jì),對(duì)軟件內(nèi)部復(fù)雜的系統(tǒng)機(jī)構(gòu)進(jìn)行詳細(xì)研究與分析,充分把握軟件細(xì)節(jié),這有這樣才能真正實(shí)現(xiàn)軟件設(shè)計(jì)的合理性與準(zhǔn)確性。

          2.軟件工程數(shù)據(jù)挖掘測(cè)試的有效措施

          2.1進(jìn)行軟件工程理念和方法上的創(chuàng)新

          應(yīng)通過(guò)實(shí)施需求分析,將數(shù)據(jù)挖據(jù)逐漸演變成形式化、規(guī)范化的需求工程,在軟件開發(fā)理念上,加強(qiáng)對(duì)數(shù)據(jù)挖掘的重視,對(duì)軟件工程的架構(gòu)進(jìn)行演化性設(shè)計(jì)與創(chuàng)新,利用新技術(shù),在軟件開發(fā)的過(guò)程中添加敏捷變成與間件技術(shù),由此,提高軟件編寫水平。

          2.2利用人工智能

          隨著我國(guó)科學(xué)技術(shù)的不斷發(fā)展與創(chuàng)新,機(jī)器學(xué)習(xí)已經(jīng)逐漸被我國(guó)各個(gè)領(lǐng)域所廣泛應(yīng)用,在進(jìn)行軟件工程數(shù)據(jù)挖掘技術(shù)創(chuàng)新的'過(guò)程中,可以將機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘技術(shù)實(shí)際應(yīng)用于軟件工程中,以此為我國(guó)軟件研發(fā)提供更多的便捷。人工智能作為我國(guó)先進(jìn)生產(chǎn)力的重要表現(xiàn),在實(shí)際應(yīng)用于軟件工程數(shù)據(jù)的挖掘工作時(shí),應(yīng)該利用機(jī)器較強(qiáng)的學(xué)習(xí)能力與運(yùn)算能力,將數(shù)據(jù)統(tǒng)計(jì)及數(shù)據(jù)運(yùn)算通過(guò)一些較為成熟的方法進(jìn)行解決。在軟件工程數(shù)據(jù)挖掘的工作中,合理化的將人工智能實(shí)際應(yīng)用于數(shù)據(jù)挖掘,以此為數(shù)據(jù)挖掘提供更多的開發(fā)測(cè)試技術(shù)。

          2.3針對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行評(píng)價(jià)

          通過(guò)分析我國(guó)傳統(tǒng)的軟件工程數(shù)據(jù)挖掘測(cè)試工作,在很多情況下,傳統(tǒng)的數(shù)據(jù)挖掘測(cè)試技術(shù)無(wú)法做到對(duì)發(fā)掘數(shù)據(jù)的全面評(píng)價(jià)與實(shí)際應(yīng)用研究,這一問(wèn)題致使相應(yīng)的軟件數(shù)據(jù)在被發(fā)掘出來(lái)以后無(wú)法得到有效地利用,進(jìn)而導(dǎo)致我國(guó)軟件開發(fā)工作受到嚴(yán)重的抑制影響。針對(duì)這一問(wèn)題,數(shù)據(jù)開發(fā)者應(yīng)該利用挖掘缺陷檢驗(yàn)報(bào)告,針對(duì)缺陷檢驗(yàn)的結(jié)果,制定相應(yīng)的挖掘結(jié)構(gòu)報(bào)告。同時(shí),需要結(jié)合軟件用戶的體驗(yàn)評(píng)價(jià),對(duì)挖掘出的數(shù)據(jù)進(jìn)行系統(tǒng)化的整理與分析,建立一整套嚴(yán)謹(jǐn)、客觀的服務(wù)體系,運(yùn)用CodeCity軟件,讓用戶在的體驗(yàn)過(guò)后可以對(duì)軟件進(jìn)行評(píng)價(jià)。考慮到軟件的服務(wù)對(duì)象是人,因此,在軟件開發(fā)的過(guò)程中要將心理學(xué)與管理學(xué)應(yīng)用于數(shù)據(jù)挖掘,建立數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)挖掘評(píng)價(jià)系統(tǒng)。

          3.結(jié)束語(yǔ)

          綜上所述,由于軟件工程數(shù)據(jù)挖掘測(cè)試技術(shù)廣闊的應(yīng)用前景,我國(guó)相關(guān)部門已經(jīng)加大了對(duì)軟件技術(shù)的投資與開發(fā)力度,當(dāng)下,國(guó)內(nèi)已經(jīng)實(shí)現(xiàn)了軟件工程的數(shù)據(jù)挖掘、人工智能、模式識(shí)別等多種領(lǐng)域上的發(fā)展。

        數(shù)據(jù)挖掘論文7

          題目:檔案信息管理系統(tǒng)中的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)探討

          摘要:伴隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步和發(fā)展, 數(shù)據(jù)挖掘技術(shù)成為數(shù)據(jù)處理工作中的重點(diǎn)技術(shù), 能借助相關(guān)算法搜索相關(guān)信息, 在節(jié)省人力資本的同時(shí), 提高數(shù)據(jù)檢索的實(shí)際效率, 基于此, 被廣泛應(yīng)用在數(shù)據(jù)密集型行業(yè)中。筆者簡(jiǎn)要分析了計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù), 并集中闡釋了檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉(cāng)庫(kù)的建立和技術(shù)實(shí)現(xiàn)過(guò)程, 以供參考。

          關(guān)鍵詞:檔案信息管理系統(tǒng); 計(jì)算機(jī); 數(shù)據(jù)挖掘技術(shù); 1 數(shù)據(jù)挖掘技術(shù)概述

          數(shù)據(jù)挖掘技術(shù)就是指在大量隨機(jī)數(shù)據(jù)中提取隱含信息, 并且將其整合后應(yīng)用在知識(shí)處理體系的技術(shù)過(guò)程。若是從技術(shù)層面判定數(shù)據(jù)挖掘技術(shù), 則需要將其劃分在商業(yè)數(shù)據(jù)處理技術(shù)中, 整合商業(yè)數(shù)據(jù)提取和轉(zhuǎn)化機(jī)制, 并且建構(gòu)更加系統(tǒng)化的分析模型和處理機(jī)制, 從根本上優(yōu)化商業(yè)決策。借助數(shù)據(jù)挖掘技術(shù)能建構(gòu)完整的數(shù)據(jù)倉(cāng)庫(kù), 滿足集成性、時(shí)變性以及非易失性等需求, 整和數(shù)據(jù)處理和冗余參數(shù), 確保技術(shù)框架結(jié)構(gòu)的完整性。

          目前, 數(shù)據(jù)挖掘技術(shù)常用的工具, 如SAS企業(yè)的Enterprise Miner、IBM企業(yè)的Intellient Miner以及SPSS企業(yè)的Clementine等應(yīng)用都十分廣泛。企業(yè)在實(shí)際工作過(guò)程中, 往往會(huì)利用數(shù)據(jù)源和數(shù)據(jù)預(yù)處理工具進(jìn)行數(shù)據(jù)定型和更新管理, 并且應(yīng)用聚類分析模塊、決策樹分析模塊以及關(guān)聯(lián)分析算法等, 借助數(shù)據(jù)挖掘技術(shù)對(duì)相關(guān)數(shù)據(jù)進(jìn)行處理。

          2 檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉(cāng)庫(kù)的建立

          2.1 客戶需求單元

          為了充分發(fā)揮檔案信息管理系統(tǒng)的優(yōu)勢(shì), 要結(jié)合客戶的實(shí)際需求建立完整的處理框架體系。在數(shù)據(jù)庫(kù)體系建立中, 要適應(yīng)迭代式處理特征, 并且從用戶需求出發(fā)整合數(shù)據(jù)模型, 保證其建立過(guò)程能按照整體規(guī)劃有序進(jìn)行, 且能按照目標(biāo)和分析框架參數(shù)完成操作。首先, 要確立基礎(chǔ)性的數(shù)據(jù)倉(cāng)庫(kù)對(duì)象, 由于是檔案信息管理, 因此, 要集中劃分檔案數(shù)據(jù)分析的主題, 并且有效錄入檔案信息, 確保滿足檔案的數(shù)據(jù)分析需求。其次, 要對(duì)日常工作中的用戶數(shù)據(jù)進(jìn)行集中的挖掘處理, 從根本上提高數(shù)據(jù)倉(cāng)庫(kù)分析的完整性。

          (1) 確定數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)性用戶, 其中, 主要包括檔案工作人員和使用人員, 結(jié)合不同人員的工作需求建立相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)。

          (2) 檔案工作要利用數(shù)據(jù)分析和檔案用戶特征分析進(jìn)行分類描述。

          (3) 確定檔案的基礎(chǔ)性分類主題, 一般而言, 要將文書檔案歸檔情況、卷數(shù)等基礎(chǔ)性信息作為分類依據(jù)。

          2.2 數(shù)據(jù)庫(kù)設(shè)計(jì)單元

          在設(shè)計(jì)過(guò)程中, 要針對(duì)不同維度建立相應(yīng)的參數(shù)體系和組成結(jié)構(gòu), 并且有效整合組成事實(shí)表的主鍵項(xiàng)目, 建立框架結(jié)構(gòu)。

          第一, 建立事實(shí)表。事實(shí)表是數(shù)據(jù)模型的核心單元, 主要是記錄相關(guān)業(yè)務(wù)和統(tǒng)計(jì)數(shù)據(jù)的表, 能整合數(shù)據(jù)倉(cāng)庫(kù)中的信息單元, 并且提升多維空間處理效果, 確保數(shù)據(jù)儲(chǔ)存過(guò)程切實(shí)有效。 (1) 檔案管理中文書檔案目錄卷數(shù)事實(shí)表:事實(shí)表主鍵, 字段類型Int, 字段為Id;文書歸檔年份, 字段類型Int, 字段為Gdyear_key;文書歸檔類型, 字段類型Int, 字段為Ajtm_key;文書歸檔單位, 字段類型Int, 字段為Gddw_key;文書檔案生成年份, 字段類型Int, 字段為Ajscsj_key, 以及文書檔案包括的文件數(shù)目。 (2) 檔案管理中文書檔案卷數(shù)事實(shí)表:事實(shí)表主鍵, 字段類型Int, 字段為Id;文書歸檔利用日期, 字段類型Int, 字段為Date_key;文書歸檔利用單位, 字段類型Int, 字段為Dw_key;文書歸檔利用類別, 字段類型Int, 字段為Dalb_key;文書歸檔利用年份, 字段類型Int, 字段為Dayear_key等[1]。

          第二, 建立維度表, 在實(shí)際數(shù)據(jù)倉(cāng)庫(kù)建立和運(yùn)維工作中, 提高數(shù)據(jù)管理效果和水平, 確保建立循環(huán)和反饋的系統(tǒng)框架體系, 并且處理增長(zhǎng)過(guò)程和完善過(guò)程, 有效實(shí)現(xiàn)數(shù)據(jù)庫(kù)模型設(shè)計(jì)以及相關(guān)維護(hù)操作。首先, 要對(duì)模式的基礎(chǔ)性維度進(jìn)行分析并且制作相應(yīng)的表, 主要包括檔案年度維表、利用方式維表等。其次, 要建構(gòu)數(shù)據(jù)庫(kù)星型模型體系。最后, 要集中判定數(shù)據(jù)庫(kù)工具, 保證數(shù)據(jù)庫(kù)平臺(tái)在客戶管理工作方面具備一定的優(yōu)勢(shì), 集中制訂商務(wù)智能解決方案, 保證集成環(huán)境的穩(wěn)定性和數(shù)據(jù)倉(cāng)庫(kù)建模的效果, 真正提高數(shù)據(jù)抽取以及轉(zhuǎn)換工作的實(shí)際水平。需要注意的是, 在全面整合和分析處理數(shù)據(jù)的過(guò)程中, 要分離文書檔案中的數(shù)據(jù), 相關(guān)操作如下:

          from dag gd temp//刪除臨時(shí)表中的數(shù)據(jù)

          Ch count=dag 1.importfile (dbo.u wswj) //將文書目錄中數(shù)據(jù)導(dǎo)出到數(shù)據(jù)窗口

          Dag 1.() //將數(shù)據(jù)窗口中的數(shù)據(jù)保存到臨時(shí)表

          相關(guān)技術(shù)人員要對(duì)數(shù)據(jù)進(jìn)行有效處理, 以保證相關(guān)數(shù)據(jù)合并操作、連接操作以及條件性拆分操作等都能按照數(shù)據(jù)預(yù)處理管理要求合理化進(jìn)行, 從根本上維護(hù)數(shù)據(jù)處理效果。

          2.3 多維數(shù)據(jù)模型建立單元

          在檔案多維數(shù)據(jù)模型建立的過(guò)程中, 相關(guān)技術(shù)人員要判定聯(lián)機(jī)分析處理項(xiàng)目和數(shù)據(jù)挖掘方案, 整合信息系統(tǒng)中的數(shù)據(jù)源、數(shù)據(jù)視圖、維度參數(shù)以及屬性參數(shù)等, 保證具體單元能發(fā)揮其實(shí)際作用, 并且真正發(fā)揮檔案維表的穩(wěn)定性、安全性優(yōu)勢(shì)。

          第一, 檔案事實(shí)表中的數(shù)據(jù)穩(wěn)定, 事實(shí)表是加載和處理檔案數(shù)據(jù)的基本模塊, 按照檔案目錄數(shù)據(jù)表和檔案利用情況表分析和判定其類別和歸檔時(shí)間, 從而提高數(shù)據(jù)獨(dú)立分析水平。一方面, 能追加有效的數(shù)據(jù), 保證數(shù)據(jù)倉(cāng)庫(kù)信息的基本質(zhì)量, 也能追加時(shí)間判定標(biāo)準(zhǔn), 能在實(shí)際操作中減少掃描整個(gè)表浪費(fèi)的時(shí)間, 從根本上提高實(shí)際效率。另一方面, 能刪除數(shù)據(jù), 實(shí)現(xiàn)數(shù)據(jù)更新, 檢索相關(guān)關(guān)鍵詞即可。并且也能同時(shí)修改數(shù)據(jù), 維護(hù)檔案撤出和檔案追加的動(dòng)態(tài)化處理效果。

          第二, 檔案維表的安全性。在維表管理工作中, 檔案參數(shù)和數(shù)據(jù)的安全穩(wěn)定性十分關(guān)鍵, 由于其不會(huì)隨著時(shí)間的推移出現(xiàn)變化, 因此, 要對(duì)其進(jìn)行合理的處理和協(xié)調(diào)。維表本身的存儲(chǔ)空間較小, 盡管結(jié)構(gòu)發(fā)生變化的概率不大, 但仍會(huì)對(duì)代表的對(duì)象產(chǎn)生影響, 這就會(huì)使得數(shù)據(jù)出現(xiàn)動(dòng)態(tài)的變化。對(duì)于這種改變, 需要借助新維生成的方式進(jìn)行處理, 從而保證不同維表能有效連接, 整合正確數(shù)據(jù)的同時(shí), 也能對(duì)事實(shí)表外鍵進(jìn)行分析[2]。

          3 檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)

          3.1 描述需求

          隨著互聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)不斷進(jìn)步, 要提高檔案數(shù)字化水平以及完善信息化整合機(jī)制, 加快數(shù)據(jù)庫(kù)管控體系的更新, 確保設(shè)備存儲(chǔ)以及網(wǎng)絡(luò)環(huán)境一體化水平能滿足需求, 尤其是在檔案資源重組和預(yù)測(cè)項(xiàng)目中, 只有從根本上落實(shí)數(shù)據(jù)挖掘體系, 才能為后續(xù)信息檔案管理項(xiàng)目升級(jí)奠定堅(jiān)實(shí)基礎(chǔ)。另外, 在數(shù)據(jù)表和文書等基礎(chǔ)性數(shù)據(jù)結(jié)構(gòu)模型建立的基礎(chǔ)上, 要按照規(guī)律制定具有個(gè)性化的主動(dòng)性服務(wù)機(jī)制。

          3.2 關(guān)聯(lián)計(jì)算

          在實(shí)際檔案分析工作開展過(guò)程中, 關(guān)聯(lián)算法描述十分關(guān)鍵, 能對(duì)某些行為特征進(jìn)行統(tǒng)籌整合, 從而制定分析決策。在進(jìn)行關(guān)聯(lián)規(guī)則強(qiáng)度分析時(shí), 要結(jié)合支持度和置信度等系統(tǒng)化數(shù)據(jù)進(jìn)行綜合衡量。例如, 檔案數(shù)據(jù)庫(kù)中有A和B兩個(gè)基礎(chǔ)項(xiàng)集合, 支持度為P (A∪B) , 則直接表述了A和B在同一時(shí)間出現(xiàn)的基礎(chǔ)性概率。若是兩者出現(xiàn)的概率并不大, 則證明兩者之間的關(guān)聯(lián)度較低。若是兩者出現(xiàn)的概率較大, 則說(shuō)明兩者的關(guān)聯(lián)度較高。另外, 在分析置信度時(shí), 利用Confidence (A→B) = (A|B) , 也能有效判定兩者之間的關(guān)系。在出現(xiàn)置信度A的情況下, B的出現(xiàn)概率則是整體參數(shù)關(guān)系的關(guān)鍵, 若是置信度的數(shù)值達(dá)到100%, 則直接證明A和B能同一時(shí)間出現(xiàn)。

          3.3 神經(jīng)網(wǎng)絡(luò)算法

          除了要對(duì)檔案的實(shí)際內(nèi)容進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)庫(kù)建構(gòu), 也要對(duì)其利用情況進(jìn)行判定, 目前較為常見(jiàn)的利用率分析算法就是神經(jīng)網(wǎng)絡(luò)算法, 其借助數(shù)據(jù)分類系統(tǒng)判定和分析數(shù)據(jù)對(duì)象。值得注意的是, 在分類技術(shù)結(jié)構(gòu)中, 要結(jié)合訓(xùn)練數(shù)據(jù)集判定分類模型數(shù)據(jù)挖掘結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)算法類似于人腦系統(tǒng)的運(yùn)行結(jié)構(gòu), 能建立完整的信息處理單元, 并且能夠整合非線性交換結(jié)構(gòu), 確保能憑借歷史數(shù)據(jù)對(duì)計(jì)算模型和分類體系展開深度分析[3]。

          3.4 實(shí)現(xiàn)多元化應(yīng)用

          在檔案管理工作中應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù), 能對(duì)檔案分類管理予以分析, 保證信息需求分類總結(jié)工作的完整程度。尤其是檔案使用者在對(duì)檔案具體特征進(jìn)行差異化分析的過(guò)程中, 能結(jié)合不同的元素對(duì)具體問(wèn)題展開深度調(diào)研。一方面, 計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)借助決策樹算法處理規(guī)則化的檔案分析機(jī)制。在差異化訓(xùn)練體系中, 要對(duì)數(shù)據(jù)集合中的數(shù)據(jù)進(jìn)行系統(tǒng)化分析以及處理, 確保構(gòu)建要求能適應(yīng)數(shù)據(jù)挖掘的基本結(jié)構(gòu)[4]。例如, 檔案管理人員借助數(shù)據(jù)挖掘技術(shù)能整合檔案使用人員長(zhǎng)期瀏覽與關(guān)注的信息, 并且能集中收集和匯總間隔時(shí)間、信息查詢停留時(shí)間等, 從而建構(gòu)完整的數(shù)據(jù)分析機(jī)制, 有效向其推送或者是提供便捷化查詢服務(wù), 保證檔案管理數(shù)字化水平的提高。另一方面, 在檔案收集管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù), 主要是對(duì)數(shù)據(jù)信息進(jìn)行分析, 結(jié)合基本結(jié)果建立概念模型, 保證模型以及測(cè)試樣本之間的比較參數(shù)符合標(biāo)準(zhǔn), 從而真正建立更加系統(tǒng)化的分類框架體系。

          4 結(jié)語(yǔ)

          總而言之, 在檔案管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù), 能在準(zhǔn)確判定用戶需求的同時(shí), 維護(hù)數(shù)據(jù)處理效果, 并且減少檔案數(shù)字化的成本, 為后續(xù)工作的進(jìn)一步優(yōu)化奠定堅(jiān)實(shí)基礎(chǔ)。并且, 數(shù)據(jù)庫(kù)的建立, 也能節(jié)省經(jīng)費(fèi)和設(shè)備維護(hù)成本, 真正實(shí)現(xiàn)數(shù)字化全面發(fā)展的目標(biāo), 促進(jìn)檔案信息管理工作的長(zhǎng)效進(jìn)步。

          參考文獻(xiàn)

          [1]曾雪峰.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)及其在檔案信息管理中的運(yùn)用研究[J].科技創(chuàng)新與應(yīng)用, 20xx (9) :285.

          [2]王曉燕.數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的應(yīng)用[J].蘭臺(tái)世界, 20xx (23) :25-26.

          [3]韓吉義.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館檔案信息管理平臺(tái)的構(gòu)筑[J].山西檔案, 20xx (6) :61-63.

          [4]哈立原.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館檔案信息管理平臺(tái)構(gòu)建[J].山西檔案, 20xx (5) :105-107.

          數(shù)據(jù)挖掘論文四: 題目:機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用

          摘要:隨著科學(xué)技術(shù)的快速發(fā)展, 各種新鮮的事物和理念得到了廣泛的應(yīng)用。其中機(jī)器學(xué)習(xí)算法就是一則典型案例——作為一種新型的算法, 其廣泛應(yīng)用于各行各業(yè)之中。本篇論文旨在探討機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的具體應(yīng)用, 我們利用龐大的移動(dòng)終端數(shù)據(jù)網(wǎng)絡(luò), 加強(qiáng)了基于GSM網(wǎng)絡(luò)的戶外終端定位, 從而提出了3個(gè)階段的定位算法, 有效提高了定位的精準(zhǔn)度和速度。

          關(guān)鍵詞:學(xué)習(xí)算法; GSM網(wǎng)絡(luò); 定位; 數(shù)據(jù);

          移動(dòng)終端定位技術(shù)由來(lái)已久, 其主要是利用各種科學(xué)技術(shù)手段定位移動(dòng)物體的精準(zhǔn)位置以及高度。目前, 移動(dòng)終端定位技術(shù)主要應(yīng)用于軍事定位、緊急救援、網(wǎng)絡(luò)優(yōu)化、地圖導(dǎo)航等多個(gè)現(xiàn)代化的領(lǐng)域, 由于移動(dòng)終端定位技術(shù)可以提供精準(zhǔn)的位置服務(wù)信息, 所以其在市場(chǎng)上還是有較大的需求的, 這也為移動(dòng)終端定位技術(shù)的優(yōu)化和發(fā)展, 提供了推動(dòng)力。隨著通信網(wǎng)絡(luò)普及, 移動(dòng)終端定位技術(shù)的發(fā)展也得到了一些幫助, 使得其定位的精準(zhǔn)度和速度都得到了全面的優(yōu)化和提升。同時(shí), 傳統(tǒng)的定位方法結(jié)合先進(jìn)的算法來(lái)進(jìn)行精準(zhǔn)定位, 目前依舊還是有較大的進(jìn)步空間。在工作中我選取機(jī)器學(xué)習(xí)算法結(jié)合數(shù)據(jù)挖掘技術(shù)對(duì)傳統(tǒng)定位技術(shù)加以改進(jìn), 取得了不錯(cuò)的效果, 但也遇到了許多問(wèn)題, 例如:使用機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行精準(zhǔn)定位暫時(shí)無(wú)法滿足更大的區(qū)域要求, 還有想要利用較低的設(shè)備成本, 實(shí)現(xiàn)得到更多的精準(zhǔn)定位的要求比較困難。所以本文對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行了深入的研究, 希望能夠幫助其更快速的定位、更精準(zhǔn)的定位, 滿足市場(chǎng)的需要。

          1 數(shù)據(jù)挖掘概述

          數(shù)據(jù)挖掘又名數(shù)據(jù)探勘、信息挖掘。它是數(shù)據(jù)庫(kù)知識(shí)篩選中非常重要的一步。數(shù)據(jù)挖掘其實(shí)指的就是在大量的數(shù)據(jù)中通過(guò)算法找到有用信息的行為。一般情況下, 數(shù)據(jù)挖掘都會(huì)和計(jì)算機(jī)科學(xué)緊密聯(lián)系在一起, 通過(guò)統(tǒng)計(jì)集合、在線剖析、檢索篩選、機(jī)器學(xué)習(xí)、參數(shù)識(shí)別等多種方法來(lái)實(shí)現(xiàn)最初的目標(biāo)。統(tǒng)計(jì)算法和機(jī)器學(xué)習(xí)算法是數(shù)據(jù)挖掘算法里面應(yīng)用得比較廣泛的兩類。統(tǒng)計(jì)算法依賴于概率分析, 然后進(jìn)行相關(guān)性判斷, 由此來(lái)執(zhí)行運(yùn)算。

          而機(jī)器學(xué)習(xí)算法主要依靠人工智能科技, 通過(guò)大量的樣本收集、學(xué)習(xí)和訓(xùn)練, 可以自動(dòng)匹配運(yùn)算所需的相關(guān)參數(shù)及模式。它綜合了數(shù)學(xué)、物理學(xué)、自動(dòng)化和計(jì)算機(jī)科學(xué)等多種學(xué)習(xí)理論, 雖然能夠應(yīng)用的領(lǐng)域和目標(biāo)各不相同, 但是這些算法都可以被獨(dú)立使用運(yùn)算, 當(dāng)然也可以相互幫助, 綜合應(yīng)用, 可以說(shuō)是一種可以“因時(shí)而變”、“因事而變”的算法。在機(jī)器學(xué)習(xí)算法的領(lǐng)域, 人工神經(jīng)網(wǎng)絡(luò)是比較重要和常見(jiàn)的一種。因?yàn)樗膬?yōu)秀的數(shù)據(jù)處理和演練、學(xué)習(xí)的能力較強(qiáng)。

          而且對(duì)于問(wèn)題數(shù)據(jù)還可以進(jìn)行精準(zhǔn)的識(shí)別與處理分析, 所以應(yīng)用的頻次更多。人工神經(jīng)網(wǎng)絡(luò)依賴于多種多樣的建模模型來(lái)進(jìn)行工作, 由此來(lái)滿足不同的數(shù)據(jù)需求。綜合來(lái)看, 人工神經(jīng)網(wǎng)絡(luò)的建模, 它的精準(zhǔn)度比較高, 綜合表述能力優(yōu)秀, 而且在應(yīng)用的過(guò)程中, 不需要依賴專家的輔助力量, 雖然仍有缺陷, 比如在訓(xùn)練數(shù)據(jù)的時(shí)候耗時(shí)較多, 知識(shí)的理解能力還沒(méi)有達(dá)到智能化的標(biāo)準(zhǔn), 但是, 相對(duì)于其他方式而言, 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)依舊是比較突出的。

          2 以機(jī)器學(xué)習(xí)算法為基礎(chǔ)的GSM網(wǎng)絡(luò)定位

          2.1 定位問(wèn)題的.建模

          建模的過(guò)程主要是以支持向量機(jī)定位方式作為基礎(chǔ), 把定位的位置柵格化, 面積較小的柵格位置就是獨(dú)立的一種類別, 在定位的位置內(nèi), 我們收集數(shù)目龐大的終端測(cè)量數(shù)據(jù), 然后利用計(jì)算機(jī)對(duì)測(cè)量報(bào)告進(jìn)行分析處理, 測(cè)量柵格的距離度量和精準(zhǔn)度, 然后對(duì)移動(dòng)終端柵格進(jìn)行預(yù)估判斷, 最終利用機(jī)器學(xué)習(xí)進(jìn)行分析求解。

          2.2 采集數(shù)據(jù)和預(yù)處理

          本次研究, 我們采用的模型對(duì)象是我國(guó)某一個(gè)周邊長(zhǎng)達(dá)10千米的二線城市。在該城市區(qū)域內(nèi), 我們測(cè)量了四個(gè)不同時(shí)間段內(nèi)的數(shù)據(jù), 為了保證機(jī)器學(xué)習(xí)算法定位的精準(zhǔn)性和有效性, 我們把其中的三批數(shù)據(jù)作為訓(xùn)練數(shù)據(jù), 最后一組數(shù)據(jù)作為定位數(shù)據(jù), 然后把定位數(shù)據(jù)周邊十米內(nèi)的前三組訓(xùn)練數(shù)據(jù)的相關(guān)信息進(jìn)行清除。一旦確定某一待定位數(shù)據(jù), 就要在不同的時(shí)間內(nèi)進(jìn)行測(cè)量, 按照測(cè)量出的數(shù)據(jù)信息的經(jīng)緯度和平均值, 再進(jìn)行換算, 最終, 得到真實(shí)的數(shù)據(jù)量, 提升定位的速度以及有效程度。

          2.3 以基站的經(jīng)緯度為基礎(chǔ)的初步定位

          用機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行移動(dòng)終端定位, 其復(fù)雜性也是比較大的, 一旦區(qū)域面積增加, 那么模型和分類也相應(yīng)增加, 而且更加復(fù)雜, 所以, 利用機(jī)器學(xué)習(xí)算法來(lái)進(jìn)行移動(dòng)終端定位的過(guò)程, 會(huì)隨著定位區(qū)域面積的增大, 而耗費(fèi)更多的時(shí)間。利用基站的經(jīng)緯度作為基礎(chǔ)來(lái)進(jìn)行早期的定位, 則需要以下幾個(gè)步驟:要將邊長(zhǎng)為十千米的正方形分割成一千米的小柵格, 如果想要定位數(shù)據(jù)集內(nèi)的相關(guān)信息, 就要選擇對(duì)邊長(zhǎng)是一千米的小柵格進(jìn)行計(jì)算, 而如果是想要獲得邊長(zhǎng)一千米的大柵格, 就要對(duì)邊長(zhǎng)是一千米的柵格精心計(jì)算。

          2.4 以向量機(jī)為基礎(chǔ)的二次定位

          在完成初步定位工作后, 要確定一個(gè)邊長(zhǎng)為兩千米的正方形, 由于第一級(jí)支持向量機(jī)定位的區(qū)域是四百米, 定位輸出的是以一百米柵格作為中心點(diǎn)的經(jīng)緯度數(shù)據(jù)信息, 相對(duì)于一級(jí)向量機(jī)的定位而言, 二級(jí)向量機(jī)在定位計(jì)算的時(shí)候難度是較低的, 更加簡(jiǎn)便。后期的預(yù)算主要依賴決策函數(shù)計(jì)算和樣本向量機(jī)計(jì)算。隨著柵格的變小, 定位的精準(zhǔn)度將越來(lái)越高, 而由于增加分類的問(wèn)題數(shù)量是上升的, 所以, 定位的復(fù)雜度也是相對(duì)增加的。

          2.5 以K-近鄰法為基礎(chǔ)的三次定位

          第一步要做的就是選定需要定位的區(qū)域面積, 在二次輸出之后, 確定其經(jīng)緯度, 然后依賴經(jīng)緯度來(lái)確定邊長(zhǎng)面積, 這些都是進(jìn)行區(qū)域定位的基礎(chǔ)性工作, 緊接著就是定位模型的訓(xùn)練。以K-近鄰法為基礎(chǔ)的三次定位需要的是綜合訓(xùn)練信息數(shù)據(jù), 對(duì)于這些信息數(shù)據(jù), 要以大小為選擇依據(jù)進(jìn)行篩選和合并, 這樣就能夠減少計(jì)算的重復(fù)性。當(dāng)然了, 選擇的區(qū)域面積越大, 其定位的速度和精準(zhǔn)性也就越低。

          3 結(jié)語(yǔ)

          近年來(lái), 隨著我國(guó)科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步, 數(shù)據(jù)挖掘技術(shù)愈加重要。根據(jù)上面的研究, 我們證明了, 在數(shù)據(jù)挖掘的過(guò)程中, 應(yīng)用機(jī)器學(xué)習(xí)算法具有舉足輕重的作用。作為一門多領(lǐng)域互相交叉的知識(shí)學(xué)科, 它能夠幫助我們提升定位的精準(zhǔn)度以及定位速度, 可以被廣泛的應(yīng)用于各行各業(yè)。所以, 對(duì)于機(jī)器學(xué)習(xí)算法, 相關(guān)人員要加以重視, 不斷的進(jìn)行改良以及改善, 切實(shí)的發(fā)揮其有利的方面, 將其廣泛應(yīng)用于智能定位的各個(gè)領(lǐng)域, 幫助我們解決關(guān)于戶外移動(dòng)終端的定位的問(wèn)題。

          參考文獻(xiàn)

          [1]陳小燕, CHENXiaoyan.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù), 20xx, v.38;No.451 (20) :11-14.

          [2]李運(yùn).機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[D].北京郵電大學(xué), 20xx.

          [3]莫雪峰.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].科教文匯, 20xx (07) :175-178.

          數(shù)據(jù)挖掘論文五: 題目:軟件工程數(shù)據(jù)挖掘研究進(jìn)展

          摘要:數(shù)據(jù)挖掘是指在大數(shù)據(jù)中開發(fā)出有價(jià)值信息數(shù)據(jù)的過(guò)程。計(jì)算機(jī)技術(shù)的不斷進(jìn)步, 通過(guò)人工的方式進(jìn)行軟件的開發(fā)與維護(hù)難度較大。而數(shù)據(jù)挖掘能夠有效的提升軟件開發(fā)的效率, 并能夠在大量的數(shù)據(jù)中獲得有效的數(shù)據(jù)。文章主要探究軟件工程中數(shù)據(jù)挖掘技術(shù)的任務(wù)和存在的問(wèn)題, 并重點(diǎn)論述軟件開發(fā)過(guò)程中出現(xiàn)的問(wèn)題和相關(guān)的解決措施。

          關(guān)鍵詞:軟件工程; 數(shù)據(jù)挖掘; 解決措施;

          在軟件開發(fā)過(guò)程中, 為了能夠獲得更加準(zhǔn)確的數(shù)據(jù)資源, 軟件的研發(fā)人員就需要搜集和整理數(shù)據(jù)。但是在大數(shù)據(jù)時(shí)代, 人工獲取數(shù)據(jù)信息的難度極大。當(dāng)前, 軟件工程中運(yùn)用最多的就是數(shù)據(jù)挖掘技術(shù)。軟件挖掘技術(shù)是傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在軟件工程方向的其中一部分。但是它具有自身的特征, 體現(xiàn)在以下三個(gè)方面:

          (1) 在軟件工程中, 對(duì)有效數(shù)據(jù)的挖掘和處理;

          (2) 挖掘數(shù)據(jù)算法的選擇問(wèn)題;

          (3) 軟件的開發(fā)者該如何選擇數(shù)據(jù)。

          1 在軟件工程中數(shù)據(jù)挖掘的主要任務(wù)

          在數(shù)據(jù)挖掘技術(shù)中, 軟件工程數(shù)據(jù)挖掘是其中之一, 其挖掘的過(guò)程與傳統(tǒng)數(shù)據(jù)的挖掘無(wú)異。通常包括三個(gè)階段:第一階段, 數(shù)據(jù)的預(yù)處理;第二階段, 數(shù)據(jù)的挖掘;第三階段, 對(duì)結(jié)果的評(píng)估。第一階段的主要任務(wù)有對(duì)數(shù)據(jù)的分類、對(duì)異常數(shù)據(jù)的檢測(cè)以及整理和提取復(fù)雜信息等。雖然軟件工程的數(shù)據(jù)挖掘和傳統(tǒng)的數(shù)據(jù)挖掘存在相似性, 但是也存在一定的差異, 其主要體現(xiàn)在以下三個(gè)方面:

          1.1 軟件工程的數(shù)據(jù)更加復(fù)雜

          軟件工程數(shù)據(jù)主要包括兩種, 一種是軟件報(bào)告, 另外一種是軟件的版本信息。當(dāng)然還包括一些軟件代碼和注釋在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)信息。這兩種軟件工程數(shù)據(jù)的算法是不同的, 但是兩者之間又有一定的聯(lián)系, 這也是軟件工程數(shù)據(jù)挖掘復(fù)雜性的重要原因。

          1.2 數(shù)據(jù)分析結(jié)果的表現(xiàn)更加特殊

          傳統(tǒng)的數(shù)據(jù)挖掘結(jié)果可以通過(guò)很多種結(jié)果展示出來(lái), 最常見(jiàn)的有報(bào)表和文字的方式。但是對(duì)于軟件工程的數(shù)據(jù)挖掘來(lái)講, 它最主要的職能是給軟件的研發(fā)人員提供更加精準(zhǔn)的案例, 軟件漏洞的實(shí)際定位以及設(shè)計(jì)構(gòu)造方面的信息, 同時(shí)也包括數(shù)據(jù)挖掘的統(tǒng)計(jì)結(jié)果。所以這就要求軟件工程的數(shù)據(jù)挖掘需要更加先進(jìn)的結(jié)果提交方式和途徑。

          1.3 對(duì)數(shù)據(jù)挖掘結(jié)果難以達(dá)成一致的評(píng)價(jià)

          我國(guó)傳統(tǒng)的數(shù)據(jù)挖掘已經(jīng)初步形成統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn), 而且評(píng)價(jià)體系相對(duì)成熟。但是軟件工程的數(shù)據(jù)挖掘過(guò)程中, 研發(fā)人員需要更多復(fù)雜而又具體的數(shù)據(jù)信息, 所以數(shù)據(jù)的表示方法也相對(duì)多樣化, 數(shù)據(jù)之間難以進(jìn)行對(duì)比, 所以也就難以達(dá)成一致的評(píng)價(jià)標(biāo)準(zhǔn)和結(jié)果。不難看出, 軟件工程數(shù)據(jù)挖掘的關(guān)鍵在于對(duì)挖掘數(shù)據(jù)的預(yù)處理和對(duì)數(shù)據(jù)結(jié)果的表示方法。

          2 軟件工程研發(fā)階段出現(xiàn)的問(wèn)題和解決措施

          軟件在研發(fā)階段主要的任務(wù)是對(duì)軟件運(yùn)行程序的編寫。以下是軟件在編碼和結(jié)果的提交過(guò)程中出現(xiàn)的問(wèn)題和相應(yīng)的解決措施。

          2.1 對(duì)軟件代碼的編寫過(guò)程

          該過(guò)程需要軟件的研發(fā)人員能夠?qū)ψ约盒枰帉懙拇a結(jié)構(gòu)與功能有充分的了解和認(rèn)識(shí)。并能夠依據(jù)自身掌握的信息, 在數(shù)據(jù)庫(kù)中搜集到可以使用的數(shù)據(jù)信息。通常情況下, 編程需要的數(shù)據(jù)信息可以分為三個(gè)方面:

          (1) 軟件的研發(fā)人員能夠在已經(jīng)存在的代碼中搜集可以重新使用的代碼;

          (2) 軟件的研發(fā)人員可以搜尋可以重用的靜態(tài)規(guī)則, 比如繼承關(guān)系等。

          (3) 軟件的開發(fā)人員搜尋可以重用的動(dòng)態(tài)規(guī)則。

          包括軟件的接口調(diào)用順序等。在尋找以上信息的過(guò)程中, 通常是利用軟件的幫助文檔、尋求外界幫助和搜集代碼的方式實(shí)現(xiàn), 但是以上方式在搜集信息過(guò)程中往往會(huì)遇到較多的問(wèn)題, 比如:幫助文檔的準(zhǔn)確性較低, 同時(shí)不夠完整, 可利用的重用信息不多等。

          2.2 對(duì)軟件代碼的重用

          在對(duì)軟件代碼重用過(guò)程中, 最關(guān)鍵的問(wèn)題是軟件的研發(fā)人員必須掌握需要的類或方法, 并能夠通過(guò)與之有聯(lián)系的代碼實(shí)現(xiàn)代碼的重用。但是這種方式哦足跡信息將會(huì)耗費(fèi)工作人員大量的精力。而通過(guò)關(guān)鍵詞在代碼庫(kù)中搜集可重用的軟件代碼, 同時(shí)按照代碼的相關(guān)度對(duì)搜集到的代碼進(jìn)行排序, 該過(guò)程使用的原理就是可重用的代碼必然模式基本類似, 最終所展現(xiàn)出來(lái)的搜索結(jié)果是以上下文結(jié)構(gòu)的方式展現(xiàn)的。比如:類與類之間的聯(lián)系。其實(shí)現(xiàn)的具體流程如下:

          (1) 軟件的開發(fā)人員創(chuàng)建同時(shí)具備例程和上下文架構(gòu)的代碼庫(kù);

          (2) 軟件的研發(fā)人員能夠向代碼庫(kù)提供類的相關(guān)信息, 然后對(duì)反饋的結(jié)果進(jìn)行評(píng)估, 創(chuàng)建新型的代碼庫(kù)。

          (3) 未來(lái)的研發(fā)人員在搜集過(guò)程中能夠按照評(píng)估結(jié)果的高低排序, 便于查詢, 極大地縮減工作人員的任務(wù)量, 提升其工作效率。

          2.3 對(duì)動(dòng)態(tài)規(guī)則的重用

          軟件工程領(lǐng)域內(nèi)對(duì)動(dòng)態(tài)規(guī)則重用的研究已經(jīng)相對(duì)成熟, 通過(guò)在編譯器內(nèi)安裝特定插件的方式檢驗(yàn)代碼是否為動(dòng)態(tài)規(guī)則最適用的, 并能夠?qū)⒉贿m合的規(guī)則反饋給軟件的研發(fā)人員。其操作流程為:

          (1) 軟件的研發(fā)人員能夠規(guī)定動(dòng)態(tài)規(guī)則的順序, 主要表現(xiàn)在:使用某一函數(shù)是不能夠調(diào)用其他的函數(shù)。

          (2) 實(shí)現(xiàn)對(duì)相關(guān)數(shù)據(jù)的保存, 可以通過(guò)隊(duì)列等簡(jiǎn)單的數(shù)據(jù)結(jié)構(gòu)完成。在利用編譯拓展中檢測(cè)其中的順序。

          (3) 能夠?qū)㈠e(cuò)誤的信息反饋給軟件的研發(fā)人員。

          3 結(jié)束語(yǔ)

          在軟件工程的數(shù)據(jù)挖掘過(guò)程中, 數(shù)據(jù)挖掘的概念才逐步被定義, 但是所需要挖掘的數(shù)據(jù)是已經(jīng)存在的。數(shù)據(jù)挖掘技術(shù)在軟件工程中的運(yùn)用能夠降低研發(fā)人員的工作量, 同時(shí)軟件工程與數(shù)據(jù)挖掘的結(jié)合是計(jì)算機(jī)技術(shù)必然的發(fā)展方向。從數(shù)據(jù)挖掘的過(guò)程來(lái)講, 在其整個(gè)實(shí)施過(guò)程和周期中都包括軟件工程。而對(duì)數(shù)據(jù)挖掘的技術(shù)手段來(lái)講, 它在軟件工程中的運(yùn)用更加普遍。在對(duì)數(shù)據(jù)挖掘技術(shù)的研究過(guò)程中可以發(fā)現(xiàn), 該技術(shù)雖然已經(jīng)獲得一定的效果, 但是還有更多未被挖掘的空間, 還需要進(jìn)一步的研究和發(fā)現(xiàn)。

          參考文獻(xiàn)

          [1]王藝蓉.試析面向軟件工程數(shù)據(jù)挖掘的開發(fā)測(cè)試技術(shù)[J].電子技術(shù)與軟件工程, 20xx (18) :64.

          [2]吳彥博.軟件工程中數(shù)據(jù)挖掘技術(shù)的運(yùn)用探索[J].數(shù)字通信世界, 20xx (09) :187.

          [3]周雨辰.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].電腦迷, 20xx (08) :27-28.

          [4]劉桂林.分析軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用方式[J].中國(guó)新通信, 20xx, 19 (13) :119.

        數(shù)據(jù)挖掘論文8

          題目:數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎病方劑研究中的優(yōu)勢(shì)及應(yīng)用進(jìn)展

          關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù); 神經(jīng)根型頸椎病; 方劑; 綜述;

          1 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介

          數(shù)據(jù)挖掘技術(shù)[1] (Knowledge Discovery in Datebase, KKD) , 是一種新興的信息處理技術(shù), 它融匯了人工智能、模式別、模糊數(shù)學(xué)、數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)等多種技術(shù)方法, 專門用于海量數(shù)據(jù)的處理, 從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中, 提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識(shí), 其目的是發(fā)現(xiàn)規(guī)律而不是驗(yàn)證假設(shè)。數(shù)據(jù)挖掘技術(shù)主要適用于龐大的數(shù)據(jù)庫(kù)的研究, 其特點(diǎn)在于:基于數(shù)據(jù)分析方法角度的分類, 其本質(zhì)屬于觀察性研究, 數(shù)據(jù)來(lái)源于日常診療工作資料, 應(yīng)用的技術(shù)較傳統(tǒng)研究更先進(jìn), 分析工具、理論模型與傳統(tǒng)研究區(qū)別較大。其操作步驟包括[2]:選擇數(shù)據(jù), 數(shù)據(jù)處理, 挖掘分析, 結(jié)果解釋, 其中結(jié)果解釋是數(shù)據(jù)挖掘技術(shù)研究的關(guān)鍵。其方法包括分類、聚類、關(guān)聯(lián)、序列、決策樹、貝斯網(wǎng)絡(luò)、因子、辨別等分析[3], 其結(jié)果通常表示為概念、規(guī)則、規(guī)律、模式、約束、可視化等形式圖[4]。當(dāng)今數(shù)據(jù)挖掘技術(shù)的方向主要在于:特定數(shù)據(jù)挖掘, 高效挖掘算法, 提高結(jié)果的有效性、確定性和表達(dá)性, 結(jié)果的可視化, 多抽象層上的交互式數(shù)據(jù)挖掘, 多元數(shù)據(jù)挖掘及數(shù)據(jù)的安全性和保密性。因其優(yōu)勢(shì)和獨(dú)特性被運(yùn)用于多個(gè)領(lǐng)域中, 且結(jié)果運(yùn)用后取得顯著成效, 因此越來(lái)越多的中醫(yī)方劑研究者將其運(yùn)用于方劑中藥物的研究。

          2 數(shù)據(jù)挖掘術(shù)在神經(jīng)根型頸椎病治方研究中的優(yōu)勢(shì)

          中醫(yī)對(duì)于神經(jīng)根型頸椎病的治療準(zhǔn)則為辨證論治, 從古至今神經(jīng)根型頸椎病的中醫(yī)證型有很多, 其治方是集中醫(yī)之理、法、方、藥為一體的數(shù)據(jù)集合, 具有以“方-藥-證”為核心的多維結(jié)構(gòu)。方劑配伍本質(zhì)上表現(xiàn)為方與方、方與藥、藥與藥、藥與劑量, 以及方藥與證、病、癥交叉錯(cuò)綜的關(guān)聯(lián)與對(duì)應(yīng)[5], 而中醫(yī)方劑講究君臣佐使的配伍, 藥物有升降沉浮, 四氣五味及歸經(jīng)之別, 對(duì)于神經(jīng)根型頸椎病的治療, 治方中藥物的種類、炮制方法、用量、用法等都是千變?nèi)f化的, 而這些海量、模糊、看似隨機(jī)的藥物背后隱藏著對(duì)臨床有用的信息和規(guī)律, 但這些大數(shù)據(jù)是無(wú)法在可承受的時(shí)間范圍內(nèi)可用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的, 是需要一個(gè)新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力, 而數(shù)據(jù)挖掘技術(shù)有可能從這些海量的的數(shù)據(jù)中發(fā)現(xiàn)新知識(shí), 揭示背后隱藏的關(guān)系和規(guī)則, 并且對(duì)未知的情況進(jìn)行預(yù)測(cè)[6]。再者, 中醫(yī)辨治充滿非線性思維, “方-藥-證”間的多層關(guān)聯(lián)、序列組合、集群對(duì)應(yīng), 形成了整體論的思維方式和原則, 而數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘在技術(shù)線路上與傳統(tǒng)數(shù)據(jù)處理方法不同在于其能對(duì)數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)以線性和非線性方式解析, 尤善處理模糊的、非量化的數(shù)據(jù)。例如趙睿曦等[7]在研究張氏骨傷治療腰椎間盤突出癥的用藥規(guī)律時(shí), 選取了100張治方, 因該病病因病機(jī)復(fù)雜, 證候不一, 骨傷名師張玉柱先生對(duì)該病的治則治法、藥物使用是不同的。因此他們利用Excel建立方證數(shù)據(jù)庫(kù), 采用SPPS Clementine12.0軟件對(duì)這些數(shù)據(jù)的用藥頻次、藥物關(guān)聯(lián)規(guī)則及藥物聚類進(jìn)行分析, 最后總結(jié)出張氏骨傷治療腰椎間盤突出癥遵循病從肝治、病從血治、標(biāo)本兼治的原則, 也歸納出治療三種不同證型的腰突癥的三類自擬方。由此看出數(shù)據(jù)挖掘技術(shù)在方劑研究中的應(yīng)用對(duì)數(shù)據(jù)背后信息、規(guī)律等的挖掘及名家經(jīng)驗(yàn)的推廣具有重大意義, 因此數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎病的治方研究中也同樣發(fā)揮著巨大的作用。

          3 數(shù)據(jù)挖掘技術(shù)在神經(jīng)根型頸椎治方中的應(yīng)用進(jìn)展

          神經(jīng)根型頸椎病在所有頸椎病中最常見(jiàn), 約占50%~60%[8], 醫(yī)家對(duì)其治方的研究也是不計(jì)其數(shù)。近年來(lái)數(shù)據(jù)挖掘技術(shù)也被運(yùn)用于其治方研究中, 筆者通過(guò)萬(wàn)方、中國(guó)知網(wǎng)等總共檢索出以下幾篇文獻(xiàn), 雖數(shù)量不多但其優(yōu)勢(shì)明顯。劉向前等[9]在挖掘古方治療神經(jīng)根型頸椎病的用藥規(guī)律時(shí), 通過(guò)檢索《中華醫(yī)典》并從中篩選以治療頸項(xiàng)肩臂痛為主的古方219首并建立數(shù)據(jù)庫(kù), 對(duì)不同證治古方的用藥類別、總味數(shù)、單味藥使用頻數(shù)及藥對(duì) (組) 出現(xiàn)頻數(shù)進(jìn)行統(tǒng)計(jì), 總結(jié)出風(fēng)寒濕痹證、痰濕阻痹證、寒濕阻滯證、正虛不足證的用藥特點(diǎn), 得出解表藥、祛風(fēng)濕藥、活血化瘀藥、補(bǔ)虛藥是治療頸項(xiàng)肩臂痛古方組成的主要藥物。古為今用, 該研究對(duì)于現(xiàn)代醫(yī)家在治療該病中有很好的借鑒和參考意義。齊兵獻(xiàn)等[10]檢索CNKI (1980-20xx年) 相關(guān)文獻(xiàn)中治療神經(jīng)根型頸椎病的方劑建立數(shù)據(jù)庫(kù), 采用SPSS11.5統(tǒng)計(jì)軟件這些治方常用藥物使用頻次頻率、性味頻率、歸經(jīng)頻率分析比較, 治療神經(jīng)根型頸椎病的中藥共計(jì)99味, 使用頻次479味次;所用藥物種類依次以補(bǔ)益藥、活血化瘀藥、祛風(fēng)濕藥運(yùn)用最多, 其中藥味以辛、苦為主, 藥性以溫、寒為主, 歸經(jīng)以肝、脾、心為主, 而本病以肝腎虧虛, 氣血瘀滯為主, 臨床以補(bǔ)益藥、活血化瘀藥、祛風(fēng)濕藥等中藥運(yùn)用最多。這對(duì)于醫(yī)家治療該病選用藥物的性味、歸經(jīng)等具有指導(dǎo)意義。陳元川等[11]檢索20xx年1月至20xx年3月發(fā)表的以單純口服中藥治療神經(jīng)根型頸椎病的有關(guān)文獻(xiàn), 對(duì)其中的方劑和藥物進(jìn)行統(tǒng)計(jì)、歸類、分析, 最終納入32首方劑, 涉及111味中藥, 補(bǔ)氣藥、發(fā)散風(fēng)寒藥、活血止痛藥、補(bǔ)血藥等使用頻次較高;葛根、白芍、黃芪、當(dāng)歸、桂枝等藥物使用頻次較高, 證實(shí)與古方桂枝加葛根湯主藥相同, 且該方扶陽(yáng)解表的治法與該研究得出的扶正祛邪的結(jié)果相吻合, 同時(shí)也證實(shí)石氏傷科強(qiáng)調(diào)治傷科病當(dāng)“以氣為主, 以血為先”等正確性。所以大數(shù)據(jù)背后的規(guī)律和關(guān)系在很多方面古今是一致的, 同時(shí)數(shù)據(jù)依據(jù)的支持也為現(xiàn)代神經(jīng)根型頸椎病治療提供有力的保障。謝輝等[12]收集20xx至20xx年10月3日的166張治療神經(jīng)根型頸椎病的治方建立數(shù)據(jù)庫(kù), 采用關(guān)聯(lián)規(guī)則算法、復(fù)雜系統(tǒng)熵聚類等無(wú)監(jiān)督數(shù)據(jù)挖掘方法, 利用中醫(yī)傳承輔助平臺(tái) (TCMISS) 軟件分析處方中各種藥物的使用頻次、藥物之間的關(guān)聯(lián)規(guī)則、核心藥物組合和新處方, 從中挖掘出治療該病中醫(yī)中的常用藥物、藥對(duì), 闡明了治療該病以解肌散寒藥、補(bǔ)氣活血藥、祛風(fēng)勝濕藥和溫經(jīng)通絡(luò)藥為主, 治法主要包括解肌舒筋、益氣活血和補(bǔ)益肝腎, 這一方面很清晰明了地展示了藥物使用頻率、藥物之間的聯(lián)系, 證實(shí)其與很多古代經(jīng)典中治療神經(jīng)根型頸椎病的治則、治法及用藥規(guī)律是吻合的, 是臨床用藥的積累和升華, 可有效地指導(dǎo)臨床并提高療效;另一方面也為中藥新藥的.創(chuàng)制提供處方來(lái)源, 指導(dǎo)新藥研發(fā)[13]。

          4 小結(jié)

          數(shù)據(jù)挖掘技術(shù)作為一種新型的研究技術(shù), 在神經(jīng)根型頸椎病的治方研究中的運(yùn)用相對(duì)于其他領(lǐng)域是偏少的, 并且基本上是研究文獻(xiàn)資料上出現(xiàn)的治方, 在對(duì)名老中醫(yī)個(gè)人治療經(jīng)驗(yàn)及用藥規(guī)律的總結(jié)是缺乏的, 因此研究范圍廣而缺乏針對(duì)性, 同時(shí)使用該技術(shù)的相關(guān)軟件種類往往是單一的,F(xiàn)在研究者在研究中醫(yī)方劑時(shí)往往采用傳統(tǒng)的研究方法, 這就導(dǎo)致在大數(shù)據(jù)的研究中耗時(shí)、耗力甚則無(wú)能為力, 同樣也難以精準(zhǔn)地提取大數(shù)據(jù)背后的隱藏的潛在關(guān)系和規(guī)則及缺乏對(duì)未知情況的預(yù)測(cè)。產(chǎn)生這樣的現(xiàn)狀, 一方面是很多研究者尚未清楚該技術(shù)在方劑研究中的優(yōu)勢(shì)所在, 思維模式尚未更新;另一方面是很多研究者尚未清楚該技術(shù)的操作技能及軟件種類及其應(yīng)用范圍。故以后應(yīng)向更多研究者普及該技術(shù)的軟件種類、其中的優(yōu)勢(shì)及操作技能, 讓該技術(shù)在臨床中使用更廣, 產(chǎn)生更大的效益。

          參考文獻(xiàn)

          [1]舒正渝.淺談數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].中國(guó)西部科技, 20xx, 9 (5) :38-39.

          [2]曹毅, 季聰華.臨床科研設(shè)計(jì)與分析[M].杭州:浙江科學(xué)技術(shù)出版社, 20xx:189.

          [3]王靜, 崔蒙.數(shù)據(jù)挖掘技術(shù)在中醫(yī)方劑學(xué)研究中的應(yīng)用[J].中國(guó)中醫(yī)藥信息雜志, 20xx, 15 (3) :103-104.

          [4]陳丈偉.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社, 20xx:5.

          [5]楊玉珠.數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用[J].河南科技, 20xx, 10 (19) :21.

          [6]余侃侃.數(shù)據(jù)挖掘技術(shù)在方劑配伍中的研究現(xiàn)狀及研究方法[J].中國(guó)醫(yī)藥指南, 20xx, 6 (24) :310-312.

          [7]趙睿曦.方證數(shù)據(jù)挖掘分析張氏骨傷對(duì)腰椎間盤突出癥的辨證用藥規(guī)律[J].陜西中醫(yī)藥大學(xué)學(xué)報(bào), 20xx, 39 (6) :44-46.

          [8]李曙明, 尹戰(zhàn)海, 王瑩.神經(jīng)根型頸椎病的影像學(xué)特點(diǎn)和分型[J].中國(guó)矯形外科雜志, 20xx, 21 (1) :7-11.

          [9]劉向前, 陳民, 黃廣平等.頸項(xiàng)肩臂痛內(nèi)治古方常用藥物的統(tǒng)計(jì)分析[J].中華中醫(yī)藥學(xué)刊, 20xx, 30 (9) :42-44.

          [10]齊兵獻(xiàn), 樊成虎, 李兆和.神經(jīng)根型頸椎病中醫(yī)用藥規(guī)律的文獻(xiàn)研究[J].河南中醫(yī), 20xx, 32 (4) :518-519.

          [11]陳元川, 王翔, 龐堅(jiān), 等.單純口服中藥治療神經(jīng)根型頸椎病用藥分析[J].上海中醫(yī)藥雜志, 20xx, 48 (6) :78-80.

          [12]謝輝, 劉軍, 潘建科, 等.基于數(shù)據(jù)挖掘方法的神經(jīng)根型頸椎病用藥規(guī)律研究[J].世界中西醫(yī)結(jié)合雜志, 20xx, 10 (6) :849-852.

          [13]唐仕歡, 楊洪軍.中醫(yī)組方用藥規(guī)律研究進(jìn)展述評(píng)[J].中國(guó)實(shí)驗(yàn)方劑學(xué)雜志, 20xx (5) :359-363.

        數(shù)據(jù)挖掘論文9

          1數(shù)據(jù)挖掘技術(shù)和過(guò)程

          1.1數(shù)據(jù)挖掘技術(shù)概述

          發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)應(yīng)當(dāng)能夠被接受、理解和運(yùn)用。也就是發(fā)現(xiàn)全部相對(duì)的知識(shí),是具有特定前提與條件,面向既定領(lǐng)域的,同時(shí)還容易被用戶接受。數(shù)據(jù)挖掘?qū)儆谝环N新型的商業(yè)信息處理技術(shù),其特點(diǎn)為抽取、轉(zhuǎn)化、分析商業(yè)數(shù)據(jù)庫(kù)中的大規(guī)模業(yè)務(wù)數(shù)據(jù),從中獲得有價(jià)值的商業(yè)數(shù)據(jù)。簡(jiǎn)單來(lái)說(shuō),其實(shí)數(shù)據(jù)挖掘是一種對(duì)數(shù)據(jù)進(jìn)行深入分析的方法。因此,可以描述數(shù)據(jù)挖掘?yàn)椋焊鶕?jù)企業(yè)設(shè)定的工作目標(biāo),探索與分析企業(yè)大量數(shù)據(jù),充分揭示隱藏的、未知的規(guī)律性,并且將其轉(zhuǎn)變?yōu)榭茖W(xué)的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的最常見(jiàn)知識(shí)包括:

          1.1.1廣義知識(shí)體現(xiàn)相同事物共同性質(zhì)的知識(shí),是指類別特點(diǎn)的概括描述知識(shí)。按照數(shù)據(jù)的微觀特點(diǎn)對(duì)其表征的、具有普遍性的、極高概念層次的知識(shí)積極發(fā)現(xiàn),是對(duì)數(shù)據(jù)的高度精煉與抽象。發(fā)現(xiàn)廣義知識(shí)的方法與技術(shù)有很多,例如數(shù)據(jù)立方體和歸約等。

          1.1.2關(guān)聯(lián)知識(shí)體現(xiàn)一個(gè)事件與其他事件之間形成的關(guān)聯(lián)知識(shí)。假如兩項(xiàng)或者更多項(xiàng)之間形成關(guān)聯(lián),則其中一項(xiàng)的屬性數(shù)值就能夠借助其他屬性數(shù)值實(shí)行預(yù)測(cè)。

          1.1.3分類知識(shí)體現(xiàn)相同事物共同特點(diǎn)的屬性知識(shí)與不同事物之間差異特點(diǎn)知識(shí)。

          1.2數(shù)據(jù)挖掘過(guò)程

          1.2.1明確業(yè)務(wù)對(duì)象對(duì)業(yè)務(wù)問(wèn)題清楚定義,了解數(shù)據(jù)挖掘的第一步是數(shù)據(jù)挖掘目的。挖掘結(jié)果是無(wú)法預(yù)測(cè)的,但是研究的問(wèn)題是可預(yù)見(jiàn)的,僅為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘一般會(huì)體現(xiàn)出盲目性,通常也不會(huì)獲得成功;谟脩籼卣鞯碾娮由虅(wù)數(shù)據(jù)挖掘研究劉芬(惠州商貿(mào)旅游高級(jí)職業(yè)技術(shù)學(xué)校,廣東惠州516025)摘要:隨著互聯(lián)網(wǎng)的出現(xiàn),全球范圍內(nèi)電子商務(wù)正在迅速普及與發(fā)展,在這樣的環(huán)境下,電子商務(wù)數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。電子商務(wù)數(shù)據(jù)挖掘技術(shù)是近幾年來(lái)數(shù)據(jù)挖掘領(lǐng)域中的研究熱點(diǎn),基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘技術(shù)研究將會(huì)解決大量現(xiàn)實(shí)問(wèn)題,為企業(yè)確定目標(biāo)市場(chǎng)、完善決策、獲得最大競(jìng)爭(zhēng)優(yōu)勢(shì),其應(yīng)用前景廣闊,促使電子商務(wù)企業(yè)更具有競(jìng)爭(zhēng)力。主要分析了電子商務(wù)內(nèi)容、數(shù)據(jù)挖掘技術(shù)和過(guò)程、用戶細(xì)分理論,以及基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘。

          1.2.2數(shù)據(jù)準(zhǔn)備第一選擇數(shù)據(jù):是按照用戶的挖掘目標(biāo),對(duì)全部業(yè)務(wù)內(nèi)外部數(shù)據(jù)信息積極搜索,從數(shù)據(jù)源中獲取和挖掘有關(guān)數(shù)據(jù)。第二預(yù)處理數(shù)據(jù):加工選取的數(shù)據(jù),具體對(duì)數(shù)據(jù)的完整性和一致性積極檢查,并且處理數(shù)據(jù)中的噪音,找出計(jì)算機(jī)丟失的數(shù)據(jù),清除重復(fù)記錄,轉(zhuǎn)化數(shù)據(jù)類型等。假如數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)挖掘的對(duì)象,則在產(chǎn)生數(shù)據(jù)庫(kù)過(guò)程中已經(jīng)形成了數(shù)據(jù)預(yù)處理。

          1.2.3變換數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)為一個(gè)分析模型。這一分析模型是相對(duì)于挖掘算法構(gòu)建的。構(gòu)建一個(gè)與挖掘算法適合的分析模型是數(shù)據(jù)挖掘獲得成功的重點(diǎn)?梢岳猛队皵(shù)據(jù)庫(kù)的相關(guān)操作對(duì)數(shù)據(jù)維度有效降低,進(jìn)一步減少數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)量,提升挖掘算法效率。

          1.2.4挖掘數(shù)據(jù)挖掘獲得的經(jīng)濟(jì)轉(zhuǎn)化的數(shù)據(jù)。除了對(duì)選擇科學(xué)挖掘算法積極完善之外,其余全部工作都自行完成。整體挖掘過(guò)程都是相互的,也就是用戶對(duì)某些挖掘參數(shù)能夠積極控制。

          1.2.5評(píng)價(jià)挖掘結(jié)果這個(gè)過(guò)程劃分為兩個(gè)步驟:表達(dá)結(jié)果和評(píng)價(jià)結(jié)果。第一表達(dá)結(jié)果:用戶能夠理解數(shù)據(jù)挖掘得到的模式,可以通過(guò)可視化數(shù)據(jù)促使用戶對(duì)挖掘結(jié)果積極理解。第二評(píng)價(jià)結(jié)果:用戶與機(jī)器對(duì)數(shù)據(jù)挖掘獲得的模式有效評(píng)價(jià),對(duì)冗余或者無(wú)關(guān)的模式及時(shí)刪除。假如用戶不滿意挖掘模式,可以重新挑選數(shù)據(jù)和挖掘算法對(duì)挖掘過(guò)程科學(xué)執(zhí)行,直到獲得用戶滿意為止。

          2用戶細(xì)分理論

          用戶細(xì)分是指按照不同用戶的屬性劃分用戶集合。目前學(xué)術(shù)界和企業(yè)界一般接受的是基于用戶價(jià)值的細(xì)分理論,其不僅包含了用戶為企業(yè)貢獻(xiàn)歷史利潤(rùn),還包含未來(lái)利潤(rùn),也就是在未來(lái)用戶為企業(yè)可能帶來(lái)的利潤(rùn)總和;谟脩魞r(jià)值的細(xì)分理論選擇客戶當(dāng)前價(jià)值與客戶潛在價(jià)值兩個(gè)因素評(píng)價(jià)用戶。用戶當(dāng)前價(jià)值是指截止到目前用戶對(duì)企業(yè)貢獻(xiàn)的總體價(jià)值;用戶潛在價(jià)值是指未來(lái)用戶可能為企業(yè)創(chuàng)造的價(jià)值總和。每個(gè)因素還能夠劃分為兩個(gè)高低檔次,進(jìn)一步產(chǎn)生一個(gè)二維的矩陣,把用戶劃分為4組,價(jià)值用戶、次價(jià)值用戶、潛在價(jià)值用戶、低價(jià)值用戶。企業(yè)在推廣過(guò)程中根據(jù)不同用戶應(yīng)當(dāng)形成對(duì)應(yīng)的`方法,投入不同的資源。很明顯對(duì)于企業(yè)來(lái)說(shuō)價(jià)值用戶最重要,被認(rèn)為是企業(yè)的玉質(zhì)用戶;其次是次價(jià)值用戶,被認(rèn)為是金質(zhì)用戶,雖然數(shù)量有限,卻為企業(yè)創(chuàng)造了絕大部分的利潤(rùn);其他則是低價(jià)值用戶,對(duì)企業(yè)來(lái)說(shuō)價(jià)值最小,成為鉛質(zhì)用戶,另外一類則是潛在價(jià)值用戶。雖然這兩類用戶擁有較多的數(shù)量,但是為企業(yè)創(chuàng)造的價(jià)值有限,甚至很小。需要我們注意的是潛在價(jià)值用戶利用再造用戶關(guān)系,將來(lái)極有可能變成價(jià)值用戶。從長(zhǎng)期分析,潛在價(jià)值用戶可以是企業(yè)的隱形財(cái)富,是企業(yè)獲得利潤(rùn)的基礎(chǔ)。將采用數(shù)據(jù)挖掘方法對(duì)這4類用戶特點(diǎn)有效挖掘。

          3電子商務(wù)數(shù)據(jù)挖掘分析

          3.1設(shè)計(jì)問(wèn)卷

          研究的關(guān)鍵是電子商務(wù)用戶特征的數(shù)據(jù)挖掘,具體包含了價(jià)值用戶特征、次價(jià)值用戶特征、潛在價(jià)值用戶特征,對(duì)電子商務(wù)用戶的認(rèn)知度、用戶的需求度分析。問(wèn)卷內(nèi)容包括3部分:其一是為被調(diào)查者介紹電子商務(wù)的概念與背景;其二是具體調(diào)查被調(diào)查對(duì)象的個(gè)人信息,包含了性別、年齡、學(xué)歷、感情情況、職業(yè)、工作、生活地點(diǎn)、收入、上網(wǎng)購(gòu)物經(jīng)歷;其三是問(wèn)卷主要部分,是對(duì)用戶對(duì)電子商務(wù)的了解、需求、使用情況的指標(biāo)設(shè)計(jì)。

          3.2調(diào)查方式

          本次調(diào)查的問(wèn)卷主體是電腦上網(wǎng)的人群,采用隨機(jī)抽象的方式進(jìn)行網(wǎng)上訪問(wèn)。一方面采用大眾聊天工具,利用電子郵件和留言的方式發(fā)放問(wèn)卷,另一方面在大眾論壇上邀請(qǐng)其填寫問(wèn)卷。

          3.3數(shù)據(jù)挖掘和結(jié)果

         。1)選擇數(shù)據(jù)挖掘的算法利用Clementine數(shù)據(jù)挖掘軟件,采用C5.O算法挖掘預(yù)處理之后數(shù)據(jù)。

         。2)用戶數(shù)據(jù)分析

          1)電子商務(wù)用戶認(rèn)知度分析按照調(diào)查問(wèn)卷的問(wèn)題“您知道電子商務(wù)嗎?”得到對(duì)電子商務(wù)用戶認(rèn)知情況的統(tǒng)計(jì),十分了解20.4%,了解30.1%,聽(tīng)過(guò)但不了解具體使用方法40.3%,從未聽(tīng)過(guò)8.9%。很多人僅聽(tīng)過(guò)電子商務(wù),但是并不清楚具體的功能與應(yīng)用方法,甚至有一小部分人沒(méi)有聽(tīng)過(guò)電子商務(wù)。對(duì)調(diào)查問(wèn)卷問(wèn)題“您聽(tīng)過(guò)電子商務(wù)的渠道是什么?”,大部分用戶是利用網(wǎng)了解電子商務(wù)的,占40.2%;僅有76人是利用紙質(zhì)報(bào)刊雜志上知道電子商務(wù)的并且對(duì)其進(jìn)行應(yīng)用;這也表明相較于網(wǎng)絡(luò)宣傳紙質(zhì)媒體推廣電子商務(wù)的方法缺乏有效性。

          2)電子商務(wù)用戶需求用戶希求具體是指使用產(chǎn)品服務(wù)人員對(duì)應(yīng)用產(chǎn)品或服務(wù)形成的需求或者期望。按照問(wèn)題“假如你曾經(jīng)使用電子商務(wù),你覺(jué)得其用途怎樣,假如沒(méi)有使用過(guò),你覺(jué)得其對(duì)自己有用嗎?”得到了認(rèn)為需要和十分需要的數(shù)據(jù),覺(jué)得電子商務(wù)有用的用戶為40.7%,不清楚是否對(duì)自己有用的用戶為56.7%,認(rèn)為不需要的僅有2.4%。

          3)電子商務(wù)用戶應(yīng)用意愿應(yīng)用意愿是指消費(fèi)者對(duì)某一產(chǎn)品服務(wù)進(jìn)行應(yīng)用或者購(gòu)買的一種心理欲望。按照問(wèn)題“假如可以滿足你所關(guān)心的因素,未來(lái)你會(huì)繼續(xù)應(yīng)用電子商務(wù)嗎?”獲得的數(shù)據(jù)可知,在滿足各種因素時(shí),將來(lái)一年之內(nèi)會(huì)應(yīng)用電子商務(wù)的用戶為78.2%,一定不會(huì)應(yīng)用電子商務(wù)的用戶為1.4%。表明用戶形成了較為強(qiáng)烈的應(yīng)用電子商務(wù)欲望,電子商務(wù)發(fā)展前景很好;谟脩籼卣鞯碾娮由虅(wù)數(shù)據(jù)研究,電子商務(wù)企業(yè)通過(guò)這一結(jié)果能夠更好地實(shí)行營(yíng)銷和推廣,對(duì)潛在用戶積極定位,提高用戶體驗(yàn),積極挖掘用戶價(jià)值。分析為企業(yè)準(zhǔn)確營(yíng)銷和推廣企業(yè)提供了一個(gè)有效的借鑒。

          4結(jié)語(yǔ)

          互聯(lián)網(wǎng)中數(shù)據(jù)是最寶貴的資源之一,大量數(shù)據(jù)中包含了很大的潛在價(jià)值,對(duì)這些數(shù)據(jù)深入挖掘?qū)ヂ?lián)網(wǎng)商務(wù)、企業(yè)推廣、傳播信息發(fā)揮了巨大的作用。近些年來(lái),數(shù)據(jù)挖掘技術(shù)獲得了信息產(chǎn)業(yè)的極大重視,具體原因是出現(xiàn)了大量的數(shù)據(jù),能夠廣泛應(yīng)用,并且需要轉(zhuǎn)化數(shù)據(jù)成為有價(jià)值的信息知識(shí)。通過(guò)基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究,促使電子商務(wù)獲得巨大發(fā)展機(jī)會(huì),發(fā)現(xiàn)潛在用戶,促使電子商務(wù)企業(yè)精準(zhǔn)營(yíng)銷。

        數(shù)據(jù)挖掘論文10

          一、在對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘方面存在的問(wèn)題和局限

          1.1對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘技術(shù)有限

          據(jù)有關(guān)調(diào)查,目前的信息技術(shù)行業(yè)對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘在技術(shù)方面還是存在局限與問(wèn)題的;從客觀層面上來(lái)講,沒(méi)有哪一種計(jì)算機(jī)的技術(shù)可以完全杜絕或制止計(jì)算機(jī)病毒對(duì)計(jì)算機(jī)數(shù)據(jù)庫(kù)的侵入和威脅,這種糟糕情況的出現(xiàn),不僅給單個(gè)計(jì)算機(jī)的系統(tǒng)造成損害,而且給整個(gè)計(jì)算機(jī)技術(shù)行業(yè)在某些時(shí)候也會(huì)造成不必要的損失和危害。所以說(shuō),開創(chuàng)有關(guān)減弱甚至是消滅計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的計(jì)算機(jī)技術(shù)就顯得尤為重要。

          1.2對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘效率極低

          我們都知道,可以利用相應(yīng)的計(jì)算機(jī)技術(shù)來(lái)對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行挖掘,但是就目前而言,單一而又較為簡(jiǎn)單的計(jì)算機(jī)技術(shù)很難高效地對(duì)數(shù)據(jù)進(jìn)行挖掘,只能夠從具有病毒的數(shù)據(jù)庫(kù)中挖掘出極少數(shù)數(shù)據(jù)甚至是挖掘不出來(lái)。所以說(shuō),提高計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘效率也就顯得尤為重要。

          1.3對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘成本較高

          值得注意的是,某些計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)中的數(shù)據(jù)是值得使用和發(fā)揮作用的,所以,計(jì)算機(jī)行業(yè)的某些操作人員就會(huì)盡可能采用多種渠道和方法來(lái)對(duì)有用的數(shù)據(jù)進(jìn)行挖掘和分析,這樣一來(lái),通常花費(fèi)的成本就會(huì)相對(duì)地高,不免也就會(huì)給某些企業(yè)造成沉重的負(fù)擔(dān)。所以說(shuō),降低對(duì)計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘成本就顯得尤為重要了。

          二、計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘的策略與方法

          2.1實(shí)施相應(yīng)的計(jì)算機(jī)病毒監(jiān)控技術(shù)

          如何進(jìn)一步地減弱計(jì)算機(jī)病毒對(duì)計(jì)算機(jī)數(shù)據(jù)庫(kù)的侵入和威脅,我們需要慎重考慮,而實(shí)施相應(yīng)的計(jì)算機(jī)病毒監(jiān)控技術(shù)已成為此時(shí)的無(wú)疑之策;進(jìn)一步來(lái)說(shuō),就是設(shè)置多種監(jiān)控技術(shù),例如設(shè)置內(nèi)存監(jiān)控,配備相應(yīng)的文件監(jiān)控,還有就是注冊(cè)不同的表監(jiān)控等等,這些都是有效地減弱甚至是防止計(jì)算機(jī)病毒侵襲數(shù)據(jù)庫(kù)的`監(jiān)控技術(shù)?傊,我們通過(guò)這些技術(shù),就會(huì)盡可能的從計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)中挖掘出需要的數(shù)據(jù)。

          2.2配置適當(dāng)?shù)挠?jì)算機(jī)病毒源的追蹤設(shè)備

          據(jù)有關(guān)部門調(diào)查,目前使用較為有效的計(jì)算機(jī)病毒源的追蹤設(shè)備就是郵件追蹤設(shè)備,它能夠有效地通過(guò)相應(yīng)的消息或指令來(lái)對(duì)計(jì)算機(jī)的查詢進(jìn)行追蹤,這樣就能夠高效地檢測(cè)出是否有計(jì)算機(jī)病毒侵入。依據(jù)這種情況,我們可以進(jìn)一步開拓思維,尤其是計(jì)算機(jī)行業(yè)的管理員和操作人員,更應(yīng)該為計(jì)算機(jī)設(shè)計(jì)出以及配置適當(dāng)?shù)牟煌挠?jì)算機(jī)病毒源的追蹤設(shè)備,從而使人們?cè)谟?jì)算機(jī)病毒侵入數(shù)據(jù)庫(kù)的情況下,仍然能夠得到自己想要的正常數(shù)據(jù)。

          2.3設(shè)置獨(dú)特的計(jì)算機(jī)反病毒數(shù)據(jù)庫(kù)

          所謂的計(jì)算機(jī)反病毒數(shù)據(jù)庫(kù),就是在計(jì)算機(jī)操作系統(tǒng)的底部值入反病毒的指令或程序,讓它成為計(jì)算機(jī)系統(tǒng)內(nèi)部數(shù)據(jù)庫(kù)的底層模塊,而不是計(jì)算機(jī)系統(tǒng)外部的某種軟件。這樣一來(lái),當(dāng)計(jì)算機(jī)的病毒侵入系統(tǒng)內(nèi)數(shù)據(jù)庫(kù)時(shí),就會(huì)被底層的反病毒程序代碼或指令反攻出來(lái),就進(jìn)一步達(dá)到了減弱甚至消除計(jì)算機(jī)病毒對(duì)計(jì)算機(jī)數(shù)據(jù)庫(kù)的侵襲和威脅的目的,那么我們這時(shí)就可以挖掘出必需的數(shù)據(jù)了。

          三、結(jié)束語(yǔ)

          概而言之,就現(xiàn)在的計(jì)算機(jī)病毒來(lái)說(shuō),可謂是呈現(xiàn)日益猖獗的態(tài)勢(shì);也就是說(shuō),計(jì)算機(jī)技術(shù)迅速發(fā)展了,計(jì)算機(jī)病毒也就會(huì)跟其迅速“發(fā)展”。我們想要有效地遏制住計(jì)算機(jī)病毒,從計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)中挖掘出必需的數(shù)據(jù),對(duì)于普通人來(lái)說(shuō)就應(yīng)該多多了解一些預(yù)防計(jì)算機(jī)病毒侵入的知識(shí);而對(duì)于計(jì)算機(jī)行業(yè)的管理員或操作人員來(lái)說(shuō),就應(yīng)該多設(shè)計(jì)出一些遏制計(jì)算機(jī)病毒侵襲的軟件或方案,從而使我們的計(jì)算機(jī)環(huán)境更干凈,更安全。

        數(shù)據(jù)挖掘論文11

          摘 要:數(shù)據(jù)挖掘技術(shù)在各行業(yè)都有廣泛運(yùn)用,是一種新興信息技術(shù)。而在線考試系統(tǒng)中存在著很多的數(shù)據(jù)信息,數(shù)據(jù)挖掘技在在線考試系統(tǒng)有著重要的意義,和良好的應(yīng)用前景,從而在眾多技術(shù)中脫穎而出。本文從對(duì)數(shù)據(jù)挖掘技術(shù)的初步了解,簡(jiǎn)述數(shù)據(jù)挖掘技術(shù)在在線考試系統(tǒng)中成績(jī)分析,以及配合成績(jī)分析,完善教學(xué)。

          關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);在線考試;成績(jī)分析 ;完善教學(xué)

          隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,計(jì)算機(jī)輔助教育的不斷普及,在線考試是一種利用網(wǎng)絡(luò)技術(shù)的重要輔助教育手段,其改革有著重要的意義。數(shù)據(jù)挖掘技術(shù)作為一種新興的信息技術(shù),其包括了人工智能、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)等學(xué)科的內(nèi)容,是一門綜合性的技術(shù)。這種技術(shù)的主要特點(diǎn)是對(duì)數(shù)據(jù)庫(kù)中大量的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和分析,從中提取出能夠?qū)處熡凶饔玫年P(guān)鍵性數(shù)據(jù)。將其運(yùn)用于在線考試系統(tǒng)中,能夠很好的處理在線考試中涉及到的數(shù)據(jù),讓在線考試的實(shí)用性和高效性得到進(jìn)一步的增強(qiáng),幫助教師更加快速、完整的統(tǒng)計(jì)考試信息,完善教學(xué)。

          1.初步了解數(shù)據(jù)挖掘技術(shù)

          數(shù)據(jù)挖掘技術(shù)是從大量數(shù)據(jù)中"挖掘"出對(duì)使用者有用的知識(shí),即從大量的、隨機(jī)的、有噪聲的、模糊的、不完全的實(shí)際應(yīng)用數(shù)據(jù)中,"挖掘"出隱含在其中但人們事先卻不知道的,而又是對(duì)人們潛在有用的信息與知識(shí)的整個(gè)過(guò)程。

          目前主要的商業(yè)數(shù)據(jù)挖掘系統(tǒng)有SAS公司的Enterprise Miner,SPSS公司的Clementine,Sybas公司的Warehouse Studio,MinerSGI公司的Mineset,RuleQuest Research公司的See5,IBM公司的Intelligent,還有 CoverStory, Knowledge Discovery,Quest,EXPLORA, DBMiner,Workbench等。

          2.數(shù)據(jù)挖掘在在線考試中的主要任務(wù)

          2.1數(shù)據(jù)分類

          數(shù)據(jù)挖掘技術(shù)通過(guò)對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析,把數(shù)據(jù)按照相似性歸納成若干類別,然后做出分類,并能夠?yàn)槊恳粋(gè)類別都做出一個(gè)準(zhǔn)確的描述,挖掘出分類的規(guī)則或建立一個(gè)分類模型。

          2.2數(shù)據(jù)關(guān)聯(lián)分析

          數(shù)據(jù)庫(kù)中的數(shù)據(jù)關(guān)聯(lián)是一項(xiàng)非常重要,并可以發(fā)現(xiàn)的知識(shí)。數(shù)據(jù)關(guān)聯(lián)就是兩組或兩組以上的數(shù)據(jù)之間有著某種規(guī)律性的聯(lián)系。數(shù)據(jù)關(guān)聯(lián)分析的作用就是找出數(shù)據(jù)庫(kù)中隱藏的聯(lián)系,從中得到一些對(duì)學(xué)校教學(xué)工作管理者有用的信息。就像是在購(gòu)物中,就可以通過(guò)顧客的購(gòu)買物品的聯(lián)系,從中得到顧客的購(gòu)買習(xí)慣。

          2.3預(yù)測(cè)

          預(yù)測(cè)是根據(jù)已經(jīng)得到的數(shù)據(jù),從而對(duì)未來(lái)的情況做出一個(gè)可能性的'分析。數(shù)據(jù)挖掘技術(shù)能自動(dòng)在大型的數(shù)據(jù)庫(kù)中做出一個(gè)較為準(zhǔn)確的分析。就像是在市場(chǎng)投資中,可以通過(guò)各種商品促銷的數(shù)據(jù)來(lái)做出一個(gè)未來(lái)商品的促銷走勢(shì)。從而在投資中得到最大的回報(bào)。

          3.數(shù)據(jù)挖掘的方法

          數(shù)據(jù)挖掘技術(shù)融合了多個(gè)學(xué)科、多個(gè)領(lǐng)域的知識(shí)與技術(shù),因此數(shù)據(jù)挖掘的方法也呈現(xiàn)出很多種類的形式。就目前的統(tǒng)計(jì)分析類的數(shù)據(jù)挖掘技術(shù)的角度來(lái)講,光統(tǒng)計(jì)分析技術(shù)中所用到的數(shù)據(jù)挖掘模型就回歸分析、邏輯回歸分析、有線性分析、非線性分析、單變量分析、多變量分析、最近鄰算法、最近序列分析、聚類分析和時(shí)間序列分析等多種方法。數(shù)據(jù)挖掘技術(shù)利用這些方法對(duì)那些異常形式的數(shù)據(jù)進(jìn)行檢查,然后通過(guò)各種數(shù)據(jù)模型和統(tǒng)計(jì)模型對(duì)這些數(shù)據(jù)來(lái)進(jìn)行解釋,并從這些數(shù)據(jù)中找出隱藏在其中的商業(yè)機(jī)會(huì)和市場(chǎng)規(guī)律。另外還有知識(shí)發(fā)現(xiàn)類數(shù)據(jù)挖掘技術(shù),這種和統(tǒng)計(jì)分析類的數(shù)據(jù)挖掘技術(shù)完全不同,其中包括了支持向量機(jī)、人工神經(jīng)元網(wǎng)絡(luò)、遺傳算法、決策樹、粗糙集、關(guān)聯(lián)順序和規(guī)則發(fā)現(xiàn)等多種方法。

          4.數(shù)據(jù)挖掘在考試成績(jī)分析中的幾點(diǎn)應(yīng)用

          4.1運(yùn)用關(guān)聯(lián)規(guī)則分析教師的年齡對(duì)學(xué)生考試成績(jī)的影響

          數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析在教學(xué)分析中,是一種使用頻繁,行之有效的方法,它能挖掘出大量數(shù)據(jù)中項(xiàng)集之間之間有意義的關(guān)聯(lián)聯(lián)系,幫助知道教師的教學(xué)過(guò)程。例如在如今的一些高職院校中,就往往會(huì)把學(xué)生的英語(yǔ)四六級(jí)過(guò)級(jí)率,計(jì)算機(jī)等級(jí)等,以這些為依據(jù)來(lái)評(píng)價(jià)教師的教學(xué)效果。將數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則運(yùn)用于考試的成績(jī)分析當(dāng)中,就能夠挖掘出一些對(duì)學(xué)生過(guò)級(jí)率產(chǎn)生影響的因素,對(duì)教師的教學(xué)過(guò)程進(jìn)行重要的指導(dǎo),讓教師的教學(xué)效率更高,作用更強(qiáng)。

          還可以通過(guò)關(guān)聯(lián)規(guī)則算法,先設(shè)定一個(gè)最小可信度和支持度,得到初步的關(guān)聯(lián)規(guī)則,根據(jù)相關(guān)規(guī)則,分析出教師的組成結(jié)構(gòu)和過(guò)級(jí)率的影響,從來(lái)進(jìn)行教師隊(duì)伍的結(jié)構(gòu)調(diào)整,讓教師隊(duì)伍更加合理。

          4.2采用分類算法探討對(duì)考試成績(jī)有影響的因素

          數(shù)據(jù)挖掘技術(shù)中的分類算法就是對(duì)一組對(duì)象或一個(gè)事件進(jìn)行歸類,然后通過(guò)這些數(shù)據(jù),可以進(jìn)行分類模型的建立和未來(lái)的預(yù)測(cè)。分類算法可以進(jìn)行考試中得到的數(shù)據(jù)進(jìn)行分類,然后通過(guò)學(xué)生的一些基本情況進(jìn)行探討一些對(duì)考試成績(jī)有影響的因素。分類算法可以用一下步驟實(shí)施:

          4.2.1數(shù)據(jù)采集

          這種方法首先要進(jìn)行數(shù)據(jù)采集,需要這幾方面的數(shù)據(jù),學(xué)生基本信息(姓名、性別、學(xué)號(hào)、籍貫、所屬院系、專業(yè)、班級(jí)等)、學(xué)生調(diào)查信息(比如學(xué)習(xí)前的知識(shí)掌握情況、學(xué)習(xí)興趣、課堂學(xué)習(xí)效果、課后復(fù)習(xí)時(shí)間量等)、成績(jī)(學(xué)生平常學(xué)習(xí)成績(jī),平?荚嚦煽(jī),各種大型考試成績(jī)等)、學(xué)生多次考試中出現(xiàn)的易錯(cuò)點(diǎn)(本次考試中出現(xiàn)的易錯(cuò)點(diǎn),以往考試中出現(xiàn)的易錯(cuò)點(diǎn))

          4.2.2數(shù)據(jù)預(yù)處理

         。1)數(shù)據(jù)集成。把數(shù)據(jù)采集過(guò)程中得到的多種信息,利用數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)庫(kù)技術(shù)生產(chǎn)相應(yīng)的學(xué)生考試成績(jī)分析基本數(shù)據(jù)庫(kù)。(2)數(shù)據(jù)清理。在學(xué)生成績(jī)分析數(shù)據(jù)庫(kù)中,肯定會(huì)出現(xiàn)一些情況缺失,對(duì)于這些空缺處,就需要使用數(shù)據(jù)清理技術(shù)來(lái)進(jìn)行這些數(shù)據(jù)庫(kù)中數(shù)據(jù)的填補(bǔ)遺漏。例如,可以采用忽略元組的方法來(lái)刪除那些沒(méi)有參加考試的學(xué)生考試數(shù)據(jù)已經(jīng)在學(xué)生填寫的調(diào)查數(shù)據(jù)中村中的空缺項(xiàng)。(3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換主要功能是進(jìn)行進(jìn)行數(shù)據(jù)的離散化操作。在這個(gè)過(guò)程中可以根據(jù)實(shí)際需要進(jìn)行分類,比如把考試成績(jī)從0~59的分到較差的一類,將60到80分為中等類,81到100分為優(yōu)秀等。(4)數(shù)據(jù)消減。數(shù)據(jù)消減的功能就是把所需挖掘的數(shù)據(jù)庫(kù),在消減的過(guò)程又不能影響到最終的數(shù)據(jù)挖掘結(jié)果。比如在分析學(xué)生的基本學(xué)習(xí)情況的影響因素情況中,學(xué)生信息表中中出現(xiàn)的字段很多,可以選擇性的刪除班別、籍貫等引述,形成一份新的學(xué)生基本成績(jī)分析數(shù)據(jù)表。

          4.2.3利用數(shù)據(jù)挖掘技術(shù),得出結(jié)論

          通過(guò)數(shù)據(jù)挖掘技術(shù)在在線考試中的應(yīng)用,得出這些學(xué)生數(shù)據(jù)的相關(guān)分析,比如說(shuō)學(xué)生考試中的易錯(cuò)點(diǎn)在什么地方,學(xué)生考試成績(jī)的自身原因,學(xué)生考試成績(jī)的環(huán)境原因,教師隊(duì)伍的搭配情況等等,從中得出如何調(diào)整學(xué)校教學(xué)資源,教師的教學(xué)方案調(diào)整等等,從而完善學(xué)校對(duì)學(xué)生的教學(xué)。

          5.結(jié)語(yǔ)

          數(shù)據(jù)挖掘技術(shù)在社會(huì)各行各業(yè)中都有一定程度的使用,基于其在數(shù)據(jù)組織、分析能力、知識(shí)發(fā)現(xiàn)和信息深層次挖掘的能力,在使用中取得了顯著的成效,但數(shù)據(jù)挖掘技術(shù)中還存在著一些問(wèn)題,例如數(shù)據(jù)的挖掘算法、預(yù)處理、可視化問(wèn)題、模式識(shí)別和解釋等等。對(duì)于這些問(wèn)題,學(xué)校教學(xué)管理工作者要清醒的認(rèn)識(shí),在在線考試系統(tǒng)中對(duì)數(shù)據(jù)挖掘信息做出合理的使用,讓數(shù)字挖掘技術(shù)在在線考試系統(tǒng)中能夠更加有效的發(fā)揮其長(zhǎng)處,避免其在在線考試系統(tǒng)中的的缺陷。

          參考文獻(xiàn):

          [1]胡玉榮.基于粗糙集理論的數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的作用[J].荊門職業(yè)技術(shù)學(xué)院學(xué)報(bào),20xx,12(22):12.

          [2][加]韓家煒,堪博(Kam ber M.) .數(shù)據(jù)挖掘:概念與技術(shù)(第2版)[M]范明,譯.北京:機(jī)械工業(yè)出版社,20xx.

          [3]王潔.《在線考試系統(tǒng)的設(shè)計(jì)與開發(fā)》[J].山西師范大學(xué)學(xué)報(bào),20xx(2).

          [4] 王長(zhǎng)娥.數(shù)據(jù)挖掘技術(shù)在教育中的應(yīng)用[J].計(jì)算機(jī)與信息技術(shù),20xx(11)

        數(shù)據(jù)挖掘論文12

          隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,學(xué)術(shù)研究環(huán)境較以前更加開放,對(duì)傳統(tǒng)的科技出版業(yè)提出了開放性、互動(dòng)性和快速性的要求; 因此,以信息技術(shù)為基礎(chǔ)的現(xiàn)代數(shù)字化出版方式對(duì)傳統(tǒng)的科技出版業(yè)產(chǎn)生著深刻的影響。為了順應(yīng)這一趨勢(shì),不少科技期刊都進(jìn)行了數(shù)字化建設(shè),構(gòu)建了符合自身情況、基于互聯(lián)網(wǎng)B /S 結(jié)構(gòu)的稿件處理系統(tǒng)。

          以中華醫(yī)學(xué)會(huì)雜志社為代表的部分科技期刊出版集團(tuán)均開發(fā)使用了發(fā)行系統(tǒng)、廣告登記系統(tǒng)、在線銷售系統(tǒng)以及站。這些系統(tǒng)雖然積累了大量的原始用戶業(yè)務(wù)數(shù)據(jù); 但從工作系統(tǒng)來(lái)看,由于數(shù)據(jù)本身只屬于編輯部的業(yè)務(wù)數(shù)據(jù),因此一旦相關(guān)業(yè)務(wù)工作進(jìn)行完畢,將很少再對(duì)這些數(shù)據(jù)進(jìn)行分析使用。

          隨著目前人工智能和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,研究人員發(fā)現(xiàn)利用最新的數(shù)據(jù)挖掘方法可以對(duì)原始用戶業(yè)務(wù)數(shù)據(jù)進(jìn)行有效分析和學(xué)習(xí),找出其中數(shù)據(jù)背后隱含的內(nèi)在規(guī)律。這些有價(jià)值的規(guī)律和寶貴的經(jīng)驗(yàn)將對(duì)后續(xù)科技期刊經(jīng)營(yíng)等工作提供巨大的幫助。

          姚偉欣等指出,從STM 期刊出版平臺(tái)的技術(shù)發(fā)展來(lái)看,利用數(shù)據(jù)存取、數(shù)據(jù)管理、關(guān)聯(lián)數(shù)據(jù)分析、海量數(shù)據(jù)分析等數(shù)據(jù)挖掘技術(shù)將為科技期刊的出版和發(fā)行提供有力的幫助。通過(guò)使用數(shù)據(jù)挖掘( data mining) 等各種數(shù)據(jù)處理技術(shù),人們可以很方便地從大量不完全且含有噪聲或相對(duì)模糊的實(shí)際數(shù)據(jù)中,提取隱藏在其中有價(jià)值的信息,從而對(duì)后續(xù)科技期刊出版工作起到重要的知識(shí)發(fā)現(xiàn)和決策支持的作用。

          1 數(shù)據(jù)挖掘在科技期刊中應(yīng)用的現(xiàn)狀

          傳統(tǒng)的數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)的處理功能包括增、刪、改、查等。這些技術(shù)均無(wú)法發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的關(guān)聯(lián)和規(guī)則,更無(wú)法根據(jù)現(xiàn)有數(shù)據(jù)對(duì)未來(lái)發(fā)展的趨勢(shì)進(jìn)行預(yù)測(cè),F(xiàn)有數(shù)據(jù)挖掘的任務(wù)可以分為對(duì)數(shù)據(jù)模型進(jìn)行分類或預(yù)測(cè)、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系發(fā)現(xiàn)、異;蚶恻c(diǎn)檢測(cè)以及趨勢(shì)發(fā)現(xiàn)等,但目前國(guó)內(nèi)科技期刊行業(yè)利用數(shù)據(jù)挖掘方法進(jìn)行大規(guī)模數(shù)據(jù)處理仍處在起步階段。張品純等對(duì)中國(guó)科協(xié)所屬的科技期刊出版單位的現(xiàn)狀進(jìn)行分析后發(fā)現(xiàn),中國(guó)科協(xié)科技期刊出版單位多為單刊獨(dú)立經(jīng)營(yíng),單位的規(guī)模較小、實(shí)力較弱,多數(shù)出版單位不具備市場(chǎng)主體地位。這樣就導(dǎo)致國(guó)內(nèi)大部分科技期刊既沒(méi)有能力進(jìn)行數(shù)據(jù)挖掘,也沒(méi)有相應(yīng)的數(shù)據(jù)資源準(zhǔn)備。以數(shù)據(jù)挖掘技術(shù)應(yīng)用于期刊網(wǎng)站為例,為了進(jìn)行深入的數(shù)據(jù)分析,期刊經(jīng)營(yíng)人員需要找到稿件與讀者之間、讀者群體之間隱藏的內(nèi)在聯(lián)系。目前,數(shù)據(jù)挖掘的基本步驟為: 1) 明確數(shù)據(jù)挖掘的`對(duì)象與目標(biāo);2) 確定數(shù)據(jù)源; 3) 建立數(shù)據(jù)模型; 4) 建立數(shù)據(jù)倉(cāng)庫(kù); 5)數(shù)據(jù)挖掘分析; 6) 對(duì)象與目標(biāo)的數(shù)據(jù)應(yīng)用和反饋。

          2 期刊數(shù)據(jù)的資源整合

          編輯部從稿件系統(tǒng)、發(fā)行系統(tǒng)、廣告系統(tǒng)、站等各個(gè)系統(tǒng)中將相關(guān)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和整理,然后加載到數(shù)據(jù)倉(cāng)庫(kù)中。進(jìn)一步,根據(jù)業(yè)務(wù)應(yīng)用的范圍和緊密度,建立相關(guān)數(shù)據(jù)集市。期刊數(shù)據(jù)資源的整合過(guò)程從數(shù)據(jù)體系上可分為數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)處理層和數(shù)據(jù)展現(xiàn)層。

          要獲得能夠適合企業(yè)內(nèi)部多部門均可使用、挖掘和分析的數(shù)據(jù),可以從業(yè)務(wù)的關(guān)聯(lián)性分析數(shù)據(jù)的準(zhǔn)確性、一致性、有效性和數(shù)據(jù)的內(nèi)在關(guān)聯(lián)性。

          3 期刊數(shù)據(jù)的信息挖掘

          信息挖掘?yàn)榱藦牟煌N類和形式的業(yè)務(wù)進(jìn)行抽取、變換、集成數(shù)據(jù),最后將其存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù),并要對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行維護(hù)和管理。數(shù)據(jù)挖掘可以有效地識(shí)別讀者的閱讀行為,發(fā)現(xiàn)讀者的閱讀模式和趨勢(shì),對(duì)網(wǎng)站改進(jìn)服務(wù)質(zhì)量、取得更好的用戶黏稠度和滿意度、提高科技期刊經(jīng)營(yíng)能力有著重要的意義。作為一個(gè)分析推薦系統(tǒng),我們將所分析的統(tǒng)計(jì)結(jié)果存儲(chǔ)于服務(wù)器中,在用戶或決策者需要查詢時(shí),只需輸入要找尋的用戶信息,系統(tǒng)將從數(shù)據(jù)庫(kù)中抽取其個(gè)人信息,并處理返回到上網(wǎng)時(shí)間分布、興趣點(diǎn)所在、適配業(yè)務(wù)及他對(duì)于哪些業(yè)務(wù)是有價(jià)值客戶,甚至包括他在什么時(shí)段對(duì)哪類信息更感興趣等。只有這些信息才是我們的使用對(duì)象所看重和需要的。

          網(wǎng)站結(jié)構(gòu)挖掘是挖掘網(wǎng)站中潛在的鏈接結(jié)構(gòu)模式。通過(guò)分析一個(gè)網(wǎng)頁(yè)的鏈接、鏈接數(shù)量以及鏈接對(duì)象,建立網(wǎng)站自身的鏈接結(jié)構(gòu)模式。在此過(guò)程中,如果發(fā)現(xiàn)某一頁(yè)面被較多鏈接所指向,則說(shuō)明該頁(yè)面信息是有價(jià)值的,值得期刊工作人員做更深層次的挖掘。網(wǎng)站結(jié)構(gòu)挖掘在具體應(yīng)用時(shí)采用的結(jié)構(gòu)和技術(shù)各不相同; 但主要過(guò)程均包括預(yù)處理、模式發(fā)現(xiàn)和模式分析3 部分。為了反映讀者興趣取向,就需要對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)按用戶進(jìn)行抽樣分析,得到興趣點(diǎn)的統(tǒng)計(jì)結(jié)果,而個(gè)人的興趣分析也可基于此思路進(jìn)行。下面以《中華醫(yī)學(xué)雜志》為例做一介紹。

          預(yù)處理預(yù)處理是網(wǎng)站結(jié)構(gòu)挖掘最關(guān)鍵的一個(gè)環(huán)節(jié),其處理得到的數(shù)據(jù)質(zhì)量直接關(guān)系到使用數(shù)據(jù)挖掘和模式分析方法進(jìn)行分析的結(jié)果。預(yù)處理步驟包括數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充和事件識(shí)別。以《中華醫(yī)學(xué)雜志》網(wǎng)站www. nmjc. net. cn 的日志分析為例。首先給出一條已有的Log,其內(nèi)容為“20xx-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML,+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。從Log 的內(nèi)容,工作人員可以得到相關(guān)信息,如用戶IP、用戶訪問(wèn)頁(yè)面事件、用戶訪問(wèn)的頁(yè)面、用戶請(qǐng)求的方法、返回HTTP 狀態(tài)以及用戶瀏覽的上一頁(yè)面等內(nèi)容。

          由于服務(wù)器同時(shí)部署了多個(gè)編輯部網(wǎng)站,這就要求工作人員必須對(duì)得到的訪問(wèn)www. nmjc. net. cn 日志,去除由爬蟲軟件產(chǎn)生的記錄。這些記錄一般都會(huì)在日志結(jié)尾包含“Spider”的字樣。同時(shí),還需要去除不是由GET 請(qǐng)求產(chǎn)生的日志以及請(qǐng)求資源不是頁(yè)面類型的日志。最后,工作人員還需要去除訪問(wèn)錯(cuò)誤的請(qǐng)求,可以根據(jù)日志中請(qǐng)求的狀態(tài)進(jìn)行判斷。一般認(rèn)為,請(qǐng)求狀態(tài)在( 200, 300) 范圍內(nèi)是訪問(wèn)正確的日志,其他如403、400 和500 等都是訪問(wèn)錯(cuò)誤的日志。用戶識(shí)別可以根據(jù)用戶的IP 地址和用戶的系統(tǒng)信息來(lái)完成。只有在IP 地址和系統(tǒng)信息都完全一致的情況下,才識(shí)別為一個(gè)用戶。會(huì)話識(shí)別是利用面向時(shí)間的探索法,根據(jù)超時(shí)技術(shù)來(lái)識(shí)別一個(gè)用戶的多次會(huì)話。如果用戶在一段時(shí)間內(nèi)沒(méi)有任何操作,則認(rèn)為會(huì)話結(jié)束。用戶在規(guī)定時(shí)間后重新訪問(wèn),則被認(rèn)為不屬于此次會(huì)話,而是下次會(huì)話的開始。

          利用WebLogExplore 分析日志、用戶和網(wǎng)頁(yè)信息在獲得了有效的日志數(shù)據(jù)后,工作人員可以利用一些有效數(shù)據(jù)挖掘算法進(jìn)行模式發(fā)現(xiàn)。目前,主要的數(shù)據(jù)挖掘方法有統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、分類、聚類以及序列模式等技術(shù)。本文主要討論利用Apriori 算法來(lái)發(fā)現(xiàn)科技期刊日志數(shù)據(jù)中的關(guān)聯(lián)規(guī)則。本質(zhì)上數(shù)據(jù)挖掘不是用來(lái)驗(yàn)證某個(gè)假定的模式的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型,本質(zhì)是一個(gè)歸納的過(guò)程。支持度( Support) 的公式定義為: Support ( A≥B) = P( A ∪B) 。支持度可以用于度量事件A 與B 同時(shí)出現(xiàn)的概率。如果事件A 與B 同時(shí)出現(xiàn)的概率較小,說(shuō)明事件A 與B 的關(guān)系不大; 如果事件A 與B 同時(shí)出現(xiàn)非常頻繁,則說(shuō)明事件A 與B 總是相關(guān)的。置信度( Confidence) 的公式定義為: Confidence( A≥B) = P( A | B) 。置信度揭示了事件A 出現(xiàn)時(shí),事件B 是否也會(huì)出現(xiàn)或有多大概率出現(xiàn)。如果置信度為100%,則事件A 必然會(huì)導(dǎo)致事件B 出現(xiàn)。置信度太低,說(shuō)明事件A 的出現(xiàn)與事件B 是否出現(xiàn)關(guān)系不大。

          對(duì)所有的科技期刊日志數(shù)據(jù)進(jìn)行預(yù)處理后,利用WebLogExplore 軟件可得到日志匯總表。表中存儲(chǔ)了所有用戶訪問(wèn)網(wǎng)站頁(yè)面的詳細(xì)信息,工作人員可將其導(dǎo)入數(shù)據(jù)庫(kù)中。以查看到所選擇用戶訪問(wèn)期刊頁(yè)面的詳細(xì)信息。

          同樣,在WebLogExplore 軟件中選擇感興趣的頁(yè)面,可以查看所有用戶訪問(wèn)該頁(yè)面的統(tǒng)計(jì)信息,如該頁(yè)面的訪問(wèn)用戶數(shù)量等。工作人員可以對(duì)用戶訪問(wèn)排名較高的頁(yè)面進(jìn)行進(jìn)一步的模式分析。

          步驟1: 將圖2 日志信息匯總表中的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)中,建立日志總表。

          步驟2: 在數(shù)據(jù)庫(kù)中建立一個(gè)新表命名為tj。

          步驟3: 通過(guò)查詢程序得到日志總表中每一個(gè)用戶訪問(wèn)的頁(yè)面,同時(shí)做distinct 處理。

          步驟4: 將查詢得到的用戶訪問(wèn)頁(yè)面記錄進(jìn)行判斷。如果用戶訪問(wèn)過(guò)排名前20 位的某個(gè)頁(yè)面,則在數(shù)據(jù)庫(kù)中寫入true,否則寫入false。依次循環(huán)判斷寫入數(shù)據(jù)庫(kù)中。

          步驟5: 統(tǒng)計(jì)每個(gè)訪問(wèn)排名靠前頁(yè)面的支持度,設(shè)置一維項(xiàng)目集的最小閥值( 10%) 。

          步驟6: 統(tǒng)計(jì)大于一維閥值的頁(yè)面,寫入數(shù)組,并對(duì)數(shù)組內(nèi)部頁(yè)面進(jìn)行兩兩組合,統(tǒng)計(jì)每個(gè)組合2 個(gè)頁(yè)面值均為true 時(shí)的二維項(xiàng)目集的支持度。

          步驟7: 設(shè)置二維項(xiàng)目集支持度的閥值,依次統(tǒng)計(jì)三維項(xiàng)目集支持度和置信度( A≥B) ,即當(dāng)A 頁(yè)面為true 時(shí),統(tǒng)計(jì)B 頁(yè)面為true 的數(shù)量,除以A 為true 的數(shù)量。設(shè)置相應(yīng)的置信度閥值,找到訪問(wèn)排名靠前頁(yè)面之間較強(qiáng)的關(guān)聯(lián)規(guī)則。

          4 數(shù)據(jù)挖掘技術(shù)應(yīng)用的意義

          1) 對(duì)頻繁訪問(wèn)的用戶,可以使用用戶識(shí)別技術(shù)分析此用戶的歷史訪問(wèn)記錄,得到他經(jīng)常訪問(wèn)的頁(yè)面。當(dāng)該用戶再次登錄系統(tǒng)時(shí),可以對(duì)其進(jìn)行個(gè)性化提示或推薦。這樣,既方便用戶使用,也可將系統(tǒng)做得更加友好。很多OA 期刊網(wǎng)站,不具備歷史瀏覽記錄的功能; 但瀏覽記錄對(duì)用戶來(lái)講其實(shí)十分重要,隱含了用戶對(duì)文章的篩選過(guò)程,所以對(duì)用戶經(jīng)常訪問(wèn)的頁(yè)面需要進(jìn)行優(yōu)化展示,不能僅僅提供鏈接地址,需要將文章題名、作者、關(guān)鍵詞等信息以列表的方式予以顯示。

          2) 由數(shù)據(jù)挖掘技術(shù)而產(chǎn)生的頻繁項(xiàng)目集的分析,可以對(duì)網(wǎng)站的結(jié)構(gòu)進(jìn)行改進(jìn)。支持度很高的頁(yè)面,說(shuō)明該頁(yè)面的用戶訪問(wèn)量大。為了方便用戶以及吸引更多的讀者,可以將這些頁(yè)面放置在更容易被訪問(wèn)的位置,科技期刊的網(wǎng)站內(nèi)容一般以年、卷、期的形式展示。用戶如果想查看某一篇影響因子很高的文章,也必須通過(guò)年卷期的方式來(lái)查看,非常不方便而且頁(yè)面友好性不高。通過(guò)數(shù)據(jù)挖掘的分析,編輯部可以把經(jīng)常被訪問(wèn)或者高影響因子的文章放在首頁(yè)展示。

          3) 對(duì)由數(shù)據(jù)挖掘技術(shù)產(chǎn)生的頻繁項(xiàng)目集的分析,可以發(fā)現(xiàn)用戶的關(guān)注熱點(diǎn)。若某些頁(yè)面或項(xiàng)目被用戶頻繁訪問(wèn),則可以用這些數(shù)據(jù)對(duì)用戶進(jìn)行分析。一般來(lái)說(shuō)科技期刊的讀者,每個(gè)人的專業(yè)和研究方向都是不同的,編輯部可以通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)判斷讀者的研究方向和感興趣的熱點(diǎn),對(duì)每一個(gè)用戶進(jìn)行有針對(duì)性的內(nèi)容推送和消息發(fā)送。

          4) 網(wǎng)站管理者可以根據(jù)在不同時(shí)間內(nèi)頻繁項(xiàng)目集的變化情況對(duì)科技期刊網(wǎng)站進(jìn)行有針對(duì)性的調(diào)整,比如加入更多關(guān)于該熱點(diǎn)的主題資源。目前大多數(shù)科技期刊網(wǎng)站首頁(yè)的內(nèi)容,均為編輯部工作人員后臺(tái)添加、置頂、高亮來(lái)吸引用戶的; 通過(guò)數(shù)據(jù)挖掘技術(shù),完全可以擯棄這種展示方式。編輯部網(wǎng)站的用戶訪問(wèn)哪些頁(yè)面頻繁,系統(tǒng)便會(huì)自動(dòng)將這些頁(yè)面的文章推向首頁(yè),不需要編輯部的人工干預(yù),整個(gè)網(wǎng)站實(shí)現(xiàn)自動(dòng)化運(yùn)行。

          5 后記

          本文重點(diǎn)討論了數(shù)據(jù)挖掘技術(shù)與科技期刊網(wǎng)站頁(yè)面之間的關(guān)系。其實(shí)我們還可以從很多方面進(jìn)行數(shù)據(jù)挖掘,比如可以對(duì)網(wǎng)站的用戶和內(nèi)容進(jìn)行數(shù)據(jù)挖掘,通過(guò)分析可以為后期的期刊經(jīng)營(yíng)做好鋪墊。

          有一點(diǎn)很重要,沒(méi)有一種數(shù)據(jù)挖掘的分析方法可以應(yīng)付所有的需求。對(duì)于某一種問(wèn)題,數(shù)據(jù)本身的特性會(huì)影響你的選擇,需要用到許多不同的數(shù)據(jù)挖掘方法以及技術(shù)從數(shù)據(jù)中找到最佳的模型。

          在目前深化文化體制改革,推動(dòng)社會(huì)主義文化大發(fā)展、大繁榮的政治形勢(shì)下,利用數(shù)據(jù)挖掘技術(shù)從中進(jìn)行提取、分析和應(yīng)用,能有效地幫助企業(yè)了解客戶、改進(jìn)系統(tǒng)、制訂合理的市場(chǎng)策略、提高企業(yè)的銷售水平和利潤(rùn)。通過(guò)利用數(shù)據(jù)挖掘技術(shù)準(zhǔn)確定位優(yōu)質(zhì)客戶,向客戶提供更精確、更有價(jià)值的個(gè)性化服務(wù)。這將成為未來(lái)科技期刊經(jīng)營(yíng)十分重要的突破點(diǎn)和增長(zhǎng)點(diǎn)。

        數(shù)據(jù)挖掘論文13

          摘要:數(shù)據(jù)挖掘就是對(duì)潛在的數(shù)據(jù)及數(shù)據(jù)關(guān)聯(lián)進(jìn)行探索和發(fā)現(xiàn)。隨著信息技術(shù)的不斷發(fā)展,這一技術(shù)在電子商務(wù)領(lǐng)域逐漸得到普遍應(yīng)用;诖,本文就數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用進(jìn)行研究,首先就數(shù)據(jù)挖掘中的路徑分析技術(shù)、關(guān)聯(lián)分析技術(shù)、聚類分析技術(shù)和分類分析技術(shù)進(jìn)行簡(jiǎn)要介紹,然后分析數(shù)據(jù)挖掘在電子商務(wù)中的實(shí)際應(yīng)用,從而提高數(shù)據(jù)挖掘技術(shù)的應(yīng)用水平,增強(qiáng)電子商務(wù)的發(fā)展實(shí)力。

          關(guān)鍵詞:數(shù)據(jù)挖掘;電子商務(wù);潛在客戶

          一、數(shù)據(jù)挖掘在電子商務(wù)中的技術(shù)應(yīng)用

          就現(xiàn)階段電子商務(wù)對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用現(xiàn)狀來(lái)看,主要應(yīng)用到的技術(shù)包括以下幾方面內(nèi)容,分別是路徑分析技術(shù)、關(guān)聯(lián)分析技術(shù)、聚類分析技術(shù)和分類分析技術(shù)。就路徑分析技術(shù)來(lái)看,主要對(duì)客戶互聯(lián)網(wǎng)訪問(wèn)路徑的頻繁性進(jìn)行分析,通過(guò)大數(shù)據(jù)采集和處理,了解客戶對(duì)各種網(wǎng)絡(luò)頁(yè)面的喜好程度和特點(diǎn),從而對(duì)自身的設(shè)計(jì)進(jìn)行針對(duì)性的改進(jìn),為客戶提供更加人性化的服務(wù);就關(guān)聯(lián)分析技術(shù)來(lái)看,主要指的是對(duì)隱藏?cái)?shù)據(jù)之間的關(guān)聯(lián)進(jìn)行分析,并且通過(guò)分析掌握其相互關(guān)聯(lián)的規(guī)律,并根據(jù)這一規(guī)律對(duì)網(wǎng)絡(luò)站點(diǎn)的結(jié)構(gòu)進(jìn)行相應(yīng)的改進(jìn),使電子商務(wù)中存在相關(guān)性的商品能夠一起被搜索出來(lái),既為客戶提供便利,同時(shí)提高交叉銷售的幾率;聚類分析技術(shù)指的是根據(jù)數(shù)據(jù)的信息,按照一定的原則對(duì)數(shù)據(jù)進(jìn)行分類。就分類分析技術(shù)而言,主要通過(guò)分析數(shù)據(jù)掌握分類規(guī)則,然后按照這一規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類。

          二、數(shù)據(jù)挖掘在電子商務(wù)中的實(shí)際應(yīng)用

          1.對(duì)潛在客戶進(jìn)行挖掘在電子商務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)能夠?qū)撛诳蛻暨M(jìn)行挖掘。例如商家可以對(duì)網(wǎng)站的日志記錄進(jìn)行分析,探究該記錄中存在的規(guī)律,從而按照這一規(guī)律對(duì)網(wǎng)站的訪問(wèn)客戶進(jìn)行相應(yīng)分類。在分類過(guò)程中,商家應(yīng)該對(duì)客戶屬性和相關(guān)關(guān)系進(jìn)行確定,對(duì)新客戶與老客戶之間存在重疊的屬性進(jìn)行識(shí)別,從而實(shí)現(xiàn)對(duì)訪問(wèn)網(wǎng)站新用戶快速分類,在分類完畢后,商家可以通過(guò)分析新客戶的屬性特點(diǎn),從而對(duì)新客戶進(jìn)行潛在性判斷,如果判斷新客戶可以被作為商家的潛在客戶,就可以為該客戶提供個(gè)性化的頁(yè)面服務(wù),從而將新客戶發(fā)展成為老客戶。2.對(duì)駐留時(shí)間進(jìn)行延長(zhǎng)對(duì)于電子商務(wù)而言,商家必須提高客戶在商品頁(yè)面的駐留時(shí)間,并且使客戶的購(gòu)買興趣和欲望得到激發(fā)。電子商務(wù)與傳統(tǒng)商務(wù)最大的不同在于銷售商具有虛擬性的特點(diǎn),因此客戶在購(gòu)物選擇時(shí),對(duì)銷售商的印象是沒(méi)有差異的。銷售商在不斷提升自身服務(wù)水平的.同時(shí),應(yīng)該對(duì)客戶的瀏覽行為和特點(diǎn)進(jìn)行分析,從而對(duì)客戶的興趣和需求進(jìn)行進(jìn)一步的了解,以此為依據(jù)調(diào)整自身的商品頁(yè)面,用符合客戶需求的廣告和商品文案吸引客戶的駐留時(shí)間,從而提高交易的幾率。3.對(duì)網(wǎng)絡(luò)站點(diǎn)進(jìn)行優(yōu)化電子商務(wù)主要依托于網(wǎng)站,因此網(wǎng)站優(yōu)化也是提高電子商務(wù)發(fā)展水平的有效措施。利用數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)站點(diǎn)進(jìn)行優(yōu)化主要由兩方面構(gòu)成,一方面是對(duì)存在相關(guān)性的網(wǎng)頁(yè)進(jìn)行鏈接設(shè)計(jì)。例如對(duì)用戶瀏覽頁(yè)面的幾率和特點(diǎn)進(jìn)行分析,然后找出存在相關(guān)性的頁(yè)面,增加網(wǎng)頁(yè)鏈接這一功能,使客戶的搜索更加便捷;另一方面是對(duì)客戶的期望位置進(jìn)行探索,例如對(duì)用戶頻率較高的訪問(wèn)位置進(jìn)行分析,從而將頻率較高的位置設(shè)置為客戶的期望位置,并且在實(shí)際位置與期望位置間建立鏈接。另外,可以對(duì)用戶的網(wǎng)頁(yè)瀏覽習(xí)慣和信息喜好進(jìn)行分析,強(qiáng)化用戶在網(wǎng)頁(yè)中的自助服務(wù),例如將網(wǎng)頁(yè)信息參照超市模式進(jìn)行擺放,根據(jù)相關(guān)性分類,使用戶能夠通過(guò)自主瀏覽選擇到心儀的產(chǎn)品,從而提高交易的幾率。4.對(duì)營(yíng)銷手段進(jìn)行改進(jìn)在電子商務(wù)的實(shí)際運(yùn)營(yíng)過(guò)程中,很多客戶都會(huì)在購(gòu)買一種物品時(shí)同時(shí)選擇具有相關(guān)性的其他物品,因此銷售商應(yīng)該對(duì)銷售方式進(jìn)行改進(jìn),利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)交叉銷售,從而提高營(yíng)銷水平。在應(yīng)用交叉銷售這一手段時(shí),主要應(yīng)該利用數(shù)據(jù)挖掘技術(shù),對(duì)客戶的喜好進(jìn)行分析,從而提供具有針對(duì)性的商品。

          參考文獻(xiàn):

          [1]姜寧,牛永潔.Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用——以淘寶網(wǎng)為例[J].計(jì)算機(jī)時(shí)代,20xx(7):49-52.

          [2]王紅玉.數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用[J].電腦編程技巧與維護(hù),20xx(3):49-51.

        數(shù)據(jù)挖掘論文14

          一、數(shù)據(jù)挖掘相關(guān)概念

          數(shù)據(jù)挖掘技術(shù)是近些年發(fā)展起來(lái)的一門新興學(xué)科,它涉及到數(shù)據(jù)庫(kù)和人工智能等多個(gè)領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的普及數(shù)據(jù)庫(kù)產(chǎn)生大量數(shù)據(jù),能夠從這些大量數(shù)據(jù)中抽取出有價(jià)值信息的技術(shù)稱之為數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘方法有統(tǒng)計(jì)學(xué)方法、關(guān)聯(lián)規(guī)則挖掘、決策樹方法、聚類方法等八種方法,關(guān)聯(lián)規(guī)則是其中最常用的研究方法。關(guān)聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數(shù)據(jù)中挖掘出有價(jià)值的能夠揭示實(shí)體和數(shù)據(jù)項(xiàng)間某些隱藏的聯(lián)系的有關(guān)知識(shí),其中描述關(guān)聯(lián)規(guī)則的兩個(gè)重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當(dāng)Support和Confidence兩者都較高的關(guān)聯(lián)規(guī)則才是有效的、需要進(jìn)一步進(jìn)行分析和應(yīng)用的規(guī)則。

          二、使用Weka進(jìn)行關(guān)聯(lián)挖掘

          Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費(fèi)的、非商業(yè)化的、基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來(lái)探索數(shù)據(jù)環(huán)境的,Experimenter是對(duì)各種實(shí)驗(yàn)計(jì)劃進(jìn)行數(shù)據(jù)測(cè)試,KnowledgeFlow和Explorer類似,但該模塊通過(guò)其特殊的接口可以讓使用者通過(guò)拖動(dòng)的形式去創(chuàng)建實(shí)驗(yàn)方案,Simple-CLI為簡(jiǎn)單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來(lái)進(jìn)行。

         。ㄒ唬⿺(shù)據(jù)預(yù)處理

          數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進(jìn)行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎(jiǎng)總分、科研立項(xiàng)總分、科研總得分更有利于數(shù)據(jù)挖掘計(jì)算,在這里我們將以上得分分別確定分類屬性值。

          (二)數(shù)據(jù)載入

          點(diǎn)擊Explorer進(jìn)入后有四種載入數(shù)據(jù)的方式,這里采用第一種Openfile形式。由于Weka所支持的標(biāo)準(zhǔn)數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個(gè)文件并重新保存為arff文件格式來(lái)實(shí)現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)對(duì)數(shù)據(jù)表中與本次數(shù)據(jù)任務(wù)不相關(guān)的屬性進(jìn)行移除,只將學(xué)歷、職稱、論文等級(jí)、學(xué)術(shù)著作等級(jí)、科研獲獎(jiǎng)等級(jí)、科研立項(xiàng)等級(jí)、科研總分等級(jí)留下。

         。ㄈ╆P(guān)聯(lián)挖掘與結(jié)果分析

          WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標(biāo)簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設(shè)為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設(shè)為1,在“metiricType”的參數(shù)值選項(xiàng)中選擇lift選項(xiàng),將“minMetric”參數(shù)值設(shè)為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設(shè)為10,其它選項(xiàng)保存默認(rèn)值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過(guò)1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。

          三、挖掘結(jié)果與應(yīng)用

          以上是針對(duì)教師基本情況和科研各項(xiàng)總分進(jìn)行的反復(fù)的數(shù)據(jù)挖掘工作,從挖掘結(jié)果中找到最佳模式進(jìn)行匯總。以下列出了幾項(xiàng)作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。

          1、科研立項(xiàng)得分與論文、科研總得分關(guān)聯(lián)度高,即科研立項(xiàng)為A級(jí)的論文也一定是A。這與實(shí)際也是相符的,因?yàn)榭蒲辛㈨?xiàng)得A的教師應(yīng)該是主持了省級(jí)或是國(guó)家級(jí)的立項(xiàng)的同時(shí)也參與了其他教師的科研立項(xiàng),在課題研究的`過(guò)程中一定會(huì)有國(guó)家級(jí)論文或者省級(jí)論文進(jìn)行發(fā)表來(lái)支撐立項(xiàng),所以這類教師的論文得分也會(huì)很高。針對(duì)這樣的結(jié)果,在今后的科研工作中,科研處要鼓勵(lì)和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質(zhì)上的幫助,這樣在很大程度上能夠帶動(dòng)整個(gè)學(xué)?蒲泄ぷ鞯倪M(jìn)展。

          2、副教授類的教師科研立項(xiàng)得分很高,而講師類教師和助教類教師的科研立項(xiàng)得分很低,這樣符合實(shí)際情況。因?yàn)楦苯淌陬惖慕處熡幸欢ǖ慕虒W(xué)經(jīng)驗(yàn),并且很多副教授類的教師還想晉職稱,所以大多數(shù)副教授類教師都會(huì)申請(qǐng)一些課題。而對(duì)于講師類和助教類的教師,由于教學(xué)經(jīng)驗(yàn)不足很少能進(jìn)行省級(jí)以上的課題研究,因此這兩類教師的科研立項(xiàng)分?jǐn)?shù)不高。針對(duì)這樣的結(jié)果,在今后的科研工作中,科研處可以采用一幫一、結(jié)對(duì)子的形式來(lái)幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學(xué)能力。

          3、講師類教師的論文等級(jí)不高。從論文得分能夠推斷出講師類教師所發(fā)表論文的級(jí)別不高。為了鼓勵(lì)這類教師的論文發(fā)表,在今后的科研量化工作中對(duì)省級(jí)、國(guó)家級(jí)的論文級(jí)別進(jìn)行細(xì)化,并且降低一般論文的得分權(quán)重,加大高級(jí)論文的得分權(quán)重。并且鼓勵(lì)講師類教師參加假期培訓(xùn),提高自身的科研和教學(xué)水平。

        數(shù)據(jù)挖掘論文15

          摘要:近年來(lái),數(shù)據(jù)庫(kù)挖掘技術(shù)的普遍應(yīng)用,使數(shù)據(jù)價(jià)值實(shí)現(xiàn)最大化,在我國(guó)金融、商業(yè)、市場(chǎng)營(yíng)銷等領(lǐng)域得到廣泛應(yīng)用。然而在我國(guó)高校管理中并沒(méi)有得到推廣,為使高校管理系統(tǒng)中的數(shù)據(jù)充分發(fā)揮應(yīng)有價(jià)值,在該系統(tǒng)中使用數(shù)據(jù)庫(kù)挖掘技術(shù)意義深遠(yuǎn)。本文首先介紹了數(shù)據(jù)挖掘技術(shù)的流程,然后在教師教學(xué)質(zhì)量評(píng)估中應(yīng)用數(shù)據(jù)庫(kù)挖掘技術(shù),充分證明數(shù)據(jù)庫(kù)挖掘技術(shù)在高校管理中能發(fā)揮重大作用。

          關(guān)鍵詞:管理 決策 數(shù)據(jù)挖掘技術(shù)

          當(dāng)前,大部分高校都擁有配套的管理系統(tǒng),該系統(tǒng)具備海量數(shù)據(jù)儲(chǔ)存和管理功能,徹底告別了手工記錄信息和數(shù)據(jù)的年代。不但節(jié)約了紙張,更有效提高了高校管理數(shù)據(jù)和信息的效率。然而我國(guó)高校沒(méi)有有效利用應(yīng)用數(shù)據(jù)挖掘技術(shù),因此研究數(shù)據(jù)庫(kù)挖掘技術(shù)在高校管理中的應(yīng)用十分必要。

          1數(shù)據(jù)挖掘技術(shù)的流程

          數(shù)據(jù)挖掘技術(shù)能夠?qū)⒑A繑?shù)據(jù)展開分析和處理,再把整體數(shù)據(jù)庫(kù)中存在規(guī)律的數(shù)據(jù)整合起來(lái),實(shí)施該技術(shù)主要包括以下五個(gè)環(huán)節(jié)。目標(biāo)定義:該環(huán)節(jié)中要與有關(guān)領(lǐng)域的背景知識(shí)相結(jié)合,清晰、精確的定義出數(shù)據(jù)挖掘目標(biāo)。數(shù)據(jù)準(zhǔn)備:在該環(huán)節(jié)中要搜集、選取數(shù)據(jù)源中的數(shù)據(jù),處理已選數(shù)據(jù),將其轉(zhuǎn)換為適合數(shù)據(jù)挖掘的形態(tài)。數(shù)據(jù)挖掘:該環(huán)節(jié)是數(shù)據(jù)挖掘技術(shù)的核心,即采用關(guān)聯(lián)規(guī)則法、分類分析法等各種數(shù)據(jù)挖掘方法把數(shù)據(jù)中隱藏的知識(shí)和規(guī)律發(fā)掘出來(lái)。結(jié)果表示:在該環(huán)節(jié)中可以以用戶需求為依據(jù),將挖掘出來(lái)的知識(shí)和規(guī)律轉(zhuǎn)變?yōu)橛脩裟芙邮芎屠斫獾男螒B(tài)。知識(shí)吸收:該環(huán)節(jié)中,主要是把挖掘結(jié)果與指定領(lǐng)域中的需求相結(jié)合,在該領(lǐng)域中應(yīng)用發(fā)掘出來(lái)的結(jié)果,為決策者提供知識(shí),是數(shù)據(jù)挖掘的終極目標(biāo)。

          2數(shù)據(jù)挖掘技術(shù)在教學(xué)質(zhì)量評(píng)估中的應(yīng)用

          2。1運(yùn)用關(guān)聯(lián)規(guī)則法挖掘數(shù)據(jù)庫(kù)中的信息

          評(píng)估老師教學(xué)質(zhì)量不但是評(píng)定教學(xué)效果的重要部分,也是評(píng)定教師職稱的重要根據(jù),因此是高校管理工作中不可或缺的.部分。目前評(píng)估教學(xué)質(zhì)量的主要措施是搜集、統(tǒng)計(jì)學(xué)生的成績(jī)和以及對(duì)老師的評(píng)價(jià),然后加權(quán)算出老師的總得分,作為評(píng)估該老師教學(xué)質(zhì)量指標(biāo)。這種方法非但不科學(xué),其權(quán)威性也較低,因此需要深挖數(shù)據(jù)的相關(guān)性,本文采用了數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)法挖掘數(shù)據(jù)中的規(guī)律和知識(shí),為評(píng)估老師教學(xué)質(zhì)量提供有力根據(jù)。運(yùn)用關(guān)聯(lián)規(guī)則法挖掘數(shù)據(jù),其規(guī)則方法為“XY,置信度為c%,,支持度為s%”。關(guān)聯(lián)規(guī)則中置信度為c%:在整體事件D集合中,如果既能夠符合事件X中擁有c%的需求,也能夠符合Y的要求。那么就用置信度來(lái)表示關(guān)聯(lián)規(guī)則的強(qiáng)度,被記錄為confidence(XY),置信度最小值用minConf來(lái)表示,通常置信度最小數(shù)值由客戶提供。關(guān)聯(lián)規(guī)則中置信度為s%:在整體事件D集合中,如果既能夠符合事件Y中的s%的需求,又能夠符合X要求。用支持度來(lái)表示關(guān)聯(lián)規(guī)則的頻度,把支持度的最小數(shù)記錄用minsup(X)來(lái)表示,通常支持度最小數(shù)值由客戶提供。頻繁項(xiàng)集合:當(dāng)X項(xiàng)集的支持度大于等于用戶設(shè)定好的最小支持度時(shí),那么頻繁項(xiàng)集是X。通常關(guān)聯(lián)規(guī)則包含兩個(gè)環(huán)節(jié):①把全部頻繁項(xiàng)集從整體事件集中選出;②運(yùn)用頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。在這兩個(gè)環(huán)節(jié)中關(guān)聯(lián)規(guī)則效果和性能是否良好取決于第一個(gè)環(huán)節(jié)。

          2。2關(guān)聯(lián)規(guī)則分析在評(píng)估教學(xué)質(zhì)量中的運(yùn)用

          第一步是準(zhǔn)備數(shù)據(jù)期,在某大學(xué)的教學(xué)管理系統(tǒng)中將五百條與教學(xué)評(píng)價(jià)有關(guān)的記錄從數(shù)據(jù)庫(kù)中隨機(jī)抽取,并挑選出老師編號(hào)、學(xué)歷、性別、教齡、評(píng)估分和職稱這六個(gè)屬性,并將相關(guān)數(shù)據(jù)從數(shù)據(jù)庫(kù)中提取。比如把講師、副教授和教授等職稱轉(zhuǎn)化成11、01、00等編碼,表1就是制定的評(píng)價(jià)教師教學(xué)記錄表。第二步采用關(guān)聯(lián)規(guī)則分析法把90分以上評(píng)價(jià)分?jǐn)?shù)作為檢索目標(biāo)和判斷標(biāo)準(zhǔn),也就是將≥90分作為判斷是否是高教學(xué)質(zhì)量闕值。通過(guò)檢索有143條記錄符合標(biāo)準(zhǔn),即設(shè)定最小的支持度為10%,置信度則為15%,得出下表2的關(guān)聯(lián)規(guī)則。最后一步評(píng)價(jià)本次實(shí)驗(yàn)的結(jié)果。由上表得知,學(xué)生喜歡男老師和女老師的程度大致相同;學(xué)歷愈高的老師,給予他們的教學(xué)評(píng)價(jià)也就愈高,即學(xué)歷和教學(xué)評(píng)價(jià)成正比,這也說(shuō)明了學(xué)歷高的老師其基本功與學(xué)歷低的老師相比,前者基本功更為穩(wěn)固,也有較高的科學(xué)研究水平;有較長(zhǎng)教齡和較高職稱的老師,其教學(xué)質(zhì)量也越高;此外,在支持度中可以看出,高校教授和高學(xué)歷人才越多,說(shuō)明其辦學(xué)能力也就越高。

          3結(jié)語(yǔ)

          高校管理系統(tǒng)作為教學(xué)信息化的重要舉措,只是起到搜集和儲(chǔ)存海量教學(xué)信息的作用,并沒(méi)有挖掘出海量數(shù)據(jù)之間的相關(guān)性,而在本文中把關(guān)聯(lián)規(guī)則法運(yùn)用在教師教學(xué)質(zhì)量評(píng)估中,在數(shù)據(jù)中挖掘有價(jià)值的知識(shí)和規(guī)律,使評(píng)估教師教學(xué)質(zhì)量更具有科學(xué)性,因此在高校管理中全面應(yīng)用數(shù)據(jù)挖掘技術(shù),能為高校深化教學(xué)改革提供新的契機(jī)。

          參考文獻(xiàn)

          [1]江敏,徐艷。數(shù)據(jù)挖掘技術(shù)在高校教學(xué)管理中的應(yīng)用[J]。電腦知識(shí)與技術(shù),20xx,(24):541—545+560。

          [2]楊雪霞。數(shù)據(jù)挖掘技術(shù)在高校圖書館管理系統(tǒng)中的應(yīng)用研究[J]。軟件,20xx(04):16—18。

        【數(shù)據(jù)挖掘論文】相關(guān)文章:

        數(shù)據(jù)挖掘論文07-15

        數(shù)據(jù)挖掘論文07-16

        旅游管理下數(shù)據(jù)挖掘運(yùn)用論文11-18

        旅游管理下數(shù)據(jù)挖掘運(yùn)用論文6篇11-18

        旅游管理下數(shù)據(jù)挖掘運(yùn)用論文(6篇)11-18

        旅游管理下數(shù)據(jù)挖掘運(yùn)用論文(匯編6篇)11-18

        旅游管理下數(shù)據(jù)挖掘運(yùn)用論文(集合6篇)11-18

        數(shù)據(jù)挖掘工程師的職責(zé)內(nèi)容02-23

        數(shù)據(jù)挖掘工程師工作的職責(zé)01-21

        99热这里只有精品国产7_欧美色欲色综合色欲久久_中文字幕无码精品亚洲资源网久久_91热久久免费频精品无码
          1. <rp id="zsypk"></rp>