<rp id="zsypk"></rp>

數(shù)據(jù)信息與知識論文

時間：2021-06-13 10:15:43 論文我要投稿

數(shù)據(jù)信息與知識論文

　　一、人類社會三大要素

數(shù)據(jù)信息與知識論文

　　人類社會三大要素(能源材料和信息)中，信息愈來愈顯示出其重要性和支配力，它將人類社會由工業(yè)化時代推向信息化時代，使現(xiàn)代社會所有大的機構(gòu)都卷入到以數(shù)據(jù)及其處理(數(shù)據(jù)搜集存儲檢索傳送分析和表示）的浪潮中。而隨著人類活動范圍擴展，節(jié)奏加快，以及技術(shù)的進步，人們能以更快速較易而廉價的方式獲取和存儲數(shù)據(jù)，這就使得數(shù)據(jù)和信息量以指數(shù)形式向上增長。早在八十年代，人們粗略地估算到全球信息量，每隔20個月就增加班一倍。進入九十年代，各類機構(gòu)所有數(shù)據(jù)庫數(shù)據(jù)量增長更快。一個不大的企業(yè)每天要產(chǎn)生100MB以上來自各方面的營業(yè)數(shù)據(jù)。美國政府部門的一個典型的大數(shù)據(jù)庫每天要接收約5TP數(shù)據(jù)量，在15秒到1分鐘時間里，要維持的數(shù)據(jù)量達到300TB，存檔數(shù)據(jù)達15-100PB。在科研方面，以美國宇航局的數(shù)據(jù)庫為例，每天從衛(wèi)星下載的數(shù)據(jù)量就達3-4TB之多，而為了研究的需要，這些數(shù)據(jù)要保存七年之久。九十年代因特網(wǎng)（Internet）的出現(xiàn)和發(fā)展，以及隨之而來的企業(yè)內(nèi)部網(wǎng)（Intranet）和企業(yè)外部網(wǎng)（Extranet）以及虛擬私有網(wǎng)（V P N--Virtual Private network）的產(chǎn)生和應(yīng)用，將整個世界聯(lián)成一個小小的地球村，人們可以跨越時空地在網(wǎng)上交換信息和協(xié)同工作。這樣，展現(xiàn)在人們面前的已不是局限于本部門，本單位和本行業(yè)的龐大數(shù)據(jù)庫，而是浩瀚無垠的信息海洋。據(jù)估計，1993年面全球數(shù)據(jù)存貯容量約為二千TP，到達2000年會增加到三百萬TB，對這極度膨脹的數(shù)據(jù)信息量，人們受到“信息爆炸”“混沌信息空間”（Information Chaotic Spact）和“數(shù)據(jù)過剩”（Data glut)的巨大壓力。

　　然而，人類的各項活動基于人類的智慧和知識，即對外部世界的觀察和了解，正確的判斷和決策以及采取正確的行動，而數(shù)據(jù)僅僅是人們用各種工具和手段觀察外部世界所得到的原始材料，它本身沒有任何意義。從數(shù)據(jù)到智慧，要經(jīng)過分析加工處理精煉的過程。如圖1所示：數(shù)據(jù)是原材料，它只是描述發(fā)生了什么事情，它不提供判斷或解釋，和行動的可靠基礎(chǔ)。人們對數(shù)據(jù)進行分析找出其中關(guān)系，賦予數(shù)據(jù)以某種意義和關(guān)聯(lián)，這就形成所謂信息。信息雖給出了數(shù)據(jù)中一些有一定意義的東西，但它往往和人們手上的任務(wù)沒有什么關(guān)聯(lián)，還不能做為判斷決策和行動的依據(jù)。對信息進行再加工，進行深入洞察，才能獲得更有用可資利用的信息，即知識.所謂知識，可以定義為“信息塊中的一組邏輯聯(lián)系，其關(guān)系是通過上下文或過程的貼近度發(fā)現(xiàn)的。”從信息中理解其模式，即形成知識。在大量知識積累基礎(chǔ)上，總結(jié)成原理和法則，就形成所謂智慧(Wisdom）.其實，一部分人類文明發(fā)展史，就是在各種活動中知識的創(chuàng)造交流再創(chuàng)造不斷積累的螺旋式上升的歷史。另一方面，計算機與信息技術(shù)的發(fā)展，加速了這種過程，據(jù)德國世界報的資料分析，如果說19世紀時科學定律（包括新的化學分子式，新的物理關(guān)系和新的醫(yī)學認識）的認識數(shù)量一百年增長一倍，到本世紀60年代中期以后，每五年就增加一倍。這其中知識起著關(guān)鍵的作用。當數(shù)據(jù)量極度增長時,如果沒有有效的方法,由計算機及信息技術(shù)來提取有用信息和知識，也感到像大海撈針一樣束手無策。據(jù)估計，一個大型企業(yè)數(shù)據(jù)庫中數(shù)據(jù)，只有百分之七得到很好應(yīng)用.這樣，相對于“數(shù)據(jù)過剩” 和“信息爆炸”,人們又感到“信息貧乏”（Information poor)"數(shù)據(jù)關(guān)在牢籠中”(data in jail).

　　二從數(shù)據(jù)到知識

　　早在八十年代，人們從“物競天擇適者生存”的大原則下，認識到“誰最先從外部世界獲得有用信息并加以利用誰就是優(yōu)勝者”。現(xiàn)時當市場經(jīng)濟面向全球性劇烈競爭的環(huán)境下，一家廠商的優(yōu)勢不在于像產(chǎn)品服務(wù) 地區(qū)等方面因素，而在于創(chuàng)新。用知識來作為創(chuàng)新的原動力，就能使公司長期持續(xù)保持競爭優(yōu)勢。因此要能及時迅速從日積月累的龐大的數(shù)據(jù)庫及網(wǎng)絡(luò)上獲取有關(guān)經(jīng)營決策有關(guān)知識，這是應(yīng)付客戶需求易變性及市場快速變化引起競爭激烈局面的唯一武器。

　　針對上述情況，如何對數(shù)據(jù)與信息快速有效地進行分析加工提煉以獲取所需知識并發(fā)揮其作用，向計算機和信息技術(shù)領(lǐng)域提出了新的挑戰(zhàn)。其實計算機和信息技術(shù)發(fā)展的過程，也是數(shù)據(jù)和信息加工手段不斷更新和改善的過程。早年受技術(shù)條件限制，一般用人工方法進行統(tǒng)計分析，和用批處理程序進行匯總和提出報告.在當時市場情況下，月度和季度報告已能滿足決策所需信息要求。隨著數(shù)據(jù)量的增長，多渠道數(shù)據(jù)源帶來各種數(shù)據(jù)格式的不相容性，為了便于獲得決策所需信息，就有必要將整個機構(gòu)內(nèi)的數(shù)據(jù)以統(tǒng)一形式集成存儲在一起,這就是所謂數(shù)據(jù)倉庫（data Warehousing).它不同于只適用于日常工作的數(shù)據(jù)庫.它是為了便于分析針對一定主

　　題（Subject-oriented）的集成化的時變的（time-Variant即提供存貯5-10或更老的數(shù)據(jù)，這些數(shù)據(jù)不再更新，供比較以求出趨向及預測用）非破壞性（即只容易輸入和訪問不容許更新和改變）的數(shù)據(jù)集中場所。數(shù)據(jù)倉庫的出現(xiàn)，為更深入對數(shù)據(jù)進行分析提供了條件，針對市場變化的加速人們提出了能實時分析和報表的在線分析手段OLAP（On Line Analytical Processing），它是一種友好而靈活的工具，它能允許用戶以交互方式瀏覽數(shù)據(jù)倉庫對其中數(shù)據(jù)進行多維分析，能及時地從變化和不太完整的數(shù)據(jù)中提出與企業(yè)經(jīng)營動作有關(guān)的信息。例如能對數(shù)據(jù)中的異常和變化行為進行了解，OLAP是數(shù)據(jù)分析手段的一大進步，以往的分析工具所得到的報告結(jié)果能回答“什么”（What），而OLAP的分析結(jié)果能回答“為什么”（Why）。但上述分析手段是建立在用戶對深藏在數(shù)據(jù)中的某種知識有預感和假設(shè)的前提下。而由于數(shù)據(jù)倉庫（通常數(shù)據(jù)貯藏量以TB計）及聯(lián)網(wǎng)界面上的數(shù)據(jù)來源于多種信息源，因此其中埋藏著豐富的不為用戶所知的有用信息和知識，而要使企業(yè)能及時迅速準確地作出經(jīng)營動作的決策，以適應(yīng)變化迅速的市場環(huán)境，就需要有一種基于計算機與信息技術(shù)的智能化自動工具，來發(fā)掘埋藏在數(shù)據(jù)中的各類知識。這種手段不應(yīng)再基于用戶假設(shè)，而應(yīng)能自身生成多種多種假設(shè)，再用數(shù)據(jù)倉庫或聯(lián)網(wǎng)的數(shù)據(jù)進行檢驗和驗證，然后返回對用戶最有用的結(jié)果。同時這種工具還應(yīng)能適應(yīng)現(xiàn)實世界中數(shù)據(jù)的多種特性（即量大含噪聲不完整動態(tài) 稀疏性異質(zhì) 非線性等）。要達到上述要求，只借助于一般數(shù)學分析和算法是無能為力的。多年來，數(shù)理統(tǒng)計技術(shù)以及人工智能和知識工程等領(lǐng)域的研究成果，諸如推理歸納學習機器學習知識獲取模糊理論神經(jīng)元網(wǎng)絡(luò) 進化算法模式識別粗糙集理論等等分支給開發(fā)上述工具提供了堅實而豐富的理論和技術(shù)基礎(chǔ)。九十年代中期以來，許多軟件開發(fā)商，基于上述技術(shù)和市場需求,開發(fā)了名目繁多的數(shù)據(jù)發(fā)掘(DM--Data Mining)和知識發(fā)現(xiàn)(KDD--Discovery from Data）工具和軟件，DM和KDD形成了近年來軟件開發(fā)市場的熱點，并且已不斷出現(xiàn)成套軟件和系統(tǒng)，并開始朝智能化整體解決方案發(fā)展，這是從數(shù)據(jù)到知識前進過程中又一個里程碑。

　　從數(shù)據(jù)中獲取有用信息或知識，是一個完整的對數(shù)據(jù)進行加工處理的過程。如圖3所示，其中DM是關(guān)鍵的一步。挑選：按一定的標準從數(shù)據(jù)源中挑選或切取一組數(shù)據(jù)，形成目標數(shù)據(jù)。凈化和預處理：將不必要或影響分析進程的部分數(shù)據(jù)刪去。轉(zhuǎn)換：將預處理后的數(shù)據(jù)進行某些轉(zhuǎn)換使之成為可用和可導引的數(shù)據(jù)。數(shù)據(jù)發(fā)掘：這是關(guān)鍵的階段，從數(shù)據(jù)中抽取出信息的模式。所謂模式，可以作如下定義：給定一組事實（數(shù)據(jù)）F，一種語言L，和某種可信度測量C，模式就是一種用L的描述方式S，它以可信度C對F的一個子集Fs各事實間的關(guān)系進行描述，這種描述在某種意義上比枚舉Fs中所有事實上要簡單得多。解釋賦義或可視化：將模式解釋為可以支持決策的知識，例如預測分類匯總數(shù)據(jù)內(nèi)容和解釋所觀察到的現(xiàn)象等。上述階段之間也許還需要某種迭代分析.(見圖3)從上述過程可以看出,從數(shù)據(jù)中獲取知識是涉及多個領(lǐng)域內(nèi)技術(shù)融合的綜合應(yīng)用（見圖4）

　　數(shù)據(jù)庫模式識別

　　技術(shù)

　　機器學可視化

　　習技術(shù) 技術(shù)

　　AI技術(shù) 統(tǒng)計學

　　圖4 DM(KDD)與相關(guān)技術(shù)

　　三 KDD（DM）的任務(wù) 技術(shù)和應(yīng)用

　　利用DM（KDD）技術(shù)可以完成多項決策所需任務(wù)，但大致可分為下述幾方面：預測：從事例中求得模式，構(gòu)造模型以預測目標度量。分類：找出一函數(shù)能使每事例映射到某種離散類別之一。查出關(guān)系：搜索到對某選定目標變量最有影響的其它獨立變量。顯式模型：找出描述不同變量間依賴關(guān)系的顯式公式。聚類：認定出描述數(shù)據(jù)的類別的有限分組。偏離檢測：從數(shù)據(jù)已有或期望值中找出某些關(guān)鍵測度顯著的變化。

　　由于上述任務(wù)的不同，就需要采用不同的技術(shù)方法和手段，因而在市面也出現(xiàn)種類繁多的商品工具和軟件。大致可以歸納為下列主要類型：

　　傳統(tǒng)主觀導向系統(tǒng)：這是針對專業(yè)領(lǐng)域應(yīng)用的系統(tǒng)。如基于技術(shù)分析方法對金融市場進行分析。采用的方法從簡單的走向分析直到基于高深數(shù)學基礎(chǔ)的分形理論和譜分析。這種技術(shù)需要有經(jīng)驗模型為前提.屬于這類商品有美國的Metastak,SuperCharts,Candlestick Forecaster 和Wall Street Money等

　　傳統(tǒng)統(tǒng)計分析：這類技術(shù)包括相關(guān)分析回歸分析及因子分析等。一般先由用戶提供假設(shè),再由系統(tǒng)利用數(shù)據(jù)進行驗證。缺點是需經(jīng)培訓后才能使用，同時在數(shù)據(jù)探索過程中，用戶需要重復進行一系列操作。屬于這類商品有美國的SAS,SPSS和Stargraphis等。由于近年來更先進的DM方法的出現(xiàn)和使用，這些廠商在原有系統(tǒng)中綜合一些DM部件，以獲得更完善的功能。

　　以上兩種技術(shù)主要基于傳統(tǒng)的數(shù)理統(tǒng)計等數(shù)學的基礎(chǔ)上，一般早已開始用于數(shù)據(jù)分析方面。

　　神經(jīng)元網(wǎng)絡(luò)（NN）技術(shù)：神經(jīng)元網(wǎng)絡(luò)技術(shù)是屬于軟計算（Soft Computing)領(lǐng)域內(nèi)一種重要方法，它是多年來科研人員進行人腦神經(jīng)學習機能模擬的成果，已成功地應(yīng)用于各工業(yè)部門。在DM（KDD）的應(yīng)用方面,當需要復雜或不精確數(shù)據(jù)中導出概念和確定走向比較困難時，利用神經(jīng)網(wǎng)絡(luò)技術(shù)特別有效。經(jīng)過訓練后的NN可以想像具有某種專門知識的“專家”，因此可以像人一樣從經(jīng)驗中學習。NN有多種結(jié)構(gòu)，但最常用的是多層BP（back propagation）模型。它已廣泛地應(yīng)用于各種DM（KDD）工具和軟件中。有些是以NN為主導技術(shù)，例如俄羅斯的PolyAnalyst,美國的BrainMaker,Neurosell和OWL等。NN技術(shù)也已廣泛地做為一種方法嵌入各種DM成套軟件中。其缺點是用它來分析復雜的系統(tǒng)諸如金融市場，NN就需要復雜的結(jié)構(gòu)為數(shù)眾多神經(jīng)元以及連接數(shù)，從而使現(xiàn)有的事例數(shù)（不同的紀錄數(shù)）無法滿足訓練的需要。另外由受訓后的NN所代表的預測模型的非透明性也是其缺點，盡管如此，它還是廣泛而成功地為各種金融應(yīng)用分析系統(tǒng)所采用。

　　決策樹：在知識工程領(lǐng)域，決策樹是一種簡單的知識表示方法，它將事例逐步分類成代表不同的類別。由于分類規(guī)則是比較直觀的，因而比較易于理解，雖然在機器獲取領(lǐng)域內(nèi)，多年來已研制出不少實施決策樹的有效算法（如ID3及其改進算法等）。但這種方法限于分類任務(wù)。在系統(tǒng)中采用這種方法的有美國的IDIS，法國的SIPINA。英國的Clementinc和澳大利亞的C5.0。

　　進化式程序設(shè)計（Evolutionary programming）：這種方法的獨特思路是：系統(tǒng)自動生成有關(guān)目標變量對其他多種變量依賴關(guān)系的務(wù)種假設(shè)，并形成以內(nèi)部編程語言表示的程序。內(nèi)部程序（假設(shè)）的產(chǎn)生過程是進化式的，類似于遺傳算法過程。當系統(tǒng)找到較好地描述依賴關(guān)系的一個假設(shè)時，就對這程序進行各種不同的微小修正，生成子程序組，再在其中選擇能更好地改進預測精度的子程序，如此依次進行，最后獲得達到所需精度的最好程序時，由系統(tǒng)的專有模塊將所找到的依賴關(guān)系由內(nèi)部語言形式轉(zhuǎn)換成易于為人們理解的顯式形式，如數(shù)學公式，預測表等。由于采用通用編程語言，這種主法在原則上能保證任何一種依賴關(guān)系和算法都能用這種語言來描述。這種方法也許是目前最年青的和最有前途的DN方法之一。這種是方法的商用產(chǎn)品還只見諸俄羅斯的Poly Analyst,據(jù)報導，它用于金融到醫(yī)療方面軍的各種應(yīng)用于，能獲得者很好的'結(jié)果。

　　基于事例的推理方法（CBR棗Case based reasoning)這種方法的思路非常簡單，當預測未來情況或進行正確決策時，系統(tǒng)尋找與現(xiàn)有情況相類似的事例，并選擇最佳的相同的解決方案，這種方法能用于很多問題求解，并獲得好的結(jié)果，其缺點是系統(tǒng)不能生成匯總過去經(jīng)驗的模塊或規(guī)則。采用這種方法的系統(tǒng)有美國的Pattern Recognition Workbench和法國的KATE tools.

　　遺傳算法（GA棗Genetic Algorithms）：嚴格說來，DA不是GA應(yīng)用的主要領(lǐng)域，它是解決各種組合或優(yōu)化問題的強有力的手段，但它在現(xiàn)代標準儀器表中也用來完成DA任務(wù)。這種方法的不足之處是：這種問題的生成方式使估計所得解答的統(tǒng)計意義的任何一種機會不再存在。另外一方面，只有專業(yè)人員才能提出染色體選擇的準則和有效地進行問題描述與生成。在系統(tǒng)中包含遺傳算法的有美國的GeneHunter.

　　非線性回歸方法：這種方法的基礎(chǔ)是，在預定的函數(shù)的基礎(chǔ)上，尋找目標度量對其它多種變量的依賴關(guān)系。這種方法在金融市場或醫(yī)療診斷的應(yīng)用場合，比較好的提供可信賴的結(jié)果。在俄羅斯的Paly Analyst以及美國的Neuroshell系統(tǒng)中包括了這種技術(shù)。

　　上面所列DM技術(shù)不可能是詳盡的囊括，因為多年來數(shù)理統(tǒng)計分析以及AI與KE的研究提供了種類繁多特點各異的手段，DM開發(fā)人員完全可

　　以根據(jù)不同任務(wù)加以選擇使用，另外近年來在軟計算（Soft Comp-uting）和不確定信息處理（dealing with Uncertainty of information）方法的研究，促使DM（KDD）技術(shù)向更深層次發(fā)展。

　　另外需要說明的，上面所說的DM中的數(shù)據(jù)是指數(shù)據(jù)庫中表格形式中的記錄和條目,這種數(shù)據(jù)稱作結(jié)構(gòu)型數(shù)據(jù)（Structured data）。在一個企業(yè)中，還有一類像文本和網(wǎng)頁形式的數(shù)據(jù)，稱作非結(jié)構(gòu)型數(shù)據(jù)(unstructured data)。它來自不同的信息源，如文本圖像影視和音響等，當然文本是最主要的一種非結(jié)構(gòu)數(shù)據(jù).對一個企事業(yè)單位來說，非結(jié)構(gòu)型數(shù)據(jù)往往占數(shù)據(jù)總量的80%，而結(jié)構(gòu)型數(shù)據(jù)只占20%。1995年分析家已預言，像文本這樣非結(jié)構(gòu)型數(shù)據(jù)將是在線存貯方面占支配地位的數(shù)據(jù)形式。到1998年初，在Internet上的信息網(wǎng)頁數(shù)，已超過5億，到2000年，預計網(wǎng)頁數(shù)將達到15億。隨著Internet的擴展和大量在線文本的出現(xiàn)，將標志這巨大的非結(jié)構(gòu)型數(shù)據(jù)海洋中，蘊藏著極其豐富的有用信息即知識。人們從書本中獲取知識方法是閱讀和理解。開發(fā)一種工具能不需要閱讀而能協(xié)助用戶從非結(jié)構(gòu)數(shù)據(jù)中抽取關(guān)鍵概念以及快速而有效地檢索到關(guān)心的信息，這將是一個非常引人入勝的研究領(lǐng)域。目前，基于圖書索引檢索以及超文本技術(shù)的各類搜索引擎，能協(xié)助用戶尋找所需信息，但要深入發(fā)掘這類數(shù)據(jù)中的有用用信息，尚需要更高層次的技術(shù)支持，人工智能領(lǐng)域有關(guān)知識表示及獲取的方法（如語義網(wǎng)絡(luò) 概念映射等），和自然語言理解的研究成果，可望被采用。還可能要涉及到語言學心理學等領(lǐng)域。最近已出現(xiàn)針對文本的DM工具的報導。如IBM公司的TexMiner,NetQuestion,WedCawler和megaputer公司的TextAnalyst等。

　　DM（KDD）工具和軟件已在各個部門得到很好的應(yīng)用，并收到明顯的效益。在對客戶進行分析方面:銀行信用卡和保險行業(yè)，用DM將市場分成有意義的群組和部門，從而協(xié)助市場經(jīng)理和業(yè)務(wù)執(zhí)行人員更好地集中于有促進作用的活動和設(shè)計新的市場運動。在客戶關(guān)系管理方面:DM能找出產(chǎn)

　　品使用模式或協(xié)助了解客戶行為，從而可以改進通道管理（如銀行分支和ATM等）。又如正確時間銷

　　售（Right Time MarKeting)就是基于顧客生活周期模型來實施的。在零售業(yè)方面:DM用于顧客購貨籃的分析可以協(xié)助貨架布置，促銷活動時間，促銷商品組合以及了解滯銷和暢銷商品狀況等商業(yè)活動。通過對一種廠家商品在各連鎖店的市場共享分析,客戶統(tǒng)計以及歷史狀況的分析，可以確定銷售和廣告業(yè)務(wù)的有效性。在產(chǎn)品質(zhì)量保證方面:DM協(xié)助管理大數(shù)量變量之間的相互作用，DM能自動發(fā)現(xiàn)出某些不正常的數(shù)據(jù)分布，暴露制造和裝配操作過程中變化情況和各種因素，從而協(xié)助質(zhì)量工程師很快地注意到問題發(fā)生范圍和采取改正措施。在遠程通訊部門:基于DM的分析協(xié)助組織策略變更以適應(yīng)外部世界的變化，確定市場變化模式以指導銷售計劃.在網(wǎng)絡(luò)容量利用方面，DM能提供對客戶組類服務(wù)使用的結(jié)構(gòu)和模式的了解，從而指導容量計劃人員對網(wǎng)絡(luò)設(shè)施作出最佳投資決策。在各個企事業(yè)部門，DM在假偽檢測及險評估失誤回避資源分配市場銷售預測廣告投資等很多方面，起著很重要作用。例如在化學及制藥行業(yè)，將DM用于巨量生物信息可以發(fā)現(xiàn)新的有用化學成分.在遙感領(lǐng)域針對每天從衛(wèi)星上及其它方面來的巨額數(shù)據(jù)，對氣象預報，臭氧層監(jiān)測等能起很大作用�？傊�，在國外，DM已廣泛應(yīng)用于銀行金融，零售與批發(fā) 制造保險公共設(shè)施政府教育遠程通訊軟件開發(fā) 運輸?shù)雀鱾€企事業(yè)單位。據(jù)報導，DM的投資回報率有達400%甚至10倍的事例。

　　四 DM（KDD）產(chǎn)品狀況

　　九十年代開始出現(xiàn)DM商用產(chǎn)品以來，據(jù)不完全統(tǒng)計，到1998年底1999年初，已達50多個廠商從事DM的開發(fā)工作，在美國DM產(chǎn)品市場在1994年約為5千萬美元，1997年達到3億美元。預計2000年將達到8億美元。從產(chǎn)品的類型來分有下列產(chǎn)品：提供廣泛的DM能力，典型產(chǎn)品有IBM的Intelligent Miner,SAS的Enterprise Miner.為某個部門旨在求解問題，典型的有Unica公司的Response Modeler Segnentor,IBM公司的Busiess Application等。與提供服務(wù)一起,典型的有NeoVista,Hyperparallel,HNC Marksman.黑匣工具，典型的有GroupModell,ModelMax,NewralWare的Predict.解決客戶問題有Marketier Paregram,Exchemge Application等。

　　據(jù)不完全統(tǒng)計，目前出現(xiàn)的DM工具和軟件，可以按采用技術(shù)分類如下表:采用技術(shù)分類成套聚類統(tǒng)計與回歸連接與相關(guān)序列模式可視化文筆與網(wǎng)絡(luò)DM報告與匯總偏差虛假檢測商品數(shù)73071157141132發(fā)表數(shù)4657217413。

　　DM商品軟件一般包含多種技術(shù)方法，以適應(yīng)不同要求。經(jīng)常將成套工具按不同方式分成模塊，例如Spss的DM套件由下列按功能的模塊組成：基于規(guī)則的影響發(fā)現(xiàn)模塊。多維共性發(fā)現(xiàn)模塊。OLAP發(fā)現(xiàn)模塊。增量發(fā)現(xiàn)模塊。趨向發(fā)現(xiàn)模塊。比較發(fā)現(xiàn)模塊。預測發(fā)現(xiàn)模塊。而Neovista的DM套件卻按所采用的技術(shù)分組，基于GA的DecisionGA和基于規(guī)則相關(guān)的DecisionAR.

　　由于DM不能只看作一個獨立的操作，它是與前后操作聯(lián)系起來，形成數(shù)據(jù)到知識的整體過程。有各種不同的組合方式，最自然的方式是將DM系統(tǒng)與數(shù)據(jù)倉庫和常規(guī)的SQL用戶界面和可視化工具聯(lián)系在一起。如圖5所示是NeoVista公司所提出的集成系統(tǒng)的示意簡圖。它是將集成化知識發(fā)現(xiàn)環(huán)境和開放式數(shù)據(jù)倉庫組成一個DM的集成環(huán)境。為了使DM所得到的結(jié)果更廣泛直接地為用戶所用，人們提出了模式庫（Patterm Base)模式倉庫（Patterm Warehouse）加上聯(lián)網(wǎng)模塊的方案，如圖6所示，這個稱作DMsuite的結(jié)構(gòu)直接工作在大型多表格的SQL數(shù)據(jù)庫基礎(chǔ)上，同時90%的DM工作在服務(wù)器上完成，這樣就使DM工作不受客戶機容量限制。

　　DM（KDD）的目的原本是為企事業(yè)單位提供決策的正確依據(jù)，從分析數(shù)據(jù)發(fā)現(xiàn)問題作出決策采取行動這一系列操作是一個單位的動作行為，利用計算機及信息技術(shù)完成這整體行動，是發(fā)揮機構(gòu)活力和贏得競爭優(yōu)勢的唯一手段。所以前幾年一位分析學家將這種機構(gòu)行為和手段稱這為“事務(wù)智能”（BI棗Business Intelligent).他認為BI能極大地改進決策的質(zhì)量和及時性，從而改進機構(gòu)的生產(chǎn)率或發(fā)揮競爭優(yōu)勢。所以近年來，一些大公司將數(shù)據(jù)分析和DM（KDD）工具和有關(guān)技術(shù)組合起來形成所謂BIS（Business Intelligent Softwave）。其中SAS公司的作法是將數(shù)據(jù)源 ,數(shù)據(jù)預處理 ,數(shù)據(jù)存貯 ,數(shù)據(jù)分析與發(fā)掘 ,信息表示與應(yīng)用等方面技術(shù)有機地綜合成一體，IBM公司更全面地考慮BI系統(tǒng)的結(jié)構(gòu)和功能，與其它公司共同合作來開發(fā)BI各類軟件和工具。并從多方面來加以考慮：首先必須有一良好的數(shù)據(jù)庫和數(shù)據(jù)倉庫，并能使企業(yè)過渡到下一個世紀，所以提出了一個統(tǒng)一的數(shù)據(jù)庫系統(tǒng)DB2和一個可視化數(shù)據(jù)倉庫VDW（Visual Data Warehouse）,可以將各種應(yīng)用和各部門的信息融為一體，加上Visual Warehouse OLAP工具可以生成實時報告。在信息發(fā)現(xiàn)和數(shù)據(jù)發(fā)掘工具方面，提出能對結(jié)構(gòu)型和非結(jié)構(gòu)型數(shù)據(jù)進行發(fā)掘的一整套智能工具（Intelligent Miner Family）。BI手段只有在好的數(shù)據(jù)基礎(chǔ)才能見效，因此提出數(shù)據(jù)重組工具。向用戶提供聯(lián)合統(tǒng)一觀點的企業(yè)數(shù)據(jù)是作出聰明決策的前提，提出能支持異形數(shù)據(jù)庫的DataJointer（數(shù)據(jù)接合）工具，具有簡單而強有力的數(shù)據(jù)查詢和優(yōu)化的數(shù)據(jù)訪問功能，并能對異形數(shù)據(jù)庫數(shù)據(jù)進行復制，以便不斷更新數(shù)據(jù)倉庫內(nèi)容。所有工具不僅易于使用外，并能與數(shù)據(jù)倉庫無縫地集成在一起。圖 8是IBM BI系統(tǒng)的結(jié)構(gòu)圖。BI系統(tǒng)標志著從數(shù)據(jù)到知識到?jīng)Q策的進程中的更深入的一步，展示著真正的實用的智能信息系統(tǒng)的雛形。有人將電子商務(wù)和BI看成90年代以來推動企業(yè)創(chuàng)新的兩大重要技術(shù)，二者的結(jié)合可以提供指數(shù)增長的機遇。電子商務(wù)通過網(wǎng)絡(luò)加速核心事務(wù)處理過程，改善對客戶的服務(wù)，減少周期時間，從而從有限的資源中獲得多的回報。而BI能利用豐富的數(shù)據(jù)資產(chǎn)做出最佳決策，以獲取競爭優(yōu)勢。有人將兩者的結(jié)合比做光速的飛行器加上精密的制導系統(tǒng)，能迅速而準確地命中目標

　　五結(jié)束語

　　本文從一個方面討論從數(shù)據(jù)到知識的過程，以及計算機及信息技術(shù)在過程中的發(fā)展。新的世紀將是一個高度化信息化的時代，也就是知識時代，以知識為題的許多問題，諸如知識經(jīng)濟知識產(chǎn)業(yè) 知識工人知識管理知識工程知識網(wǎng)絡(luò)等，將成為研究的對象。也勢必推動以網(wǎng)絡(luò)為環(huán)境的計算機與信息技術(shù)向更高層次發(fā)展。

【數(shù)據(jù)信息與知識論文】相關(guān)文章：

大數(shù)據(jù)在知識管理中的應(yīng)用論文06-22

大數(shù)據(jù)與信息管理論文04-06

淺談知識管理的信息服務(wù)論文05-29

電力營銷數(shù)據(jù)信息化管理分析論文07-04

大數(shù)據(jù)信息化管理教學模式論文06-15

構(gòu)建高校信息管理數(shù)據(jù)倉庫論文07-02

信息交流曝隱私幕后原是大數(shù)據(jù)論文04-29

基于知識網(wǎng)格的分布式數(shù)據(jù)挖掘論文04-25

《數(shù)據(jù)信息的加工》教案07-04

最新文章

99热这里只有精品国产7_欧美色欲色综合色欲久久_中文字幕无码精品亚洲资源网久久_91热久久免费频精品无码

<rp id="zsypk"></rp>