1. <rp id="zsypk"></rp>

      2. 基于lucene的垂直搜索引擎的研究與設(shè)計論文

        時間:2021-04-15 15:33:01 論文 我要投稿

        基于lucene的垂直搜索引擎的研究與設(shè)計論文

          摘 要:隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,通用搜索引擎就需要采集的更多的信息和內(nèi)容,但是面對巨大的搜索結(jié)果,用戶要想準確找到他們所需要的信息,這樣將會耗費很大的精力。因此,需要以數(shù)據(jù)的特定領(lǐng)域為重點,全面進行深入的研究,注重專業(yè)化的垂直搜索引擎就產(chǎn)生了,它能夠準確、及時返回用戶需要的信息。本文主要分析垂直搜索引擎的特點和結(jié)構(gòu),并分析了基于Lucene的垂直引擎的研究和設(shè)計,對提高互聯(lián)網(wǎng)信息的搜索速度具效率具有重要的意義。

        基于lucene的垂直搜索引擎的研究與設(shè)計論文

          隨著互聯(lián)網(wǎng)的飛速發(fā)展,互聯(lián)網(wǎng)信息迅猛增長,人們已經(jīng)習慣從互聯(lián)網(wǎng)上獲取他們所需的信息。然而,一些通用搜索引擎無法及時準確地反饋給人們需要的信息,不能夠做到有針對性的搜索一些信息,無法滿足人們的基本需求。在進行搜索的過程中,想搜索一件物品,系統(tǒng)將會提供給你很多的搜索結(jié)果。但是,這些搜索引擎返回結(jié)果中有大量排在前面的信息可能不是我們需要的,這樣就會讓人感覺郁悶,得不到自己想要的信息。而且,60%的搜索引擎沒有機會收錄一些有價值的的信息,需要用戶進行注冊才能夠得到一些更有價值的信息;趌ucene的垂直搜索引擎,能夠及時、準確給用戶反饋出他們需要的信息。

          1 垂直搜索引擎的概述

          垂直搜索引擎能夠在一些專業(yè)領(lǐng)域得到廣泛的應用,為用戶提供更加便捷的搜索服務。垂直搜索引擎能夠在某一特定領(lǐng)域內(nèi)啟動一些網(wǎng)絡(luò)爬蟲,在進行網(wǎng)頁下載的時候,能夠找到和本地網(wǎng)頁庫中相關(guān)的信息,然后對這些信息進行處理,將一些數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),最后反饋給用戶的搜索入口。垂直搜索能夠有針對性進行搜索,能夠根據(jù)用戶的具體要求進行搜索和檢測,為他們提供具有非常鮮明特色的搜索服務,這種搜索引擎一個非常突出的特點就是深入、詳細。由于通用搜索引擎搜索的范圍十分廣泛,因此,它不能滿足細致的搜索工作,不能夠?qū)蚀_的信息反饋給需要的特定人群[2]。根據(jù)市場需求的多樣化,搜索引擎必須進行細分,給人們提供準確的搜索服務。

          2 垂直搜索引擎的特點和框架結(jié)構(gòu)設(shè)計

          2.1 垂直搜索的特點 垂直搜索引擎能夠有針對性進行搜索,能夠準確提供給人們需要的信息。通用的搜索引擎更加注重數(shù)據(jù)分離和關(guān)鍵詞搜索,垂直搜索更多注重文本的分離,對數(shù)據(jù)信息進行處理,使得數(shù)據(jù)能夠滿足人們的'需求,通用的搜索引擎就不需要考慮數(shù)據(jù)結(jié)構(gòu)。由于相關(guān)信息垂直搜索引擎只需要捕捉到一些某個特定的行業(yè),這樣的信息采集方式的使用只需要爬蟲找題相關(guān)信息,垂直搜索引擎具有以下特點。一是垂直搜索引擎的爬蟲具有定制性,能夠深入抓取特定行業(yè)的一些信息。二是垂直搜索引擎是針對行業(yè)的特點來進行抓取信息的,以網(wǎng)站的數(shù)據(jù)為例,各種人才網(wǎng)數(shù)據(jù)源的來源于求職的網(wǎng)站,從股票網(wǎng)站中搜索到相關(guān)的信息。三是垂直搜索引擎更傾向于抓住一些結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù),例如,在尋找一所房子的過程中,其能夠捕捉到相關(guān)的地理位置、價格、小區(qū)環(huán)境、房地產(chǎn)價格等一些系統(tǒng)的信息[3]。

          2.2 垂直搜索引擎的框架設(shè)計 垂直搜索引擎的建設(shè)需要做好以下幾個方面的工作。一是網(wǎng)站分析。抓捕器需要設(shè)置所需的網(wǎng)站信息,并且還要結(jié)合特定的行業(yè)模板進行抓捕工作。二是站點初始化分析。一些網(wǎng)站需要用戶登錄以后才能夠獲得詳細信息,因此,有必要在垂直搜索引擎中,設(shè)置這個注冊和登錄過程,這樣才能夠完善詳細的信息。三是頁面爬蟲。網(wǎng)絡(luò)爬蟲主要負責抓取一些web數(shù)據(jù)。四是數(shù)據(jù)分析。分析有用的鏈接和數(shù)據(jù),并且利用爬蟲來提取這些新的數(shù)據(jù)。五是建立索引。將爬蟲抓取到的信息進行整理和分析,將這些信息進行選擇并存儲在數(shù)據(jù)庫中當中,并結(jié)合數(shù)據(jù)庫來建立索引,以便能夠快速獲取信息。六是搜索查詢。設(shè)計一個個性化的應用程序,或融合一些其他網(wǎng)站,能夠搜索到其他網(wǎng)站的一些信息。

          3 基于Lucene的垂直引擎的設(shè)計

          3.1 lucene全文搜索框架 Lucene是一個子項目,能夠有效利用開放源代碼來對全文的搜索,它能夠給開發(fā)人員提供了大量的外部接口,這是一個易于使用的工具。在垂直搜索引擎的部件當中,建立基于Lucene的索引和查詢,用戶只需要按照該方法來進行操作,就能夠?qū)崿F(xiàn)對全文進行檢索。因為Lucene是開源的,具有面向全體對象的特點,程序員還能夠在此基礎(chǔ)

        【基于lucene的垂直搜索引擎的研究與設(shè)計論文】相關(guān)文章:

        垂直綠化的設(shè)計研究論文11-04

        垂直搜索引擎核心技術(shù)研究及展望論文11-07

        基于手持設(shè)備的智能球研究與設(shè)計論文11-02

        關(guān)于搜索引擎的研究論文11-04

        基于寒冷地區(qū)公共空間設(shè)計方法研究論文11-01

        基于無障礙設(shè)計理念的電梯設(shè)計討論與研究論文10-29

        基于語義技術(shù)的搜索引擎平臺搭建的可行性研究論文10-26

        基于環(huán)境科學優(yōu)化城市公園的設(shè)計研究論文04-14

        基于校園食堂老式餐盤改造升級的設(shè)計研究論文11-02

        99热这里只有精品国产7_欧美色欲色综合色欲久久_中文字幕无码精品亚洲资源网久久_91热久久免费频精品无码
          1. <rp id="zsypk"></rp>