本站小編為你精心準備了地方網絡資源典藏建設與應用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
文博系統的圖書館的職責之一是保存和典藏文本資源,它提供了一個供公眾了解文化、歷史、藝術、科學等知識的窗口。隨著互聯網的發展,每天在互聯網上產生、傳播的信息量可以用海量來形容,比如:網頁、博客、新聞、日志、論壇等。這些產生的互聯網信息中包含了大量有價值的信息,而這些有研究價值的信息并非會通過文本資料的形式保存到圖書館的典藏資源庫中。從收集、典藏有價值的信息的角度出發,開發和利用好網絡資源信息,是完善好圖書館典藏職能的一條重要的途徑,其與紙質文本典藏一樣具有重要的價值,今后圖書館典藏工作的發展方向將是紙質資源和數字資源共同發展,在數字圖書館的趨勢下,數字典藏的作用越發重要。在互聯網時代,開展、建設好網絡資源典藏系統具有現實意義和實用價值。
1網絡資源典藏的概念
數字資源是文獻資料的重要表現形式之一,是利用計算機、通信技術與多媒體技術相互融合而形成的以數字格式獲取、處理、的信息資源總和。商業性數據庫、機構自建的數據庫、政府公開信息、個人信息等都屬于數字資源。數字資源與印刷型文獻相比類型更為豐富。從數據的組織形式上看,有數據庫、電子期刊、電子圖書、網頁、多媒體資料等類型。從資源提供者來看,可分為:商業化的數字資源和非商業化的數字資源。前者包括數據庫商、出版商和其他機構以商業化方式提供的各種電子資源,如:e-LIBRARY、ProQuest、CA、劍橋期刊、中國期刊網、知網、萬方、維普期刊、方正Apabi等數據庫。公共圖書館需要購買商業數據庫后才能向讀者開放并有區域局限,但一般是在本館內。當然個人也可以通過購買服務的方式來獲取知識服務。以上數據庫中的數字資源內容豐富、數據量大,是目前公共圖書館數字館藏資源的重要組成部分,在全國各個圖書館基本都有購買和收錄。除了購買的數字資源外,各地圖書館機構會自建本地區特色資源庫、開放存取資源、地方文獻等,這些資源可以由本地圖書館自建,也可以委托專業機構進行搜集、整理、加工。本文重點討論的是自建類型的資源,從互聯網上搜索、整理、公開的資源,經加工后再。網絡資源分布在互聯網的各個角落,通過資源抓取器(網絡蜘蛛)檢索目標地址,并將抓取的資源保存到本地數據庫中,賦予標題、關鍵字、內容持久化保存,并依照特定的組織規則和方式,對數字資源進行特征化,以便對網絡典藏資源檢索和利用。
2網絡資源典藏實現原理簡介
搜索引擎由搜索器、索引器、檢索器和用戶接口4部分。機器人程序spider以一定的策略(事先配置好策略)自動進行信息搜索,然后由索引器對信息進行理解、處理,從中抽取索引項,建立索引庫,再由檢索器根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,將要輸出的結果排序,并按用戶的查詢需求合理反饋信息,由用戶接口來接納用戶查詢,顯示查詢結果,提供個性化查詢項。按照信息搜集的方法和服務提供方式的不同,搜索引擎可以分為:全文搜索引擎、目錄索引、元搜索引擎。軟件系統由應用服務器、蜘蛛、智能、轉存器、系統、規則編輯器、圖片Web服務器7個子系統組成。此系統是一個分布部署的分布式系統,各個子系統可以運行在多臺機器上,也可以運行在一臺機器上。
2.1應用服務器它是整個系統的調度器,在智能和轉存器之間調度數據處理任務,主要是接受蜘蛛抓取來的數據包任務,再將各數據處理任務分配給智能和轉存器進行處理。
2.2蜘蛛spider蜘蛛主要是按照用戶設定的站點和抓取策略和參數抓取網絡數據,并形成多個的數據包(數據表)發送給應用服務器。
2.3智能它主要完成對抓取數據按用戶預先建好的導航進行分類,可以按站點或者頻道分類,也可以按關鍵詞分類,也可以用樣本訓練好的模型分類。
2.4轉存器它主要負責將智能處理完的數據歸檔到系統的后臺數據庫中,并對數據新增加的數據進行增量索引,對于圖片、doc文檔等數據存放到指定的數據庫中或者指定的目錄下。若使用的是聯合表方式管理數據則對日數據和月數據作定期合并等管理。
2.5系統系統是將采集入庫的數據在web上,用戶可以通過web形式就可以檢索自己所需要的內容。系統采用了3種方式的系統,即門戶式、數據庫式、搜索引擎式。另外,可對系統采集的圖片進行并按標題進行檢索。
2.6規則編輯器它是一個工具,用來建立和管理對數據進行過濾的各種規則。可以是關鍵詞規則或者頻道規則(以后的版本可以提供分類模型的訓練功能)。
2.7圖片Web服務器它是一個可選工具,當將圖片數據存放到數據庫中時則需要啟動此工具用來用圖片服務器,它將從庫中讀取圖片數據并以http的方式發送給各請求端。
2.8數據導入(導出)工具這是一個輔助工具,對于一些保密性較高和安全性要求較高的用戶,一般采集系統處在與Inter-net連接的網絡上,而系統需要將數據到內網(它是與外網絕對隔離),在這種情況下可以用此工具定期將外網的數據導入到內網的庫中。
3建設地方網絡典藏資源的意義與需求
建設地方網絡資源典藏系統服務于當地的經濟建設和社會管理。在社會管理電子化的背景下,尤其是電子政務的發展,當地的政府機關、事業單位等職能部門將大量的信息以電子的形式在其網站上,供用戶獲取和查看。由于信息分布于各個機構網站上,并隨著時間的推移,最新的信息會將原有的信息進行覆蓋和刷新,當有查詢產生時間較早的信息的需求時,往往會出現查詢困難或獲取失敗的情況。在此情形下,圖書館作為一個信息的典藏機構,適時的開展地方網絡資源典藏工作,將網絡上產生的信息進行收集和處理,形成一套整體的數據庫資源,供用戶查詢,其具有積極的社會效益。建設地方網絡資源,一方面履行數據資源典藏職能,另一方面提供統一的地方資訊整合平臺。典藏資源是文獻加工的重要環節,其直接影響到文獻的質量。在數字化圖書館的背景下,典藏資源也發生了巨大的變化,用數字化的載體來實現典藏工作,形成“實體典藏”和“虛擬典藏”的新格局,同時館藏結構也發生了巨大的變化。隨著信息化的發展,現在一個地區內一定時期內產生了大量的數字格式的信息資源,其中有部分具備研究和典藏價值的信息分布在不同機構的網絡之上。使用特定的軟件系統,按一定的規則采集網絡上的圖片、WORD文檔、PPT、PDF等各種形式的文檔,形成統一的分類資源庫。建立地方網絡典藏資源就是為形成本區域內統一的資源庫,為科研工作者、學生、教師、企事業單位等研究本地區的社會管理、經濟發展、科技水平等提供資源支持。
系統整體有兩部分組成:硬件和軟件。在本文中討論的是軟件部分,經過需求分析,實現的功能設計有:管理模塊、搜索模塊、信息模塊。①信息模塊按照大類分為:新聞、政務、文化、經濟、教育、醫療、法律、農業、交通;②搜索模塊提供的站內條件定制搜索,并提供樹形結構篩選;③管理模塊提供給管理人員配置使用,包括用戶管理、網絡搜索配置、數據庫配置、配置等。整個系統按照3層模式(數據層、邏輯層、應用層)來設計。
4地方網絡典藏資源建設的應用與實踐
網絡信息資源采集系統是一個集網絡數據采集、分析、存儲、管理及檢索等功能于一體的網絡信息資源整合系統。建設地方網絡典藏資源的目的就是采集、處理、儲存、應用本地區內有價值的數字資源。按照平臺設計的需求,其采集的地方網絡資源可分為以下幾類:新聞、政務、文化、經濟、教育、醫療、法律、農業、交通。
4.1典藏資源系統簡介本系統是一具有智能文本分類功能的個性化搜索引擎的系統,它包含了數據采集、數據處理、海量數據的管理、及全文檢索等功能,因而適合的應用有如下幾個。
4.1.1新聞采集。可以從新聞門戶上采集新聞并對網頁進行處理,提取正文后在內網。
4.1.2網絡信息監控。可以自動監控網絡上用戶關心的信息,如可實現對網上非法信息的監控,及時發現,防止這些信息的傳播。
4.1.3行業搜索引擎。本系統具備了搜索引擎所具有的所有功能,可以用來組建各種行業搜索引擎系統。
4.1.4站內搜索。“蜘蛛”可以抓取本地的WEB數據,因而可以組建一個站點內部的站內搜索。
4.1.5情報搜集和專題信息采集。可以完成用戶對特定信息的采集和過濾功能。
4.2典藏資源系統流程本系統是一個分布式系統,各子系統之間相互協調完成對抓取數據的處理,系統運行后的處理流程如下:①“蜘蛛”抓取數據,抓取后存儲為一定大小的K-base數據表,每個數據表到一定的量后就發送給應用服務器,由它調度給其他子系統去處理;②應用服務器接受到蜘蛛發來的數據表處理任務后,先將一些表分配給智能去分析處理;③智能分析處理完后將這個數據表處理任務再反饋給應用服務器,應用服務器再將此任務分配給一個轉存器進行處理。智能主要是根據規則對每一條網頁數據打上一個分類號,再發送給應用服務器;④轉存器接受到任務后,將此數據包導入到后到存儲總庫中去,并對數據進行增量索引。如果是聯合表則要存入相應的子表,并在一定的時間段去合并子表操作;⑤數據存儲到后臺總庫中后用戶就可以通過前臺的Web檢索頁面進行瀏覽和檢索。
4.3地方網絡資源典藏系統應用地方網絡資源典藏系統按照需求規劃實現,在產品實施后投入使用。系統將采集并處理后的信息以WEB的形式展現給用戶使用。管理員功能:系統配置、用戶管理;用戶功能:站內檢索、定制查詢。系統采用B/S結構,用戶不需要安裝客戶端即可使用,UI設計簡約,欄目設置合理、操作便捷。用戶選擇資源大類查看詳細清單,最新信息滾動顯示。九個欄目分布在網頁上方主體部位,下方部分為新聞部分和最新更新內容。在大量的信息中用戶無法迅速的找到符合要求的條目,因此系統支持站內數據檢索。選擇“數據檢索”,站內檢索提供定制條件查詢,查詢條件輸入來源、時間、性質,并可以進行擴展條件查詢,同時再選擇分類。選定查詢條件后,系統會返回庫中符合要求的條目。目前共有9大信息板塊,分別從目標網站獲取對應的信息,信息覆蓋面大。該系統從實施后的效果看,可以作為一個重要的地方網絡資源典藏系統。
5結束語
地方網絡資源典藏系統最大的優勢是建立一套統一的信息整合系統,它將本地區內原先分布于各處的信息匯總并處理,一方面建立統一的信息匯集平臺方便用戶的查找,另一方面建立了一資源典藏系統,使得數字信息資源得以持久化保存,履行典藏的職能。實施地方網絡資源典藏系統可以說是有巨大的社會效益,這方面的工作仍需持續完善。目前,系統雖然完成了初期的需求,但還處于相對初級階段,還有較多不完善需要提高的地方。不僅是實現地方網絡資源的典藏,還需要依托典藏資源進行二次開發和利用。隨著計算機技術的發展,它將朝著更高的智能化水平、更多的信息量發展,如在大數據量的背景下,能夠智能甄選、識別、處理信息,甚至是提供機器人參考咨詢,用戶輸入背景信息后,機器人從數據庫中提取有價值的并經處理的咨詢建議。在技術的推動下,行業機構應用最新的發展理念來完善網絡資源典藏系統,將會對數字典藏產生深遠的影響。
作者:祝先運 單位:南京圖書館