本站小編為你精心準(zhǔn)備了企業(yè)競爭情報的語義挖掘參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1引言
競爭情報是知識經(jīng)濟時代企業(yè)保持競爭優(yōu)勢的戰(zhàn)略資源和分析與預(yù)測行業(yè)發(fā)展態(tài)勢、制定科學(xué)戰(zhàn)略決策的依據(jù)。目前,已被公認為除資本、技術(shù)、人才之外的企業(yè)“第四核心競爭力”[1]。隨著Web2.0和語義Web的快速發(fā)展和普及,網(wǎng)絡(luò)信息資源日益豐富并逐漸成為企業(yè)競爭情報分析和獲取的最重要的信息來源,Google、微軟、百度等企業(yè)紛紛提出“Internetisdatabase”的觀點,即未來企業(yè)所需的信息、知識和情報都可以通過網(wǎng)絡(luò)獲取,企業(yè)競爭優(yōu)勢的保持和核心競爭力的培育很大程度上取決于網(wǎng)絡(luò)信息資源分析與獲取的能力[2]。然而,由于網(wǎng)絡(luò)信息資源通常具有高維、海量、異質(zhì)異構(gòu)和動態(tài)等特征,傳統(tǒng)的競爭情報分析和獲取方法,如SWOT分析法、定標(biāo)比超分析法、關(guān)鍵成功因素分析法等定性和定量分析法,雖然可以對結(jié)構(gòu)化數(shù)據(jù)信息實現(xiàn)自動排序、篩選和去重,但對于海量的半結(jié)構(gòu)化與非結(jié)構(gòu)化、異構(gòu)分布式數(shù)據(jù)還不能進行有效的加工處理。此外,當(dāng)前的情報分析與獲取主要依靠人工方法,速度慢、效率低,無法適應(yīng)網(wǎng)絡(luò)信息資源的快速增長和動態(tài)變化,而且人工定性分析和經(jīng)驗判斷存在較多的不確定性,導(dǎo)致分析結(jié)果隨機性較大。主流的競爭情報系統(tǒng),如TRS競爭情報系統(tǒng)、天下互聯(lián)競爭情報系統(tǒng)以及賽迪數(shù)據(jù)競爭情報系統(tǒng)等[3],雖然借助智能、數(shù)據(jù)挖掘、知識管理等智能信息處理技術(shù)進行競爭情報挖掘和自動分析,但由于這些統(tǒng)采用類似搜索引擎的網(wǎng)頁搜索與分析技術(shù),其自動分析與挖掘功能局限在信息采集和有限的數(shù)據(jù)挖掘上,僅僅實現(xiàn)了淺層信息的統(tǒng)計分析,無法獲取深層情報內(nèi)容和挖掘情報的潛在價值,嚴重影響了競爭情報的質(zhì)量和情報獲取的效率,并且最終分析結(jié)果是以網(wǎng)頁或文本塊的粒度來描述競爭情報信息,而企業(yè)競爭情報需要的是關(guān)于競爭對手、競爭環(huán)境和競爭策略的完整描述,兩者之間存在認知上的極大不匹配[4],從而制約了競爭情報的實用性和應(yīng)用效果。面對網(wǎng)絡(luò)環(huán)境下持續(xù)增長的海量信息以及知識經(jīng)濟時代企業(yè)競爭壓力的不斷增大,傳統(tǒng)的競爭情報分析與獲取方法逐漸難以適應(yīng)復(fù)雜競爭環(huán)境的動態(tài)變化和企業(yè)對大規(guī)模、高質(zhì)量、深層次的情報知識需求。面對紛繁蕪雜、結(jié)構(gòu)類型多樣的海量網(wǎng)絡(luò)動態(tài)信息,如何利用多學(xué)科領(lǐng)域的先進理論與最新成果,實現(xiàn)競爭情報集成化、自動化、智能化以及高效化地分析挖掘,獲取高質(zhì)量、深層次的競爭情報,已成為當(dāng)前學(xué)術(shù)界和企業(yè)界亟待解決的難題。本文在分析、比較和綜合國內(nèi)外競爭情報分析與獲取方法的基礎(chǔ)上,利用本體和上下文知識從情報語義和應(yīng)用環(huán)境兩個方面進行語義層面的深層競爭情報挖掘和情報分析,研究了本體與上下文知識的融合實現(xiàn),設(shè)計了一種基于語義決策樹的競爭情報歸納學(xué)習(xí)算法進行競爭情報語義挖掘和情報知識發(fā)現(xiàn)。實驗結(jié)果表明,該算法顯著提高了情報挖掘的智能性和情報分析的準(zhǔn)確性,在一定程度上實現(xiàn)了競爭情報語義挖掘和情報知識自動分析與獲取。
2本體和上下文知識的融合實現(xiàn)
本體對共享概念形式化的明確表示,通過提供對數(shù)據(jù)信息的一致性理解使得計算機能夠正確分析和處理信息的語義,解決相同信息不同含義和不同信息相同含義之間存在的差異[5]。上下文知識是在對數(shù)據(jù)信息一致性理解的基礎(chǔ)上解決由于應(yīng)用環(huán)境和對象的不同所導(dǎo)致的對數(shù)據(jù)信息及其分析挖掘結(jié)果上的理解差異,提供針對具體應(yīng)用環(huán)境和特定對象的特例化知識。融合本體和上下文知識進行情報分析可以實現(xiàn)面向特定應(yīng)用環(huán)境的、更準(zhǔn)確的深層次分析,如在情報分析的過程中可以使用本體知識來精確情報語義,使用上下文知識來約束情報分析的應(yīng)用環(huán)境空間,實現(xiàn)面向具體應(yīng)用環(huán)境的高效分析。融合本體和上下文知識進行情報分析的首要問題在于如何實現(xiàn)本體和上下文知識的有效融合。通過分析相關(guān)研究成果發(fā)現(xiàn):在情報分析中,本體提供的主要是領(lǐng)域內(nèi)通用的知識,而上下文提供的是關(guān)于特定環(huán)境的特例化知識,可以認為上下文知識是本體知識在特定環(huán)境下的擴展。目前,關(guān)于本體知識的表示方法與技術(shù),如:RDF(ResourceDescriptionFramework)、DAML(DARPAAgentMark-upLanguage)、DAML-S(DAML-Service)、DAML+OIL(DAML+OntologyInfer-enceLayer)、OWL(WebOntologyLanguage)等非常成熟,通過在本體知識表示方法的基礎(chǔ)上擴充上下文知識是進行本體與上下文知識融合的有效途徑。根據(jù)文獻[6]的方法,本文采用一個三元組來表示本體與上下文知識的融合模型:M={O,C,R}其中O表示本體集合,C表示上下文知識集合,R表示本體間、本體與上下文間、上下文間的關(guān)系。本體集合O={o1,o2…on},其中o1,o2…on表示本體知識;上下文集合C={c1,c2,c3…cn;kc1,kc2,kc3…kcn},其中c1,c2,c3…cn表示上下文標(biāo)識,kci表示屬于上下文標(biāo)識ci的上下文知識集合;關(guān)系R={roo,roc,rck,rkk},其中roo=(oi,oj)表示本體知識間的關(guān)系,roc=(oi,cj)表示本體知識與上下文標(biāo)識間的關(guān)系,rck=(ci,kj)表示上下文標(biāo)識與形成該標(biāo)識的上下文知識間的關(guān)系,rkk=(ki,kj)表示上下文知識間的關(guān)系。在該融合模型中,通過在本體知識表示的基礎(chǔ)上增加一個上下文標(biāo)識來表征一個由附加的多個上下文知識構(gòu)成的具體應(yīng)用環(huán)境,如圖1所示。在情報分析過程中,通過上下文標(biāo)識來識別和調(diào)用相應(yīng)的上下文知識進行面向具體應(yīng)用環(huán)境的情報分析,提高情報分析的針對性和分析結(jié)果的實用性。
3基于本體和上下文知識相融合的競爭情報分析算法
決策樹歸納學(xué)習(xí)是數(shù)據(jù)挖掘中常用的一種數(shù)據(jù)驅(qū)動的、無優(yōu)先級別的歸納學(xué)習(xí)算法,采用自頂向下的遞歸方式,挖掘出以決策樹為表示形式的隱含規(guī)則指導(dǎo)情報分析,具備很高的運算速率和準(zhǔn)確率。其中最具影響的決策樹歸納學(xué)習(xí)算法是R.Quilan設(shè)計的ID3算法及其改進版C4.5算法,具有簡單易懂、易于實現(xiàn)等優(yōu)點。常見的決策樹歸納學(xué)習(xí)算法還有CHAID算法、CART算法以及為了適應(yīng)處理大規(guī)模數(shù)據(jù)集的要求和提高海量信息中知識獲取的效率而設(shè)計的SLIQ算法和SPRINT算法。這些算法在進行情報分析的過程中主要通過計算特征的信息熵來選擇特征,信息熵大的特征被優(yōu)先選取構(gòu)造決策樹。但是,在計算信息熵時僅僅考慮語法層面關(guān)鍵詞的簡單匹配,沒有涉及數(shù)據(jù)的語義信息和上下文環(huán)境對數(shù)據(jù)的影響,缺乏對其所包含的語義信息和具體環(huán)境的理解,導(dǎo)致算法缺乏一定的智能性和語義處理能力,使得情報挖掘和分析結(jié)果的實用性和針對性不強[7]。針對傳統(tǒng)決策樹歸納學(xué)習(xí)算法的不足,借鑒當(dāng)前本體和上下文知識研究領(lǐng)域的科研成果[8-11],設(shè)計了一種融合本體和上下文知識的歸納學(xué)習(xí)算法(InductiveLearningAlgorithmbasedonSemanticDecisionTree,ILASDT)進行語義層面的情報挖掘和知識發(fā)現(xiàn)。利用企業(yè)競爭情報本體提供背景知識,上下文知識提供約束機制進行自頂向下多層的知識引導(dǎo)和搜索過程,實現(xiàn)智能化、自動化、高效的語義知識挖掘。具體來說,該算法主要由四部分組成:
(1)構(gòu)建語義概念樹。利用本體知識對語義元數(shù)據(jù)庫進行概念規(guī)范化和泛化處理,借助本體豐富的層次結(jié)構(gòu)和抽取的概念及其關(guān)系或?qū)嶓w及其關(guān)系進行語義概念樹的構(gòu)建。
(2)獲取基于本體的決策規(guī)則。利用構(gòu)建的語義概念樹,對語義元數(shù)據(jù)庫中的概念或?qū)嶓w結(jié)點進行初步劃分,并利用本體知識進行語義推理,得到基于本體的決策規(guī)則。
(3)獲取基于上下文知識的決策規(guī)則。在上述獲取的決策規(guī)則中,利用上下文知識進行特化,以本體知識結(jié)點為根結(jié)點,上下文知識為子結(jié)點,進行概念或?qū)嶓w結(jié)點的二次劃分,得到基于上下文知識的決策規(guī)則。
(4)語義決策樹的構(gòu)建與優(yōu)化。將上述兩步獲取的決策規(guī)則進行語義整合,選擇其中沒有語義重復(fù)的結(jié)點及其關(guān)系和獲取的語義規(guī)則進行語義決策樹的構(gòu)建,并利用本體和上下文知識提供的層次結(jié)構(gòu)和背景知識進行決策樹的優(yōu)化和完善。
4實驗結(jié)果及分析
本文采用實驗分析法來驗證算法的優(yōu)越性。
(1)實驗數(shù)據(jù)。選自UCI[12]網(wǎng)站提供的Monk、Bal-anceScale和BreastCancer三種數(shù)據(jù)集作為實驗分析的原始數(shù)據(jù)。
(2)實驗環(huán)境。處理器為Inter(R)Core(TM)2CPU44002.0GHz,內(nèi)存2G,硬盤120G,操作系統(tǒng)為WindowsXP,編程語言為Java(JDK1.6.2)。
(3)實驗過程與結(jié)果。在上述相同的實驗數(shù)據(jù)和實驗環(huán)境中利用數(shù)據(jù)挖掘與知識發(fā)現(xiàn)領(lǐng)域兩種經(jīng)典的決策樹歸納學(xué)習(xí)算法C4.5和SPRINT作為參考算法進行對比實驗。選擇決策樹歸納學(xué)習(xí)算法評估中常用的四個重要標(biāo)準(zhǔn)———復(fù)雜度、可理解性、效率和準(zhǔn)確率來檢驗本文模型和算法的性能。其中,復(fù)雜度利用算法生成的節(jié)點數(shù)來衡量,可理解性利用算法生成的規(guī)則數(shù)來衡量,效率利用算法的執(zhí)行時間來衡量,準(zhǔn)確率利用算法的分類精度來衡量。
(4)實驗結(jié)果分析。從表1~表4可以看出,本文設(shè)計的算法在復(fù)雜度、可理解性、效率和準(zhǔn)確率等方法均優(yōu)于現(xiàn)有的算法。主要因為融合本體和上下文知識的語義分析算法利用本體提供的普遍知識和上下文提供的特定知識來選擇分析的特征及特征間關(guān)系,約束分析算法的執(zhí)行層次和遍歷空間,所生成的決策樹由本體和上下文知識共同決定,整個過程只產(chǎn)生企業(yè)所需要的、針對性強的、具有綜合性的深層關(guān)聯(lián)規(guī)則,消除決策樹中語義重復(fù)節(jié)點和“空枝”現(xiàn)象,提高了算法的準(zhǔn)確率和可理解性,同時也降低了算法的執(zhí)行時間和復(fù)雜度。
5結(jié)語
融合本體和上下文知識進行語義層面的企業(yè)競爭情報分析是提高情報挖掘與獲取效率和準(zhǔn)確率以及面向具體應(yīng)用環(huán)境和對象的有效方法。本文研究并設(shè)計的分析算法能夠有效地結(jié)合本體和上下文知識進行語義層面的情報挖掘和知識發(fā)現(xiàn),促使更具潛在價值和實用性的深層情報內(nèi)容的產(chǎn)生。