在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網(wǎng) 資料文庫 財(cái)經(jīng)新聞話題檢測(cè)研究范文

財(cái)經(jīng)新聞話題檢測(cè)研究范文

本站小編為你精心準(zhǔn)備了財(cái)經(jīng)新聞話題檢測(cè)研究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

財(cái)經(jīng)新聞話題檢測(cè)研究

1引言

互聯(lián)網(wǎng)媒體的高速發(fā)展極大地?cái)U(kuò)大了財(cái)經(jīng)類新聞的受眾面,并因此使得證券市場(chǎng)與財(cái)經(jīng)類新聞的關(guān)系變得越來越緊密。Mitchell與Mulherin研究發(fā)現(xiàn)[1],股票市場(chǎng)的股票收益及交易量和道瓊斯每天的公告數(shù)量直接相關(guān)。Fang與Peress的研究表明[2]受到高度報(bào)道的股票收益率比那些很少被媒體關(guān)注的上市公司的收益率低。由此可知,股票的走勢(shì)較易受到財(cái)經(jīng)類新聞的影響。因此,為了讓投資者在短期內(nèi)及時(shí)獲取投資熱點(diǎn),本文提出了基于財(cái)經(jīng)新聞話題檢測(cè)研究。傳統(tǒng)的話題檢測(cè)[3]研究主要有以下幾個(gè)方向。首先是基于關(guān)鍵詞的話題檢測(cè),即使用TF-IDF算法或基于TF-IDF算法的改進(jìn)算法,文獻(xiàn)[4]提出基于VSM改進(jìn)的DF算法和TF-IDF算法計(jì)算文本相似度;文獻(xiàn)[5]在傳統(tǒng)的TF-IDF基礎(chǔ)上提出TF-IDF-KE算法來解決突發(fā)式熱點(diǎn)話題在聚類時(shí)特征不明顯的問題。但是傳統(tǒng)的基于關(guān)鍵詞的話題檢測(cè)存在二義性問題,為了解決這個(gè)問題,人們提出了語義模型[6][7]。最常見的語義模型是LDA模型[8],文獻(xiàn)[9]提出使用LDA話題模型檢測(cè)科技文獻(xiàn)話題,并計(jì)算冷門或熱門話題的影響力,提出趨勢(shì)分析。文獻(xiàn)[10]提出LDA-K-Means算法實(shí)現(xiàn)話題檢測(cè),且在網(wǎng)絡(luò)食品安全問題中驗(yàn)證話題檢測(cè)的結(jié)果;最后是融合關(guān)鍵詞和語義模型所做的改進(jìn),文獻(xiàn)[11]提出計(jì)算融合TF-IDF關(guān)鍵詞和LDA主題模型的相似度并基于k-means算法聚類獲得話題簇;文獻(xiàn)[12]提出多特征融合TF-IDF關(guān)鍵詞,LDA語義模型以及新聞命名實(shí)體的相似度并基于Single-Pass算法聚類獲取話題簇。上述研究均針對(duì)普通新聞,鑒于財(cái)經(jīng)新聞?shì)^普通新聞的實(shí)時(shí)性要求高,且有極強(qiáng)的領(lǐng)域?qū)傩浴6壳案鞔蠼鹑诰W(wǎng)站,例如新浪財(cái)經(jīng),和訊網(wǎng),東方財(cái)富網(wǎng)等,大多針對(duì)個(gè)股新聞進(jìn)行檢測(cè)并分類,基于話題檢測(cè)實(shí)現(xiàn)財(cái)經(jīng)新聞分類的網(wǎng)站卻較少。因此,短期內(nèi)如何從海量非結(jié)構(gòu)化財(cái)經(jīng)新聞中有效地檢測(cè)熱門投資話題,成為本文研究的要點(diǎn)。文章考慮結(jié)合財(cái)經(jīng)新聞的特點(diǎn),從多個(gè)角度提取新聞特征,構(gòu)建財(cái)經(jīng)新聞話題檢測(cè)模型。另外,針對(duì)新聞報(bào)道具有突發(fā)性和集中性的特點(diǎn),為了避免將不同生命周期的新聞聚為一類,通常的做法是使用時(shí)間窗來切分新聞流。例如,文獻(xiàn)[13]首先對(duì)新聞按時(shí)間窗劃分,對(duì)同一個(gè)時(shí)間窗內(nèi)的文檔使用HAC算法聚類生成候選話題集合,提出SinglePass-KNN算法進(jìn)行新話題的聚類;文獻(xiàn)[14]提出在每個(gè)時(shí)間窗口內(nèi)根據(jù)新聞的特點(diǎn)選取出最有可能談?wù)撔侣勈录奈⒉┛臀谋荆褂没旌暇垲愃惴ň垲惈@得新聞話題;文獻(xiàn)[15]以每個(gè)時(shí)間窗口上話題的變化情況研究話題內(nèi)容的演化,并使用ILDA模型根據(jù)文本到達(dá)時(shí)間增量建模。針對(duì)以上研究,文章根據(jù)財(cái)經(jīng)新聞的特點(diǎn),基于時(shí)間窗切分新聞流,進(jìn)而提出多特征融合的財(cái)經(jīng)新聞話題檢測(cè)模型MFFTDM(MultiFeatureFinancialNewsTopicDetectionModel)。

2財(cái)經(jīng)新聞話題檢測(cè)模型的構(gòu)建

財(cái)經(jīng)類新聞的報(bào)道成為影響股票走勢(shì)的重要因素之一,為了讓投資者在短期內(nèi)及時(shí)獲取投資熱點(diǎn),本文提出并構(gòu)建多特征融合的財(cái)經(jīng)新聞話題檢測(cè)模型,該模型有以下幾個(gè)特點(diǎn):(1)為了防止聚類時(shí),將不同生命周期的財(cái)經(jīng)新聞聚為一類,構(gòu)建切分新聞流的時(shí)間窗。(2)根據(jù)財(cái)經(jīng)新聞實(shí)時(shí)性要求高,領(lǐng)域?qū)傩詮?qiáng)的特點(diǎn),從多個(gè)不同的角度提取文本特征并構(gòu)建特征向量模型。(3)鑒于傳統(tǒng)凝聚層次聚類算法的時(shí)間復(fù)雜度高,聚類時(shí)耗時(shí)長(zhǎng)的問題,提出最近鄰-凝聚層次聚類算法。

3話題檢測(cè)模型的相似度計(jì)算

3.1基于時(shí)間窗切分的新聞流

對(duì)于財(cái)經(jīng)新聞來說,通常在一個(gè)事件發(fā)生之后的一到兩天內(nèi),各大媒體會(huì)爭(zhēng)相報(bào)道該新聞事件,相關(guān)的新聞報(bào)道將呈爆發(fā)式增長(zhǎng)。但是,隨著時(shí)間的推移,關(guān)于該事件的報(bào)道會(huì)逐漸減少并最后消失。也就是對(duì)某個(gè)熱門股票話題來說,它是有生命周期的。生命周期的開始是第一篇被判定為該話題的新聞,期間會(huì)有相關(guān)事件的報(bào)道,但是最終將以某個(gè)新聞事件的發(fā)生來宣告該話題的結(jié)束。文獻(xiàn)[16]提出使用時(shí)間老化理論為新聞事件建立生命周期模型,該模型包括新聞話題的出生,成長(zhǎng),衰退以及死亡。文獻(xiàn)[17]提出熱點(diǎn)話題的生命周期將經(jīng)過發(fā)酵,活躍和消亡的過程,并統(tǒng)計(jì)了2017年熱點(diǎn)話題的發(fā)酵期,活躍期。

3.2多特征融合文本相似度計(jì)算

對(duì)于每篇財(cái)經(jīng)新聞文本,本文將建立3.2.1-3.2.4節(jié)中的四種模型并分別計(jì)算新聞文本間的相似度。其中,常見的相似度計(jì)算方式有:歐氏距離,余弦距離,曼哈頓距離等。在文本聚類中,使用余弦公式來衡量文本相似度較為常見,因此本文計(jì)算文本間的余弦值。

4話題檢測(cè)中的文本聚類

文本聚類算法的選擇對(duì)于話題簇的生成至關(guān)重要。常見的文本聚類算法[19],例如k-means算法在聚類前需指定K的值,即話題簇的數(shù)目。由于本文中話題簇的數(shù)目未知,因此,文章選擇凝聚層次聚類算法HAC(HierarchicalAgglomerativeCluster)作為話題檢測(cè)過程中的聚類算法。但是傳統(tǒng)HAC算法的時(shí)間復(fù)雜度較高為2O(n),不適合處理大量文檔,為了改進(jìn)這個(gè)問題,本節(jié)提出融合了HAC算法和KNN算法的最近鄰-凝聚層次聚類算法NNHAC(NearestNeibour-HierarchicalAgglomerativeCluster)。

4.1KNN分類算法的改進(jìn)

KNN算法的主要思想為:若一個(gè)樣本在特征空間中K個(gè)最鄰近的樣本中的大多數(shù)都屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。本文中,由于K的值難以確定,因此采用設(shè)置閾值的方式對(duì)原始的KNN算法進(jìn)行改進(jìn),進(jìn)而分類過程中便于控制結(jié)果簇的數(shù)目,增強(qiáng)分類的靈活性。文章設(shè)定一個(gè)閾值S1,若某個(gè)樣本在特征空間中和其他樣本的相似度大于S1。

4.2最近鄰-凝聚層次聚類算法

本文在凝聚層次聚類算法的基礎(chǔ)上融合改進(jìn)的KNN分類算法,提出最近鄰-凝聚層次聚類算法NNHAC。該算法通過設(shè)置兩個(gè)閾值,逐漸縮小聚類范圍,最終獲得話題簇,實(shí)現(xiàn)話題檢測(cè)的任務(wù)。

5實(shí)驗(yàn)

本文的實(shí)驗(yàn)數(shù)據(jù)來源于新浪財(cái)經(jīng),和訊網(wǎng)以及東方財(cái)富網(wǎng),采用Webmagic爬蟲工具進(jìn)行爬取,所爬取的股票新聞從2017年1月-2017年9月,共34534條。采用中科院的NLPIR分詞工具對(duì)新聞文本分詞并構(gòu)建停用詞表去除停用詞。為了避免特殊性,文章從滬深300指數(shù)中隨機(jī)抽取10支股票用作研究對(duì)象。滬深300指數(shù)是反映滬深兩個(gè)市場(chǎng)整體走勢(shì)的“晴雨表”。指數(shù)樣本選自滬深兩個(gè)證券市場(chǎng),覆蓋了大部分流通市值。成份股為市場(chǎng)中市場(chǎng)代表性好,流動(dòng)性高,交易活躍的主流投資股票,能夠反映市場(chǎng)主流投資的收益情況。

5.1評(píng)價(jià)指標(biāo)

常見的聚類效果評(píng)價(jià)指標(biāo)[20]主要有以下幾種:F1-measure,Rand指數(shù)以及Jaccard指數(shù)等。本文選擇F1-measure指標(biāo)對(duì)聚類效果進(jìn)行評(píng)價(jià)。F1-measure將信息檢索中的準(zhǔn)確率(precision)和召回率(recall)相結(jié)合對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià)。若一個(gè)類別的F值越高,則該類別的聚類結(jié)果就越好。

5.2相關(guān)閾值的確定

5.2.1LDA最優(yōu)主題數(shù)T的確定由于本實(shí)驗(yàn)融合構(gòu)建LDA語義模型計(jì)算相似度,因此需要確定隱含主題topic的數(shù)目T,T的取值直接影響到聚類的效果。本實(shí)驗(yàn)用HAC算法結(jié)合LDA主題模型計(jì)算相似度,最優(yōu)主題數(shù)T值從5開始遍歷到55,在每個(gè)T值下,分別設(shè)置凝聚層次聚類算法的閾值0-1(間隔為0.05),獲取每個(gè)T值下使得F值最大的閾值S2,記錄該T值和閾值S2用于確定最佳的主題數(shù)目T以及相似度閾值S2。

5.2.2最優(yōu)多特征融合系數(shù)的確定由于本文從四個(gè)角度提取文本特征并建立模型,根據(jù)所建立的四種模型計(jì)算其相似度并多特征融合這四種相似度。

5.2.3NNHAC算法閾值的確定為了確定文章第4節(jié)所提出的最近鄰-凝聚層次聚類NNHAC算法的最佳閾值,根據(jù)5.2.1節(jié)中確定的閾值S2,在S2之下,分別取不同的S1的值(其中S1>S2),S1的取值范圍為(0.55,1),當(dāng)閾值S1,S2分別為0.55,0.65時(shí),F(xiàn)值達(dá)到最大值0.7449,即最近鄰-凝聚層次聚類算法NNHAC的聚類效果達(dá)到最好。5.3實(shí)驗(yàn)結(jié)果分析5.3.1NNHAC算法和HAC算法的比較為了比較傳統(tǒng)凝聚層次聚類HAC算法和最近鄰-凝聚層次聚類NNHAC算法的聚類準(zhǔn)確度及耗時(shí),本實(shí)驗(yàn)在相同數(shù)據(jù)集下聚類進(jìn)而記錄相應(yīng)的F值和耗時(shí)。

5.3.3各支股票聚類效果比較為了不失一般性,將本文所提出的多特征融合的財(cái)經(jīng)新聞話題檢測(cè)模型應(yīng)用,并分別計(jì)算每支股票的準(zhǔn)確率,召回率以及F值,綜合計(jì)算得到各支股票新聞的平均準(zhǔn)確率為0.92,平均召回率為0.72,平均F值為0.79。由結(jié)果可知,各支股票新聞話題檢測(cè)的聚類效果相近,因此本文所提出的話題檢測(cè)模型具有普遍適用性。

6結(jié)束語

文章建立一種基于多特征融合的財(cái)經(jīng)新聞話題檢測(cè)模型。該模型先從時(shí)間窗角度切分新聞流,在每個(gè)切分后的新聞流中,不僅從多個(gè)角度提取文本特征,并結(jié)合所提出的最近鄰-凝聚層次聚類算法進(jìn)行聚類獲得話題簇。實(shí)驗(yàn)結(jié)果表明,融合了多種特征的財(cái)經(jīng)新聞話題檢測(cè)模型在一定程度上提高了話題檢測(cè)的準(zhǔn)確度,并且本文改進(jìn)的聚類算法有效降低了聚類的時(shí)間復(fù)雜度。因此,該模型能夠進(jìn)一步幫助投資者準(zhǔn)確地發(fā)現(xiàn)短時(shí)間內(nèi)熱門股票新聞話題,及時(shí)捕捉投資熱點(diǎn),輔助投資決策。

作者:譚夢(mèng)婕;呂鑫;陶飛飛

主站蜘蛛池模板: 国产男女视频在线观看 | 日韩欧美在线观看 | 亚洲最新中文字幕 | 伊人精品网 | 亚洲成片观看四虎永久 | 国产精品入口麻豆电影网 | 亚洲电影免费 | 亚洲网站视频在线观看 | 亚洲欧美在线综合一区二区三区 | 国产视频一二区 | 欧美福利视频网站 | 一级在线电影 | 久久亚洲日本不卡一区二区 | 婷婷丁香六月天 | 成人免费一区二区三区 | 日韩成人在线视频 | 免费在线欧美 | 羞羞视频免费网站 | 亚洲人成高清在线播放 | 国内精品久久久久影院中国 | 春色视频www免费视频观看 | 男人社区天堂 | 中文字幕久久网 | 亚洲成av人片天堂网 | 小视频免费观看 | 日本a级精品一区二区三区 欧洲精品在线观看 | 羞羞视频免费观看入口 | 中文字幕亚洲第一 | 国产精品美女久久福利网站 | 亚洲第一福利视频 | 波多野在线 | 欧美亚洲日本视频 | 羞羞影院男女午夜爽爽影视 | 亚洲国产高清视频 | 噜噜噜噜精品视频在线观看 | 亚洲综合伊人 | 羞羞网站 | 亚洲六月丁香婷婷综合 | 色综合激情丁香七月色综合 | 久久天堂一区二区三区 | 日产精品一二三四区国产 |