當(dāng)前位置: 首頁(yè) > 高級(jí)經(jīng)濟(jì)師 > 高級(jí)經(jīng)濟(jì)師職稱論文 > 2020年高級(jí)經(jīng)濟(jì)師農(nóng)業(yè)經(jīng)濟(jì)專業(yè)論文:隨機(jī)森林垃圾郵件檢測(cè)算法

2020年高級(jí)經(jīng)濟(jì)師農(nóng)業(yè)經(jīng)濟(jì)專業(yè)論文:隨機(jī)森林垃圾郵件檢測(cè)算法

更新時(shí)間:2020-11-13 10:47:13 來源:環(huán)球網(wǎng)校 瀏覽37收藏7

高級(jí)經(jīng)濟(jì)師報(bào)名、考試、查分時(shí)間 免費(fèi)短信提醒

地區(qū)

獲取驗(yàn)證 立即預(yù)約

請(qǐng)?zhí)顚憟D片驗(yàn)證碼后獲取短信驗(yàn)證碼

看不清楚,換張圖片

免費(fèi)獲取短信驗(yàn)證碼

摘要 提起高級(jí)經(jīng)濟(jì)師評(píng)審論文,許多小伙伴不約而同的說比考試難多了,誰(shuí)能救救我,環(huán)球網(wǎng)校小編為大家分享“2020年高級(jí)經(jīng)濟(jì)師農(nóng)業(yè)經(jīng)濟(jì)專業(yè)論文:隨機(jī)森林垃圾郵件檢測(cè)算法”,希望對(duì)準(zhǔn)備申報(bào)高級(jí)經(jīng)濟(jì)師農(nóng)業(yè)經(jīng)濟(jì)專業(yè)的考生有所幫助,快來和我一起看看吧

關(guān)鍵詞:垃圾郵件、隨機(jī)森林、合成少數(shù)類過采樣技術(shù)

引言

電子郵件是使用率最高的網(wǎng)絡(luò)應(yīng)用之一,是人們通過網(wǎng)絡(luò)交流溝通的重要工具。但是,垃圾郵件作為正常郵件的附屬產(chǎn)物,已經(jīng)嚴(yán)重影響到國(guó)家、企業(yè)和以及個(gè)人之間的網(wǎng)絡(luò)通訊與安全,甚至造成嚴(yán)重的經(jīng)濟(jì)損失。現(xiàn)在,越來越多的學(xué)者將分類預(yù)測(cè)技術(shù)應(yīng)用于垃圾郵件識(shí)別,如陳龍等提出了一種基于支持向量機(jī)的自適應(yīng)性分類器,并應(yīng)用于用于檢測(cè)垃圾郵件[1]。劉潔等提出基于改進(jìn)互信息的加權(quán)樸素貝葉斯算法以提高垃圾郵件識(shí)別的精確度和召回率[2]。本文提出了一種結(jié)合SMOTE和隨機(jī)森林的算法,并應(yīng)用于垃圾郵件檢測(cè),以提高垃圾郵件的識(shí)別率。

基于SMOTE和隨機(jī)森林的垃圾郵件識(shí)別算法

垃圾郵件檢測(cè)數(shù)據(jù)往往是不平衡數(shù)據(jù),即數(shù)據(jù)集中的正常郵件和垃圾郵件的數(shù)量是不均衡的。針對(duì)此問題,本文提出了基于合成少數(shù)類過采樣技術(shù)(SMOTE)[3]和隨機(jī)森林集成學(xué)習(xí)算法[4]的RF-smote算法。算法主要分兩步,首先應(yīng)用SMOTE算法對(duì)少數(shù)類別的垃圾郵件樣本進(jìn)行分析和新樣本合成,將生成的新樣本添加到數(shù)據(jù)集中,消除正常郵件和垃圾郵件樣本數(shù)量的不平衡。然后,應(yīng)用隨機(jī)森林集成學(xué)習(xí)算法,進(jìn)行垃圾郵件識(shí)別。

SMOTE算法步驟如下:1.針對(duì)訓(xùn)練數(shù)據(jù),采取最鄰近算法,計(jì)算出垃圾郵件樣本數(shù)據(jù)的K個(gè)近鄰;2.針對(duì)每個(gè)垃圾郵件樣本,與它K近鄰中隨機(jī)選擇一個(gè)的樣本,進(jìn)行隨機(jī)線性插值;3.重復(fù)第2步,直至生成的新樣本個(gè)數(shù)達(dá)到合成比率要求。4.將新合成的樣本數(shù)據(jù)與原數(shù)據(jù)集合成,產(chǎn)生新的訓(xùn)練集。隨機(jī)森林是一個(gè)包含多個(gè)決策樹的集成分類器。算法步驟如下:1.從SOMTE算法處理后的平衡訓(xùn)練集中,通過有放回的重取樣來獲得N’個(gè)樣本作為生成決策樹的訓(xùn)練集;2.如果每個(gè)樣本有M個(gè)特征,隨機(jī)選擇m(m

數(shù)據(jù)集與評(píng)價(jià)準(zhǔn)則

實(shí)驗(yàn)選擇UCI數(shù)據(jù)集合Spambase,該數(shù)據(jù)集包含58個(gè)屬性和4601個(gè)實(shí)例,主要用來研究對(duì)垃圾郵件的分類檢測(cè)。該數(shù)據(jù)集合是一個(gè)不平衡數(shù)據(jù)集合,包含兩個(gè)類別:垃圾郵件(1813個(gè)實(shí)例),正常郵件(2788個(gè)實(shí)例)。實(shí)驗(yàn)評(píng)估采用準(zhǔn)確率(ACC)、檢測(cè)率(DR)和精確率(PR)三種方法衡量算法的性能。準(zhǔn)確率定義如公式(1),表示正確識(shí)別正常郵件和垃圾郵件的實(shí)例數(shù)與全體實(shí)例數(shù)的比值。公式1-3中,TP表示垃圾郵件的預(yù)測(cè)實(shí)例數(shù),TN表示正常郵件預(yù)測(cè)實(shí)例數(shù),F(xiàn)P表示正常郵件錯(cuò)誤的判定為垃圾郵件的實(shí)例數(shù),F(xiàn)N表示垃圾郵件判定為正常郵件的實(shí)例數(shù)。

實(shí)驗(yàn)與分析

實(shí)驗(yàn)基于WEKA[5]平臺(tái)進(jìn)行,RF-smote在檢測(cè)垃圾郵件前對(duì)數(shù)據(jù)集合Spambase中的垃圾郵件樣本進(jìn)行了SMOTE合成,使用的最近鄰設(shè)置為5,合成率設(shè)置為50%,隨機(jī)森林算法中決策樹數(shù)目設(shè)置為10。RF-smote算法應(yīng)用的合成數(shù)據(jù)中,垃圾郵件實(shí)例數(shù)為2719,正常郵件數(shù)為2788,基本變?yōu)槠胶鈹?shù)據(jù)。實(shí)驗(yàn)評(píng)估采用十折交叉驗(yàn)證進(jìn)行,實(shí)驗(yàn)數(shù)據(jù)如表1所示。從表1可以看出,本文提出的算法RF-smote在準(zhǔn)確率、檢測(cè)率和精確率性能指標(biāo)上,均優(yōu)于未應(yīng)用SMOTE時(shí)的算法RandomForenst(RF).在準(zhǔn)確率指標(biāo)上,RF-smote優(yōu)于RF0.8%。在檢測(cè)率指標(biāo)上,RF-smote優(yōu)于RF3.8%。同樣,在精確率指標(biāo)上,RF-smote優(yōu)于RF2.9%。因此,本文提出的算法RF-smote在垃圾郵件檢測(cè)方面展示出了良好的性能。5結(jié)束語(yǔ)本文應(yīng)用SMOTE算法和隨機(jī)森林集成學(xué)習(xí)算法進(jìn)行垃圾郵件識(shí)別,并在Spambase數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文提出的算法性能表現(xiàn)良好。

參考文獻(xiàn):

[1]陳龍,梁意文,譚成予.基于自適應(yīng)性分類器的垃圾郵件檢測(cè)[J].計(jì)算機(jī)工程,2018,(5):194-200.

[2]劉潔,王錚,王輝.基于IMI-WNB算法的垃圾郵件過濾技術(shù)研究[J].計(jì)算機(jī)工程,2020,(6):1-7.

[3]NiteshV.SyntheticMinorityOver-samplingTechnique[J].JournalofArtificialInteliigenceResearch,2002,(16):321-357.

[4]袁梅宇.數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)-WEKA應(yīng)用技術(shù)與實(shí)踐[M].北京:清華大學(xué)出版社,2014.

考生可點(diǎn)擊下方下載查看更多關(guān)于高級(jí)經(jīng)濟(jì)師論文的相關(guān)參考文檔,小編建議大家可提前填寫 免費(fèi)預(yù)約短信提醒服務(wù),屆時(shí)我們會(huì)及時(shí)提醒您2020年各地區(qū)高級(jí)經(jīng)濟(jì)師考試合格證書領(lǐng)取時(shí)間通知。

以上內(nèi)容是2020年高級(jí)經(jīng)濟(jì)師農(nóng)業(yè)經(jīng)濟(jì)專業(yè)論文:隨機(jī)森林垃圾郵件檢測(cè)算法,小編為廣大考生上傳更多2020年高級(jí)經(jīng)濟(jì)師職稱評(píng)審參考文檔,可點(diǎn)擊“免費(fèi)下載”按鈕后進(jìn)入下載頁(yè)面。

分享到: 編輯:環(huán)球網(wǎng)校

資料下載 精選課程 老師直播 真題練習(xí)

高級(jí)經(jīng)濟(jì)師資格查詢

高級(jí)經(jīng)濟(jì)師歷年真題下載 更多

高級(jí)經(jīng)濟(jì)師每日一練 打卡日歷

0
累計(jì)打卡
0
打卡人數(shù)
去打卡

預(yù)計(jì)用時(shí)3分鐘

環(huán)球網(wǎng)校移動(dòng)課堂APP 直播、聽課。職達(dá)未來!

安卓版

下載

iPhone版

下載

返回頂部