宏觀經濟大數據系列研究之五:融合機器學習算法和多因素的禽肉交易量預測方法研究
來源:大數據部 ??時間:2020-06-22

摘要:[目的]強化畜禽業生產決策和政策引導的科學性、前瞻性,有效預測多變量影響下的禽肉市場變化趨勢。[方法]本文以白條雞為例,綜合考慮多重因素對白條雞交易量的影響,提取50個可能與白條雞交易量預測有關的變量作為數據特征,對比當前主流的機器學習算法,探索性地提出一種基于機器學習的白條雞日均交易量預測方法,禽肉產品供需能力進行量化預測。[結果]ElasticNet、RandomForest和GBRT三個算法預測效果均較為穩定,預測效果從優至劣依次為:GBRT、RandomForest、ElasticNetMAE分別為:25.30、26.67、28.21);隨著時間積累訓練樣本數量增加,白條雞日均交易量預測效果逐步;三種算法具備提前期的穩定預測效果。[局限]考慮到本文采用的數據特征種類和歷史數據量較少,且對行業的專業認識較淺,研究尚有不足之處。[結論]本研究對于量化評估、預測重大突發事件對產業產值的影響具有借鑒意義,有望為政府部門預判產業危機、制定產業調控政策提供理論數據支撐。

關鍵: 預測方法;機器學習;白條雞;制定政策

分類號: TP393

DOI: 10.11925/infotech.2096-3467.2020.0323

 

 

1 引言 

2018年8月以來,中國多個省份先后發生百余起非洲豬瘟疫情,導致豬肉供給不足,價格居高不下,城鄉居民食品消費壓力劇增。據國家統計局發布的數據,20201月全國居民消費價格指數(CPI)同比上漲5.4%。其中,豬肉價格上漲116%,影響CPI上漲約2.76個百分點,是推動CPI同比漲幅擴大的主要因素[1]。為保障肉類供給和價格穩定,緩解生產和消費壓力,雞肉、鴨肉等禽肉對豬肉消費的潛在替代能力受到各方關注,因而對禽肉產品供需能力進行量化預測有助于提高畜禽業生產決策和政策引導的科學性、前瞻性。然而,影響禽肉產量和交易量的市場因素較多,如供給、需求、價格等。此外,節假日、突發事件等短期外部沖擊也可能使市場發生波動,給預測的及時性和準確性帶來挑戰。近年來,機器學習成為國內外學者的研究熱點之一,在處理多變量、多時相數據時表現出高精度、高時效等優勢,為監測預測禽肉產品供需市場變化趨勢提供了新的解決思路。

本文以白條雞為例,綜合考慮春節、突發事件等多重因素對白條雞交易量的影響,利用主流的機器學習算法提出一種白條雞日均交易量預測方法,量化評估2020年春節期間畜禽市場需求的變化趨勢,為政府部門預判產業危機、制定產業調控政策提供理論數據支撐。

2 文獻綜述

學術界對國民經濟和農業生產領域的預測研究大多采用傳統的時間序列預測方法,如指數平滑[2]、自回歸移動平均(Auto Regressive Integrated Moving Average, ARIMA[3]和灰色預測(GM)[4]等模型。按照預測對象劃分,主要聚焦在對產量和價格的預測兩個方面。

1)產量預測。李志強等采用ARIMA模預測內蒙古年度羊存欄量[5];王曉梅通過建立灰色理論GM(1,1)模型對我國主要畜產品年產量做出預測[6];林紹森等比較了常見的指數平滑、ARIMA和灰色預測模型在糧食產量預測中的效果[7]。

2)價格預測。劉峰等基于白菜月價格的當前值和過去值構建非平穩時間序列ARIMA模型,地預報未來白菜月價格趨勢[8]。雖然時間序列方法具有計算簡單等優勢,但由于該類模型的自變量少,難以在預測中引入市場變化的多重影響因素,無法及時量化節假日、重大突發事件等對畜禽行業造成的沖擊。同時,時間序列預測方法的準確度與歷史數據的數量存在正相關性,但本文預測對象——白條雞交易量具有歷史數據較少、可獲取的影響因素數據較多等特點,從預測的及時性、準確性角度出發,自變量多、因變量少的機器學習預測方法顯然更為適用。

主流的機器學習算法有線性回歸[9]、彈性網絡Elastic Net回歸[10]、隨機森林(Random Forest[11]和梯度提升回歸樹(Gradient Boosting Regression Tree, GBRT)等[12],已成功應用于產業供應鏈、能源、衛生、交通等領域[13-16],相對傳統時間序列預測方法具有一定的優勢。董莉等基于網絡搜索數據和Elastic Net建立的CPI及時預測模型,有效避免了灰色預測等方法的時間滯后性[17]??祩骼妊芯炕谔荻忍嵘貧w樹的旅游流量預測模型,發現其比指數平滑算法有更高的預測準確性[18]。近年來得到廣泛應用的GBRT算法,在處理影響因素復雜且歷史數據較少的預測中表現尤為突出,具有較高的預測精度[19]。韓忠明等提出的早期電影票房預測模型,與隨機森林模型、決策樹模型和非線性回歸模型相比,GBRT模型相對準確率最高[20]。

總體來看,目前對畜禽肉產品交易量或產量預測的研究較少,尤其缺乏綜合考慮多重影響因素的動態預測方法研究。在自變量類別較多、因變量歷史數據較少的情況下,機器學習預測方法較傳統方法表現更佳。因此,本文提出一種融合機器學習算法和廣泛特征數據的預測方法,嘗試對2020年春節期間白條雞日均交易量進行短期預測,并對比分析預測效果??紤]到在此期間市場同時受到突發公共衛生事件影響,因此在特征選取過程中也納入了相關數據。

3 融合機器學習算法和多重因素的預測方法 

3.1 總體思路

本文綜合考慮春節、突發事件等短期變化因素對白條雞交易量的影響,從雞禽類產業、互聯網輿情信息、網民需求意愿和相關統計數據等多源數據中抽取可量化的數據特征,利用主流機器學習算法預測白條雞交易量,提出融合機器學習算法和多重因素的白條雞日均交易量預測方法。同時,對比不同算法的預測效果,探索隨著時間增長、訓練樣本增加時各算法的迭代滾動效果,分析各算法達到穩定預測所需要的訓練樣本數量和提前期數??傮w思路如圖1所示。



1 總體思路

Fig1. General Train of Thought

按照上述思路,筆者提出白條雞日均交易量預測函數,如公式(1)所示。

            1

其中,代表白條雞在t周的每日交易量,φt-1代表禽類上下游行業市場主體及招聘崗位在t-1的變化數據,δt-1代表互聯網網民在t-1的搜索意愿數據,ξt-1代表t-1的相關輿情數據,ηt-1代表其他渠道公開發布的第t-1相關統計數據,函數f擬采用機器學習數值型預測算法。

3.2 白條雞日均交易量預測特征描述

對白條雞的日均交易量開展預測前,需要預先設定預測算法所需的數據特征,特征選取的優劣會直接影響預測算法的性能。由于當前及近期白條雞交易行為已受到農歷新年和重大突發事件影響,因此,本研究在數據特征選取過程中,兼顧雞禽類產業、互聯網輿情信息、網民需求意愿、白條雞相關統計數據等多種趨勢變化,綜合考慮多方面因素對白條雞交易量的影響。共提取50個可能與白條雞日均交易量預測有關的變量作為數據特征,包括市場主體特征30個、輿情信息特征2個、搜索意愿特征14個和統計數據特征4個,利用常見的統計方法對每一類特征進行細分、量化及逐周提取,白條雞日均交易量預測特征如表1所示。

1 白條雞日均交易量預測特征(逐周)

Table1 Predict Characteristics of Dressed Chicken’s Daily Turnover(Week by Week)

特征類別

特征序號

特征名稱

特征描述

市場主體特征

F1

BREEDING_ADD_YOY

雞鴨等家禽養殖企業和個體工商戶新增數量同比值

F2

BREEDING_CANCEL_REVOKE_YOY

雞鴨等家禽養殖企業和個體工商戶注銷及吊銷數量同比值

F3

BREEDING_RECRUIT_YOY

雞鴨等家禽養殖企業和個體工商戶招聘崗位數量同比值

F4

FEED_ADD_YOY

雞鴨等家禽飼料企業和個體工商戶新增數量同比值

F5

FEED_CANCEL_REVOKE_YOY

雞鴨等家禽飼料企業和個體工商戶注銷及吊銷數量同比值

F6

FEED_RECRUIT_YOY

雞鴨等家禽飼料企業和個體工商戶招聘崗位數量同比值

F7

SLAUGHTER_ADD_YOY

雞鴨等家禽屠宰加工企業和個體工商戶新增數量同比值

F8

SLAUGHTER_CANCEL_REVOKE_YOY

雞鴨等家禽屠宰加工企業和個體工商戶注銷及吊銷數量同比值

F9

SLAUGHTER_RECRUIT_YOY

雞鴨等家禽屠宰加工企業和個體工商戶招聘崗位數量同比值

F10

CHICK_ADD_YOY

雞苗種雞企業和個體工商戶新增數量同比值

F11

CHICK_CANCEL_REVOKE_YOY

雞苗種雞企業和個體工商戶注銷及吊銷數量同比值

F12

CHICK_RECRUIT_YOY

雞苗種雞企業和個體工商戶招聘崗位數量同比值

F13

MEDICINE_ADD_YOY

生產禽藥企業和個體工商戶新增數量同比值

F14

MEDICINE_CANCEL_REVOKE_YOY

生產禽藥企業和個體工商戶注銷及吊銷數量同比值

F15

MEDICINE_RECRUIT_YOY

生產禽藥企業和個體工商戶招聘崗位數量同比值

F16

BREEDING_ADD_QOQ

雞鴨等家禽養殖企業和個體工商戶新增數量環比值

F17

BREEDING_CANCEL_REVOKE_QOQ

雞鴨等家禽養殖企業和個體工商戶注銷及吊銷數量環比值

F18

BREEDING_RECRUIT_QOQ

雞鴨等家禽養殖企業和個體工商戶招聘崗位數量環比值

F19

FEED_ADD_QOQ

雞鴨等家禽飼料企業和個體工商戶新增數量環比值

F20

FEED_CANCEL_REVOKE_QOQ

雞鴨等家禽飼料企業和個體工商戶注銷及吊銷數量環比值

F21

FEED_RECRUIT_QOQ

雞鴨等家禽飼料企業和個體工商戶招聘崗位數量環比值

F22

SLAUGHTER_ADD_QOQ

雞鴨等家禽屠宰加工企業和個體工商戶新增數量環比值

F23

SLAUGHTER_CANCEL_REVOKE_QOQ

雞鴨等家禽屠宰加工企業和個體工商戶注銷及吊銷數量環比值

F24

SLAUGHTER_RECRUIT_QOQ

雞鴨等家禽屠宰加工企業和個體工商戶招聘崗位數量環比值

F25

CHICK_ADD_QOQ

雞苗種雞企業和個體工商戶新增數量環比值

F26

CHICK_CANCEL_REVOKE_QOQ

雞苗種雞企業和個體工商戶注銷及吊銷數量環比值

F27

CHICK_RECRUIT_QOQ

雞苗種雞企業和個體工商戶招聘崗位數量環比值

F28

MEDICINE_ADD_QOQ

生產禽藥企業和個體工商戶新增數量環比值

F29

MEDICINE_CANCEL_REVOKE_QOQ

生產禽藥企業和個體工商戶注銷及吊銷數量環比值

F30

MEDICINE_RECRUIT_QOQ

生產禽藥企業和個體工商戶招聘崗位數量環比值

輿情信息特征

F31

CHICKEN_NUMS

網民提及雞肉等相關輿情信息數量

F32

CHICKEN_ EMOTION

網民提及雞肉等相關輿情信息情感值

搜索意愿特征

F33

SEARCH_ SPRING_FESTIVAL

“過年”一詞百度指數結果

F34

SEARCH_ CHICKEN

“雞肉”一詞百度指數結果

F35

SEARCH_ CHICKEN_PRICE

“雞肉價格”一詞百度指數結果

F36

SEARCH_ FEED

“飼料”一詞百度指數結果

F37

SEARCH_ BLESS

“掃?!币辉~百度指數結果

F38

SEARCH_ ONLINE_OFFICE

“在線辦公”一詞百度指數結果

F39

SEARCH_RETURN

“返鄉”一詞百度指數結果

F40

SEARCH_NECESSITIES

“年貨”一詞百度指數結果

F41

SEARCH_GREETINGS

“拜年”一詞百度指數結果

F42

SEARCH_DISEASE

“疾病”一詞百度指數結果

F43

SEARCH_VEGETABLES

“買菜”一詞百度指數結果

F44

SEARCH_EPIDEMIC

“疫情”一詞百度指數結果

F45

SEARCH_TICKET

“搶票”一詞百度指數結果

F46

SEARCH_ CHICK

“雞苗”一詞百度指數結果

統計數據特征

F47

PORK_NUMS

豬肉日均交易量(統計口徑)

F48

EGG_NUMS

雞蛋日均交易量(統計口徑)

F49

BEEF_NUMS

牛肉日均交易量(統計口徑)

F50

MUTTON_NUMS

羊肉日均交易量(統計口徑)

1)市場主體特征

市場主體特征指雞禽類相關上下游產業的企業和個體工商戶等市場主體變化及招聘崗位數量變化情況。主要包括:白條雞相關雞鴨等家禽養殖類、雞鴨等家禽飼料類、雞鴨等家禽屠宰加工類、雞苗種雞類、生產禽藥類企業和個體工商戶的注銷及吊銷數量、新增數量和招聘崗位數量,并進行相應的同比和環比變換處理。其中,該部分基礎數據主要來源于兩方面,包括國家企業信用信息公示系統的企業登記注冊數據,以及國家信息中心從58同城、趕集網、智聯招聘、前程無憂等主流互聯網招聘網站采集的招聘崗位數據。

2)輿情信息特征

輿情信息特征指網民對雞肉等相關信息提及量及情感值變化情況。主要包括:網民提及雞肉等相關輿情信息的發帖數量和網民的對應情感值等。該部分基礎數據主要來源于國家信息中心從微博、微信公眾號、論壇、博客等主流互聯網平臺上采集到的輿情數據。

3)搜索意愿特征

搜索意愿特征指網民對雞肉、過年和疫情等相關主題的搜索熱度。主要包括:“過年”“雞肉”“雞肉價格”“飼料”“掃?!薄霸诰€辦公”“返鄉”“年貨”“拜年”“疾病”“買菜”“疫情”“搶票”“雞苗”等詞匯的百度指數。該部分基礎數據主要來源于百度指數公開發布的上述關鍵詞網絡搜索趨勢變化數據。

4)統計數據特征

統計數據特征指與白條雞日均交易量有關的其他統計數據情況。主要包括:國家農業農村部信息中心官方網站公開發布的豬肉日均交易量、雞蛋日均交易量、牛肉日均交易量、羊肉日均交易量等統計數據。

3.3 數值型預測機器學習算法

當前主流的數值型預測機器學習算法包括線性回歸(Linear Regression)[9]、彈性網絡回歸(Elastic Net)[10]、隨機森林(Random Forest)[11]和梯度提升回歸樹(GBRT)[12]等。

1)線性回歸假設目標值與特征之間線性相關,即滿足一個多元一次方程。通過構建損失函數,求解損失函數最小時的參數。求解方式有兩種:一是基于均方誤差最小化的最小二乘法;二是對自變量進行不斷更新,使得目標函數不斷逼近最小值的梯度提升法。該算法簡單易操作,但在自變量較多時容易過度擬合。

2)彈性網絡回歸為了減小過度擬合的程度,用最小二乘法最小化損失函數,并加入權值向量中各元素絕對值之和,與權值向量中各元素平方和的根正則化,是一種結合嶺回歸和Lasso算法的組合模型。該模型收斂速度較快,尤其在多個特征間存在較強相關性時更易保持穩定性,但在特征選擇時會降低原始數據所包含的信息維度。

3)隨機森林由多棵決策樹構成,且森林中的每一棵決策樹之間沒有關聯,模型的最終輸出由森林中的每一棵決策樹共同決定。該模型被廣泛應用于分類和回歸問題上,主要取決于隨機森林的每棵CART樹是分類樹還是回歸樹。如果是回歸樹,則CART樹是回歸樹,采用的原則是最小均方差。該模型的優點是較好地解決了決策樹過擬合和精確度低的不足,適用于高維數據預測,但具有運算效率低的缺點。

4)梯度提升算法可以用梯度下降的思想來理解。若將模型的輸出值看作一個變量,使損失函數最小化實際上是一個一維搜索問題,從模型的輸出值出發,以負梯度方向來搜索最優值。對于新引入決策樹劃分的每個區域,分別計算其搜索步長,將新決策樹在每個區域的預測值與搜索步長合并在一起,便等效于上面的每個區域重新計算輸出值。梯度提升回歸樹的優點主要是非線性變換比較多、表達能力強,不需要做復雜的特征工程和特征變換,能夠防止過擬合。

4 實驗數據與評估指標

4.1 數據描述

為有效開展白條雞日均交易量預測實驗,本文采用農業農村部信息中心官方網站上公開發布的一年來白條雞日均交易量(逐周)數據作為預測目標結果,數據時間范圍為20192月25日(周一)至202031日(周日),共53周。同時,為有效提取表1中提到的數據特征,同步抓取了4類數據:

1)20182月25日至2020年223日(104周)期間雞鴨等家禽養殖類、雞鴨等家禽飼料類、雞鴨等家禽屠宰加工類、雞苗種雞類、生產禽藥類企業和個體工商戶登記注冊數據共522 811條,以及這些市場主體發布的招聘崗位數據共1 147 948條。選取兩年作為該數據周期是為了便于同比計算處理。

220192月25日至2020年223日(52周)期間網民提及雞肉等相關信息的1 072 805條發帖數據。

320192月25日至2020年223日(52周)期間“過年”“雞肉”“疫情”“搶票”等14個關鍵詞的百度指數數據。

420192月25日至2020年223日(52周)期間農業農村部信息中心官方網站上公開發布的豬肉、雞蛋、牛肉、羊肉日均交易量統計數據。

此外,為模擬真實預測場景,將最終提取的50項數據特征與白條雞日均交易量目標結果進行T+1錯位映射處理,即利用第T周的數據特征映射第T+1周的目標值(共映射形成52周對應數據),以便開展后續預測實驗。

4.2 評估指標

選取數值型預測領域較為常用的評估指標進行實驗效果評估,其中,對于評估預測目標值不變的情況,采用平均絕對誤差(MAE)和均方根誤差(RMSE)進行效果評估[9,13,17-18];對于評估預測目標值隨著時序不斷變化的情況,采用相對平方根誤差(RRSE)進行效果評估[21-22]。這三種指標數值越小則代表預測效果越好。

MAE能更好地反映預測值誤差的實際情況,如公式(2)所示,其中yiyi分別代表真實值和預測值。

                    2

RMSE同樣可以衡量真實值和預測值之間的偏差,但面對異常值情況時更為敏感,如公式(3)所示。

                 3

RRSE更適用于評估預測目標隨著評估流程不同或時序演變而不斷變化的情況,如公式(4)所示。

                   4

5  

5.1 白條雞日均交易量預測實驗設計思路

為有效評估利用上述方法預測白條雞日均交易量的實際效果,本文從數據特征、數值型預測算法、時間序列等視角出發,共設計了4組對比實驗:

實驗一:分析數據特征對預測效果穩定性影響。即保持表1中的數據特征不變,對4.1節提到的52周實驗數據集進行5次隨機抽樣,并分別對抽樣后的數據集應用4種不同數值型預測算法,重點評估多次實驗下的預測誤差值MAE和RMSE是否存在較大差異,驗證預測效果是否穩定。

實驗二:對比分析不同算法的預測效果。在實驗一基礎上,側重對比4種數值型預測算法在5次隨機抽樣數據集上預測誤差的均值表現,即對比分析哪種算法的MAE和RMSE最小。

實驗三:對比分析迭代時間序列下的滾動預測效果。即保持數據特征和預測算法不變,評估隨著時間推移(訓練樣本數量不斷增加),白條雞日均交易量預測效果是否存在明顯上升或下降的變化趨勢。

實驗四:分析預測效果在保持相對較優前提下所需的最小訓練樣本數量。即保持數據特征、預測算法及數據測試集均不變,通過不斷減少訓練集樣本數量,評估分析預測效果維持在較優的情況下所需的最小訓練集。

在上述所有實驗執行過程中,分別將表1中的市場主體、輿情信息、搜索意愿和統計數據4方面數據特征映射為公式(1)中的φ、ξ、δη變量;分別將LinearRegression、ElasticNet、RandomForest和GBRT這4種數值型預測算法映射為公式(1)中的f函數;此外,對于所有實驗數據集,均設定最后一周數據為測試集,其他時間數據為訓練集。

5.2 數據特征對預測效果穩定性影響

為驗證表1所述的數據特征對白條雞日均交易量預測效果的穩定性,即在保持數據特征不變的前提下,預測效果不會隨著算法的不同和訓練集的小部分缺失而導致大幅度波動,對52周完整實驗數據進行5次隨機抽樣操作,每次抽樣在上次抽樣樣本量基礎上剔除掉一周數據樣本,最終形成52周、51周、50周、49周、48周共5個實驗數據集,并分別采用LinearRegression、ElasticNet、RandomForest和GBRT等4種算法測試白條雞日均交易量預測誤差范圍,實驗結果如圖2所示。

 

a)MAE                                 bRMSE

2 隨機抽樣數據集對預測效果穩定性的對比結果

Fig2. Results of Random Sampling Data Set on the Stability

從圖2可以看出,無論是MAE還是RMSE,雖然LinearRegression預測結果的穩定性表現不佳,即MAE和RMSE數值相對較高(MAE最高62.76、最低41.78,RMSE最高102.18、最低55.59),但其余三個算法均表現出預測效果的穩定性,MAE和RMSE數值波動范圍不大,ElasticNet預測結果的MAE最高最低分別為35.0825.71,RMSE最高最低分別為53.7936.59;RandomForest的MAE最高最低分別為30.0923.33,RMSE最高最低分別為50.0938.07;GBRT預測結果的MAE最高最低分別為29.2422.71,RMSE最高最低分別為48.9536.56。分析原因發現,LinearRegression算法的實驗效果不佳主要是因為白條雞日均交易量預測的數據特征相對較多,而預測樣本量相對較少,容易造成過擬合現象。

5.3 不同算法的預測效果分析

在上述實驗基礎上,為進一步分析對白條雞日均交易量具有最優預測效果的算法,即預測誤差值最小,分別對比上述5組隨機抽樣數據實驗中MAE和RMSE的均值表現,如圖3所示。

 

3 不同算法的預測效果對比分析

Fig3. Comparison with Prediction Results of Different Algorithms

MAE和RMSE評估結果看,預測效果從優至劣排序分別為:GBRT、RandomForest、ElasticNet、LinearRegression,4種算法的MAE值分別為:25.30188、26.67456、28.21178、50.06592,RMSE值分別為:40.72684、42.47114、43.32624、73.35752,GBRT算法均表現出最高的平均預測準確率,而LinearRegression算法極不穩定,且平均誤差值較高,不適用于此類問題研究,因此不再列入后面的實驗參照中。

5.4 迭代滾動預測效果分析

為分析隨著時間推移即訓練樣本不斷增加情況下,白條雞日均交易量預測效果的變化趨勢,將52周實驗樣本進行切片處理,具體數據集劃分方式如表2所示。

2 迭代滾動預測實驗數據集劃分方式

Table2 Data Set Partition Method of Iterative Rolling Prediction Experiment

時間切片

訓練集時間跨度

測試集時間跨度

1

1-44

45

2

1-45

46

3

1-46

47

4

1-47

48

5

1-48

49

6

1-49

50

7

1-50

第51

8

1-51

第52

即第1個時間切片的訓練集由第1周至第44周數據組成,測試集為第45周數據,從第2至第8個時間切片開始,訓練集和測試集不斷滾動疊加單周數據。其中,數據特征和預測算法與之前實驗保持相同設置,由于該種實驗方式會導致預測目標值不斷變化,因此該部分采用RRSE指標進行評估,結果如圖4所示。

 

4 不同算法的預測效果對比分析

Fig4. Comparison with Prediction Results of Different Algorithms

GBRT、RandomForest和ElasticNet三種算法的RRSE結果呈現出波動下降趨勢,說明隨著時間不斷積累即訓練樣本數量不斷增加,白條雞日均交易量預測效果不斷提升。以GBRT算法為例,8個時間切片的RRSE分別為124.4436%、162.7494%、139.4145%、74.9973%、53.3966%、41.4741%、2.8766%、13.3162%。此外,可以看出,ElasticNet算法在早期預測時波動性較大(第1時間切片下RRSE的高達339.79%),但后期相對穩定。而RandomForest算法在前4期的預測效果要優于GBRT算法,但隨著時間推移GBRT算法在后期預測效果更佳。

5.5 預測所需最少訓練樣本數量分析

為分析白條雞日均交易量預測效果與所需訓練樣本數量的關聯關系,即分析預測效果在保持相對較優前提下所需的最小訓練樣本數量,將52周實驗樣本進行了不同策略的切片處理,具體數據集劃分方式如表3所示。

3 預測效果與所需訓練樣本數量分析實驗數據集劃分方式

Table3 Data Set Partition Method of Prediction Effect and Training Sample Number Analysis Experiment

時間切片

訓練集時間跨度

測試集時間跨度

1

1-44

第52

2

1-45

第52

3

1-46

第52

4

1-47

第52

5

1-48

第52

6

1-49

第52

7

1-50

第52

8

1-51

第52

即全部8個時間切片均選定第52周數據作為同一預測目標,而從第8至第1個時間切片的訓練集時間跨度依次滾動遞減,從而分析所需的最少樣本數量。由于該種實驗方式的預測目標值不變,因此可采用MAE指標進行評估,結果如圖5所示。

 

5 預測所需訓練樣本和提前期數分析

Fig5. The Relationship Between the Training Samples Needed for Prediction and the Number of Period Time

GBRT、RandomForest和ElasticNet三種算法的MAE結果呈現出明顯下降趨勢,說明訓練樣本數量越多則對白條雞日均交易量的預測效果越好,此外,從第6個時間切片開始,三種算法的預測效果均趨于穩定,可以表明利用第1~49周數據進行訓練便可通過第52周的數據特征預測第53周的白條雞日均交易量,以GBRT為例,8個時間切片的MAE分別為120.8459、114.4232、116.8219、107.3480、59.8887、11.7666、13.6099、16.8542,從第6個時間切片開始,MAE大幅度下降并穩定在20以下。

6   

本文以白條雞日均交易量為例,綜合考慮春節和重大突發事件等諸多因素對白條雞交易量的動態影響,提出一種基于機器學習的白條雞日均交易量預測方法,對比分析了LinearRegression、ElasticNet、RandomForest和GBRT等4種主流算法的預測效果。實驗結果顯示,除線性回歸算法的預測效果穩定性表現不佳外,其余三個算法均具有預測效果的穩定性,且預測效果從優至劣依次為:GBRT、RandomForest、ElasticNet、LinearRegression;隨著時間不斷積累以及訓練樣本數量不斷增加,白條雞日均交易量預測效果不斷提升;GBRT、RandomForest和ElasticNet算法具備提前三期的穩定預測效果。本研究雖尚有不足之處,如數據特征種類和歷史數據量較少等,但對于量化評估、預測重大突發事件對產業產值的影響具有借鑒意義,未來將擴大數據獲取渠道、綜合考慮畜禽養殖因素等,展開更加深入的研究,為政府部門預判產業危機、制定產業調控政策提供理論數據支撐。

开个什么店好赚钱呢 门面不是太正 重庆时时计划手机软件下载 宁夏十一选五的平台 昨晚七位数开奖号码是 江苏快三彩票怎么玩 北京赛车规律预测 甘肃省快3玩法必中技巧 股票历史数据下载 江苏快3号码预测 甘肃任5遗漏 吉林新十一选五