宏觀經濟大數據系列研究之四:基于字符級CNN技術的公共政策網民支持度研究
來源:大數據部 ??時間:2020-06-22

摘要:

[目的]提出更適用公共政策評價的網民情感分類指標,引入深度學習技術研究網民立場的自動化識別和支持度研判問題。

[方法]選取三個不同領域不同類型的重要公共政策作為研究對象,對微博數據進行采集、清洗和標注;運用立場分析方法研判三個政策的網民支持度;構建基于字符級卷積神經網絡CNN技術的文本分類模型對實驗數據集進行訓練,并對實驗結果進行對比檢驗解讀。

[結果]該模型在三組數據測試集的準確率和召回率綜合指標上均取得優秀表現,當模型穩定后有兩組數據集F1值在0.8以上,一組F1值在0.6以上;且耗時較循環神經網絡RNN模型更短,訓練時間差距達數十倍。

[局限]數據樣本量和政策覆蓋類型有限,網民支持度計算方法有待進一步深化。

[結論]立場分類方法和字符級CNN技術在公共政策評價的效度和效率上有較好表現,尤其在應急突發性政策評價方面能夠發揮明顯作用。

關鍵: 公共政策;立場分析;卷積神經網絡;微博;大數據

分類號: TP391

DOI:

 

 

1  引言 

作為公共政策的目標群體,人民群眾的普遍需求或期望是否切實得到滿足,是檢驗公共政策含金量的重要標準?;ヂ摼W的普及和大數據技術的發展,為更全面、更客觀、更及時地搜集社情民意,準確、動態地評估公共政策的實際效果提供了可能。特別是伴隨社交媒體的廣泛應用,以及自然語言處理等技術的日益成熟,網民自發在社交媒體平臺中發布的大量零散的非結構化的文本數據,成為解析群體心理狀態的重要通道。尤其在涉及經濟民生等受到社會廣泛關注的重要戰略和政策措施上,社交媒體大數據相比傳統調查數據的優勢更加突顯。相比結果的精確度,大數據分析更關注總體趨勢和效率的特點,也更符合公共政策評價發展的需求。本文將運用立場分析方法,提出更適用公共政策評價的網民情感分類指標;并選取三個不同領域不同類型重要公共政策作為研究對象,基于新浪微博數據,引入字符級卷積神經網絡(CNN)技術,來研究網民立場的自動化識別和支持度研判問題,以期為進一步優化我國政策評估相關研究工作提供有益思路。

2  文獻綜述

2.1  基于社交媒體文本數據的情感分類方法

近年來,基于社交媒體文本數據的互聯網情感分析(Sentiment Analysis)相關研究不斷深入,涉及輿情風險管控、消費者偏好調查、股市預測、政治選情預測等多個領域??傮w來看,國內外學者在互聯網情感分析上主要有三大分類方向:一是細粒度基本情緒識別。如,Bollen等根據心理學的情緒狀態量表,將公眾情緒分為緊張、抑郁、憤怒、活力、疲勞和困惑六個維度[]。董穎紅、陳浩等構建了微博客基本情緒詞庫,在分析數百萬中文用戶情緒基礎上,得出快樂、悲傷、憤怒、恐懼和厭惡五種基本社會情緒[]。二是粗粒度的情感極性分類。正負面情緒的“兩分法”,以及積極/正面、消極/負面、中立情緒的“三分法”運用最為廣泛,并在此基礎上進一步衍生出“四分法”“五分法”。如,Bermingham等通過研究愛爾蘭大選中Twitter網民的四類情緒表達(積極、消極、中立、混合)來預測選舉結果[]。Agarwal等在構建Twitter表情符號詞典時采取了特別積極、特別消極、積極、消極、中立的五個分類[]。三是針對目標話題的立場檢測。無論是粗粒度還是細粒度的情感分類,都是在確定網絡文本的主觀情緒傾向,而在更多的情況下,網民對某一特定話題或對象的態度和立場更具有實際應用價值[]。國內外自然語言處理(NLP)領域的權威會議也關注到微博立場檢測這一新的分析方向。國際語義評估研討會(SemEval-2016)發布了Detecting Stance in Tweets”的評測任務,包括Favor(支持)、Against(反對)、None未表明任何立場)三個分類標簽。CCF國際自然語言處理與中文計算會議NLPCC2016年舉行的最近一次中文微博情感分析方面的競賽中,采用的也是支持in favor of the given target,反對against the given target和二者皆非neither“新三分法”。而其過去幾屆相關競賽中,則是采用正負面情緒分類法,或是“憤怒、厭惡、恐懼、高興、喜好、悲傷、驚訝”的基本情緒分類法。盡管立場分析在計算機領域已成為研究熱點之一,但相關方法被更多地應用在對某一事件或產品的評測,在政策評價領域尚鮮有相關應用。

2.2  政策評價中的網民情感分析

目前,在公共管理的語境下,通過社交媒體數據情感分析來探析民眾對于公共政策的反響主要有兩類研究路徑:一是從網絡輿情出發構建相關評價指數。在這一類研究中,研究者從數據出發,嘗試在基本情緒或情感極性分析的基礎上,用指數形式來量化“感知”群體心理和社會反響,辨別輿情風險。如,Durahim等基于3500萬條Twitter數據的情感分析,計算了國民幸福指數(GNH[]。朱廷劭在抽取微博用戶特征的基礎上,計算了北京微博網民生活滿意度、收入滿意度、中央政府信任度、地方政府信任度等多個社會狀況相關指標[]。魏穎等基于微博、微信和論壇網民評論等數據,形成了八大類“雙創”政策的網民滿意度指數排名[]。二是從政策本身出發構建評估指標體系。這一類研究者更加聚焦評估的完備性以及政策本身的結構化、流程化等特征。如,王建冬等基于社交媒體在內的多源數據,從政策制定、政策執行和政策效果三個階段,構建了公共政策大數據評估指標體系,并對應了合理性、協調性、回應度、影響力等11項評估標準[]。王亞民等針對延遲退休政策,從政策目標、政策期望、政策方案、政策對象四個維度分析了新浪微博的網民情感傾向,采用AHPDF權重測度方法,合成了公共政策的輿情支持度指標體系[]。

2.3  中文文本分類技術

作為計算機自然語言處理領域中的一個經典問題,中文文本分類技術演進主要分為三大階段:一是早期的文本分類相關研究大多采用專家規則庫匹配方法。由于專家規則庫的構建、更新、校準往往需要耗費大量的人力和時間資源,最終覆蓋范圍和應用效果均十分有限。二是隨著大數據技術的不斷發展,“人工擬定特征+機器學習”的文本分類技術方法逐漸流行。此類技術方法雖然在準確率方面相較專家規則庫提升明顯,但文本信息特別是中文文本信息屬于高維度、高稀疏性質的數據,一方面,人工擬定特征仍需要較高的人力成本,另一方面,人工擬定的特征其實對數據自身含義表達的能力相對較弱。三是近年來深度學習技術在圖像識別和語音處理領域取得了巨大成功,也極大推動了深度學習技術在自然語言處理上的研究和應用。相較于前兩個階段,目前深度學習技術在文本分類問題上取得了十分不錯的效果。

其中,卷積神經網絡(CNN)技術的應用尤為引人注目,例如人臉識別[11]、圖像檢測[12]、聲紋識別[13]、機器翻譯[14]等。其中,Kim提出利用卷積神經網絡進行句子級文本分類的創新性方法,主要思是將語言模型N-Gram與卷積操作結合起來[15]。在短文本分類任務中由于文本長度有限、句子結構緊湊、能夠獨立表達文本含義,因此使得卷積神經網絡在處理這一類問題上成為可能。Zhang等提出可以用字符作為基本輸入單元的基本理念,由此引出了字符級卷積神經網絡技術的深入探索[16]。后續一系列技術研究成果表明[17-19],從字符級層面開展文本分類,能夠有效抽象出文本高維度信息,并簡化甚至不需要使用預訓練好的詞向量和語法句法結構模型等因素,既可以減少人力又能夠達到不錯的效果。當文本分類訓練數據集規模足夠大時,卷積網絡不需要掌握文本含義和語法句法結構等信息便可以實現高準確率文本分類效果。

2.4  文獻述評

目前,相關研究存在以下局限:

第一,多數公共政策網民評價的研究和實踐,從本質上來說都是針對網民情緒本身的分析。例如,滿意度指標的測量主要是基于積極情緒占比的測算。而實際上,政策評價更加關注的是社交媒體用戶對某一特定政策的態度或立場。例如,針對《粵港澳大灣區發展規劃綱要》出臺,有網民評論,“粵港澳大灣區跟世界三大灣區經濟實力差太遠了?!眰鹘y的情感分析很可能將其標記為消極情緒,而實際上該評論并未持有明顯支持或反對該項政策的立場,簡單地將網民消極情緒對應到政策評價上,可能會誤判輿論反映。近年來成為自然語言處理領域新熱點的立場分析方法,比起傳統的情緒分析方法,更適合政策評價這一具有特定目標對象的應用場景。

第二,從政策改進的作用來看,互聯網民意反饋對于決策者的時效性價值往往大于完備性價值。而且,社交媒體文本數據本身的非結構化和簡短化屬性,比起系統精確的結構化解析,也更適合用于趨勢性的總體分析。因此,本文將選擇從輿情數據出發,而非從政策標準出發,即不對政策本身做分階段分維度地拆解,而是針對特定公共政策總體獲得的網民評價來建構和優化相關指標。

第三,目前,鮮有利用字符級CNN技術來進行政策評價情感分類的研究。而實際上,從中文微博數據特征來看,文本長度基本由一至兩個句子組成,單句比例較高,在句子級的文本分類任務中,CNN會有很好的表現;文本類型主要都是網民自身發布的大量口語化表達,未經類似新聞稿件專業化處理的文本,CNN也被證明能夠取得比其他應用情境下更好的效果。此外,字符級CNN不需要人工擬定數據特征,也將大大提高情感分析識別效率。

3  研究設計

本研究主要包括三個部分:一是在調研相關文獻的基礎上形成適用于公共政策評價的網民情感分類方法,提出網民支持度指標。二是選取具有代表性的重要公共政策作為研究對象,進行數據采集、清洗和標注,形成實驗數據集。三是構建基于字符級CNN的深度學習實驗模型,并對比檢驗實驗結果的準確率和模型效率??傮w思路如圖1所示:

1 總體研究思路

Fig.1 Overall Research Route

3.1  基于立場分析的政策評價網民支持度指標

本文在上述文獻研究的基礎上,以立場分類方法為前提,通過檢測網民持支持、反對、中立的情況,并賦予相關權重,構建公共政策的網民支持度指標。調研以往相關分析實踐發現,在政策評價場景下,通常將中立情緒劃入正面情緒計算總體情緒占比,可能導致實際評價結果的偏差較多。為使指標計算更加合理,本研究采用專家咨詢法,對支持和中立情況做了不同賦權。最終,本文提出的網民支持度指標計算公式為: 

                                    1)

其中,δ是指網民支持度指標,λ代表網民觀點中支持目標政策的微博數量,β代表網民觀點中保持中立的微博數量,γ代表網民觀點中反對目標政策的微博數量,ξ代表網民觀點中不屬于上述幾種立場相關微博數量(即下文中提及的“空值”情況)。

3.2  實驗數據集及預處理

1)數據情況

為提高研究的實用價值,本文擬定了政策對象的選取標準:一是公共性,研究的政策需要受輿論關注程度較高。二是分化性,網民評論存在一定分化,需要進行判別的。三是豐富性,政策涉及領域和類型有所不同,具有代表性。依據上述標準,挑選了3個研究對象,分別是湖北新冠肺炎疫情一線醫務人員子女中考加10”(以下簡稱“政策A”)、2019年勞動節放假安排由1天調整為4”(以下簡稱“政策B”),以及《粵港澳大灣區發展規劃綱要》(以下簡稱政策C”)。

在數據時間跨度上,根據新聞傳播熱度變化規律特點,對于政策BC,通過關鍵詞采集了政策發布后4天內的原創新浪微博數據;同時,根據重大突發公共事件4小時上報制度,以及人民網等基于當下媒體環境提出的政府部門輿情回應“黃金4小時”原則,通過關鍵詞采集了政策A發布后3.5小時的原創新浪微博數據。將所采集數據中的重復值和無效值去除后,得到39414條實驗數據。其中,政策A4672,政策B18697,政策C16045,如表1所示:

1 三組政策實驗數據基本情況

Table1 Description of the Three Policy Experimental Datasets

編號

政策名稱

發布級別

政策類型

發布時間

采集時間

數據量

A

湖北新冠肺炎疫情一線醫務人員子女中考加10

地方

突發性政策

應急管理領域

2020-2-18

12時許

發布后3.5小時內

4672

B

2019年勞動節放假安排由1天調整為4

國家

短期政策

民生領域

2019-3-22

發布后4天內

18697

C

粵港澳大灣區發展規劃綱要

國家

中長期重大政策

經濟領域

2019-2-18

發布后4天內

16045

2)標注結果

為提高數據標注的科學性,本研究采取同一組數據由三名研究人員同時標注的數據標注策略,數據最終標注類別由統計結果綜合評定。使用的數據標簽包括以下四類:支持、反對、中立、不相關。標注結果的評定包括以下兩類情況:一是三人中有兩人及以上標簽一致,則將該標簽計作標注結果;二是三人的標簽均不一致,則標注結果為空值。

標注和分析結果如表2所示,政策A網民支持度為15.85反對71.92%、支持9.12%、中立9.5%);政策B網民支持度為78.17支持58.23%、中立16.24%、反對8.92%);政策C網民支持度為81.02(中立45.39%、支持24.19%、反對0.55%)。值得注意的是,三組數據空值的情況(即三名研究人員標記結果全部不一致)均在10%以下的較低區間,甚至政策A的標注結果空值情況僅為1.73%,體現出本研究采用基于立場的分類方法的有效性。

2 三組政策實驗數據集標注分析結果

Table2 Labeling Results of the Three Policy Experimental Datasets

類別

政策A

政策B

政策C

計數

占比

計數

占比

計數

占比

支持

426

9.12%

10888

58.23%

3882

24.19%

反對

3360

71.92%

1668

8.92%

88

0.55%

中立

444

9.50%

3036

16.24%

7283

45.39%

不相關

361

7.73%

1309

7.00%

3118

19.43%

空值

81

1.73%

1796

9.61%

1674

10.43%

網民支持度

15.85

78.17

81.02

3.3  基于字符級CNN公共政策評價情感分類模型實驗

1)模型設計

本文提出的利用字符級CNN技術實現公共政策評價網民情感分類的模型設計如圖2所示,主要包含數據輸入表示、數據特征提取分類結果輸出三個環節。其主要思路是利用CNN技術從字符級表示的文本信息自動抽取特征向量,并將特征向量經過卷積和池化處理操作后由全連接層輸出分類結果。

 

2 基于字符級CNN的公共政策評價情感分類模型設計

Fig.2 Design of the Sentiment Classification Model for Public Policy Comments Based on the Character-level CNN Technology

此外,模型各層的具體參數設置如表3所示。在重構層中,字符表長度設置為5000,文本序列長度設置為600,重構后詞向量維度設置為64;卷積層中,卷積核數量設置為256,步長設置為1,補零位設置為1,另外,三層的卷積核長度分別設置為2、3、4;在最大池化層中,池化層過濾器長度設置為1,步長設置為all表示文本長度);Dropout中,丟棄節點值概率設置為0.5;全連接層中,神經元數量設置為128。

 

3  模型各層的參數配置概覽

Table3 Parameter Settings for Each Layer of the Model

層數

類型

參數名稱

參數設置

1

重構層(映射)

字符表長度

5000

序列長度

600

詞向量維度

64

2

卷積層

卷積核數量

256

卷積核長度

2

步長

1

補零位設置

1

3

最大池化層

池化層過濾器長度

1

步長

all(文本長度)

4

卷積層

卷積核數量

256

卷積核長度

3

步長

1

補零位設置

1

5

最大池化層

池化層過濾器長度

1

步長

all(文本長度)

6

卷積層

卷積核數量

256

卷積核長度

4

步長

1

補零位設置

1

7

最大池化層

池化層過濾器長度

1

步長

all(文本長度)

8

全連接層

神經元數量

128

9

Dropout

丟失節點值的概率

0.5

10

全連接層

神經元數量

128

 

 輸入表示

文本信息輸入表示是進行文本語義特征向量表示的首要步驟,也是卷積神經網絡進行特征抽取和融合的重要前提。而由于卷積神經網絡的輸入是二維數據格式,因此需要將文本信息轉換成二維矩陣??紤]到模型的輸入符合連續型字符特征,則需要先將字符轉化為可處理的信息序列,構建字符表。

以政策C數據集為例,首先會提取訓練數據中出現的所有不重復字符(共包含4072個字符),并對其使用獨熱編碼(one-hot)方式進行處理。對于上述字符表中不存在的字符均采用全零向量方式進行處理,經過上述處理最終得到4073個字符。而后會輸入訓練文本中的字符序列,將每個字符均轉化成4073維的稀疏向量,并將字符序列變換為具有固定長度為4073的等長序列,并在重構層進行詞向量映射處理,映射至64維。

 特征提取

卷積神經網絡具有優異的特征自提取能力,相較于人工選取特征具有明顯的效率優勢。本文進行特征提取的主要思路是通過三個不同大小的卷積核對輸入文本信息進行一維卷積,完成卷積操作后能夠得到三個特征映射,其中特征映射的寬度為1,卷積核的大小為1×KK為不同的卷積核尺寸)。通過選用不同大小的卷積核,可以檢測多個相鄰字符尺寸模式,例如,“好”“很好”“特別好”分別屬于1、2、3級相鄰字符,因此在訓練模型過程中可以不需要考慮字符所在位置。

此外,模型中池化層的作用是保證無論輸入數據的維度如何變化,都可以輸出一個固定維度的矩陣。池化層主要分為均值池化層和最大池化層兩種方式,為獲得最具代表性的局部特征,本文選取了最大池化方法[20],即從一維的特征映射中提取最大值。最大池化方式可以解決可變長度句子的輸入問題,不同長度句子經過池化層之后都能變成定長的表示。最終池化層的輸出為特征映射中的最大值。

 結果輸出

本文所設計的模型將池化層的一維向量進行輸出,并通過全連接的方式連接Softmax層??紤]到這種方式可能會產生過擬合問題,在模型的設計過程中對于全連接部分使用了Dropout技術,盡可能減少過擬合的發生概率。此外對全連接層的權值參數進行L2正則化的限制,此舉也是為了防止隱藏層單元自適應,從而減輕過擬合的程度。

2)實驗效果

為了評估實驗效果,本文同時選擇了深度學習技術中比較常用的字符級循環神經網絡(RNN模型作為參照對比[21],評估指標采用F1[22]AUC[23]。其中,F1值是一種常見的可以綜合準確率和召回率的機器學習評價指標,AUC值是指ROC的曲線面積,該指標能較好地衡量機器學習模型的性能優劣。

                        2

本文首先對比了不同模型的訓練迭代次數對公共政策評價情感分類效果(F1的影響。從圖3可以發現,對于政策A政策B,無論是應用字符級CNN模型還是應用RNN模型,迭代次數在200F1快速上升趨勢(從0.3左右上升至0.8左右)。當迭代次數到達100次,F1值會上升至0.7左右,而當迭代次數到達200次左右,F1接近模型最優訓練效果并且趨于平穩,此后隨著迭代次數的增加,F1值變化不明顯。對于政策C,F1值在迭代次數到達100次左右達到峰值效果,隨后開始出現波動下滑態勢(從0.7左右下滑至0.5左右),說明很有可能出現了過擬合情況。綜合上述結論,本文選取各政策數據集在訓練過程中效果最好的模型狀態,用于后續的測試集實驗。

 

3 不同訓練迭代次數對公共政策評價情感分類效果影響對比

Fig.3 Contrast in Classification Effectiveness Due to Different Numbers of Iterations

在模型最終應用效果方面,本文采用訓練過程中表現效果最好的模型在測試集上進行測試實驗。其中,F1值實驗效果如圖4所示,字符級CNN模型在政策A、政策B和政策C測試集上的F1值表現分別為0.8814、0.8287、0.6368,而RNN模型在政策A、政策B和政策C測試集上的F1值表現分別為0.8632、0.8712、0.6709??梢钥闯?,在政策A中,字符級CNN模型分類準確率和召回率的綜合表現略高于RNN模型,F1值提高了0.0182?;但對于政策B和政策C而言,RNN模型的應用效果表現則略高于CNN模型,分別下降了0.04250.0341,二者應用效果差距相對較小。????????????????????????????????

 

4 CNNRNN政策實驗數據集上的最終應用效果對比F1值)

Fig.4 Contrast in Final Application Between CNN and RNN Models (F1)

從圖5展示的AUC值實驗效果看,字符級CNN模型在政策A、政策B和政策C測試集上的AUC值表現分別為0.9276、0.8574、0.7283,而RNN模型在政策A、政策B和政策C測試集上的AUC值表現分別為0.8964、0.88670.7643,與F1值表現情況基本類似。從上述實驗的F1值和AUC值均處于較高水平可以看出,字符級CNNRNN模型在公共政策評價情感分類問題上均有較好的表現,RNN模型在政策B和政策C測試集上的應用效果略高于字符級CNN模型,但在政策A 數據集上,字符級CNN模型反而呈現出一定優勢。

 

5 CNNRNN政策實驗數據集上的最終應用效果對比AUC值)

Fig.5 Contrast in Final Application Between CNN and RNN Models (AUC)

模型訓練耗時對比結果如圖6所示,政策A數據集上,由于數據量相對較小,因此整體耗時相對較少,字符級CNN模型耗時147,RNN模型耗時2824。政策B數據集上,字符級CNN模型耗時432,RNN模型耗時高達2小時4311。政策C數據集上,字符級CNN模型訓練迭代9輪停止,耗時338,而RNN模型在該訓練集上耗時1小時564秒。不難發現,字符級CNN模型在時間成本方面具有顯著優勢。這是由于RNN序列依賴問題[24],而不存在序列依賴問題CNN,每個時間步的操作可以并行計算,因此在訓練時間上會存在巨大優勢。

 

6  CNNRNN政策實驗數據集上的模型訓練時間對比

Fig.6 Contrast in Training Time Between CNN and RNN Models

綜上所述,字符級CNN模型在三個政策數據集訓練的準確率和召回率上取得優秀表現。盡管三個政策中有兩個使用RNN模型準確率和召回率比字符級CNN模型更優,但差距并不明顯。而與此同時,從模型的執行效率來看,三個數據集字符級CNN模型的訓練時間5分鐘以內,而RNN模型的訓練時間則會超過字符級CNN模型訓練時間的數十倍。因此,利用字符級CNN技術開展公共政策評價情感分類的綜合實驗效果優勢更為明顯。值得注意的是,政策A數據集僅僅使用147完成訓練,在準確率和召回率上均取得相比RNN模型更好的表現,對于開展應急管理領域突發性政策評價工作或許能夠提供有益啟示。

4  結束語

本文基于微博數據開展公共政策評價研究,主要取得三方面創新性結果:一是在指標算法上,運用立場傾向分析,取代情緒傾向分析,提出了更適合公共政策評價場景的網民支持度指標。二是在技術模型上,將字符級CNN技術引入公共政策大數據分析評價,模型實驗結果在準確率和召回率上取得優秀表現,且耗時目前深度學習中較常用的RNN模型明顯更短。三是分析應用上,完成了三個不同領域不同類型的重要公共政策的網民支持度測算,為下一步相關政策改進和輿論引導,以及該領域新政策的推出提供網絡民意參考。但同時,本文仍存在一些不足,期待未來和廣大科研學者共同繼續研究探索。例如,擴充數據樣本量和政策覆蓋類型開展更大規模試驗和應用;進一步深化和完善網民支持度指標設計和測算方法;跟蹤最新技術提高網民情感類別自動化識別的準確率和效率等。

开个什么店好赚钱呢 门面不是太正 广西十一选五今天开奖结果 上海11选五开奖直播 体彩天津11选5玩法 青海11选五彩票 首次发行股票定价 精准一尾中特资料 福彩幸运农场走势图表 黑龙江6 1中奖规则 快乐8app 河南十一选五开奖走势图