宏觀經濟大數據系列研究之一:構建國家經濟大腦的實踐探索與初步設想
來源:大數據部 ??時間:2020-06-22

摘要:【目的】構建國家經濟大腦,運用大數據手段支撐宏觀經濟監測預測。【應用背景】國內外已有大量實踐,國家發改委大數據中心正在積極嘗試構建形成戰略、政策、項目、企業、自然人五類本體構建規則。【方法】堅持均衡與演化路徑相統一,引入批判實在論分析視角,整合復雜網絡、自然語言理解和時空分析等算法模型,形成宏中微觀一體化分析體系。【結果】微觀層面,整合打通政府和社會數據,構建動態本體庫,實現以企業社會信用代碼為主線統一關聯全國3000萬家企業和5000萬家個體工商戶的78大類、1828個指標項;中觀層面,基于復雜系統突現的三個依賴性,構建仿真分析平臺;宏觀層面,圍繞監測經濟動力(投資、消費、貿易)、產業運行和區域發展三方面,提出實踐應用較成熟的15種大數據監測指數,構建傳統預測與復雜性預測、行為預測和時空預測等新方法相結合的預測平臺,強化風險識別。【結論】構建微觀動態本體、中觀仿真分析和宏觀監測預測的統一框架,能夠有效解決宏微觀經濟學脫節的理論困境,促進提升宏觀決策科學性。

關鍵詞:大數據  經濟監測預測  國家經濟大腦

分類號:TP391 

1  引言

近年來,充分發揮云計算、大數據、人工智能等新技術手段,提高宏觀經濟運行決策水平,已經成為各界高度共識。從全球范圍來看,政府治理模式正在從傳統的韋伯模式和新公共管理(NPM)模式過渡到數字治理(DEG)模式,其基本特征就是將大數據和數字化技術置于機構層級的核心位置,推動數字化的整體性政府建設,在決策模式上高度強調“使用數據來理解公民,并為政策制訂提供依據” []。充分發揮大數據技術優勢,助力提升國家經濟監測預測和宏觀調控水平,已經成為大勢所趨。國務院2015年發布的《促進大數據發展行動綱要》(國發〔201550號)專門指出[],要建立運行平穩、安全高效的經濟運行新機制,實現對經濟運行更為準確的監測、分析、預測、預警,提高決策的針對性、科學性和時效性。從研究方法論的視角看,大數據在打通經濟學“均衡范式”與“演化范式”、形成宏中微觀一體化的經濟分析框架,有效銜接經濟學藝術(the art of economics)、實證經濟學(positive economics)與規范經濟學(normative economics方面[]具有獨特作用。本文擬從大數據經濟學的上述特點出發,論述在國家層面發揮我國獨特制度優勢,構建政企一體化的數據歸集和治理體系,建設支撐宏中微觀經濟運行分析的“國家經濟大腦”的基本思路。

2  國內外相關領域的實踐探索

2.1 國外的實踐探索

2012329日,美國白宮網站發布《大數據研究和發展倡議》(Big Data Research and Development Initiative[]提出,實施大數據計劃旨在幫助美國獲得從海量復雜數據集中萃取知識的能力,借此提高國家應對急迫挑戰的水平,大數據上升成為美國的國家戰略。此后,主要西方發達國家均發布與大數據相關的宏觀政策優化戰略,如澳大利亞政府發布的《公共服務大數據戰略》、法國政府印發的《數字化路線圖》、英國政府發布的《把握數據帶來的機遇:英國數據能力戰略》等等[]。總體而言,目前西方發達國家政府運用大數據開展宏觀經濟監測預測的實踐尚處在起步階段,但也形成了一些成熟經驗和模式。

一是利用大數據技術豐富和提升傳統統計手段。美國經濟研究局(NBER20193月舉辦了題為“面向21世紀的經濟統計大數據”(Big Data for 21st Century Economic Statistics)的專題研討會,與會者集中探討了利用網絡自然語言數據 []、眾包數據[]、商業掃碼數據[]、交易數據[]等新型數據歸集方式構建失業率等統計指標。通過此次會議還可以發現,美國宏觀經濟運行的多個相關部門都在積極探索利用大數據等新技術手段改進宏觀經濟運行分析,如美國經濟分析局(BEA[]嘗試對比機器學習和替代性數據在經濟預測中的效果,美國勞工統計局(BLS[]嘗試利用第三方數據、企業數據Web抓取零售商API數據來優化消費者價格指數(CPI的數據采集,美國人口普查局[]利用機器學習和公共數據嘗試自動化生成北美工業分類系統(NAICS代碼,等等。

二是利用大數據技術優化宏觀經濟決策。早在大數據技術誕生的初期,各國政府就十分關注大數據技術在公共政策領域的應用[]。如澳大利亞政府通過采集交通系統感應器的海量信息,構建了交通密度指標,并根據該指標觀察出經濟活動與交通密度之間的高度相關性,以此作為經濟政策的評價工具之一。德國政府利用家庭電表反饋的海量數據制定具有可行性的激勵政策以增加對智能電網基礎設施的投資,調整傳統的補貼方式和規制方式,根據需求優化電力資源配置。英國政府曾組織開展基于社交媒體的政策效果預測研究,通過在一系列社交平臺中系統性地抓取數據,針對即將推出的經濟政策變動在社交媒體中反應進行預測性分析[1]。

三是構建全國大集中的政府宏觀決策數據中心。在這方面,澳大利亞社會保障服務信息中心(Centrelink)和新加坡的風險評估和水平掃描系統(RAHS代表案例。Centrelink 是澳大利亞聯邦政府的一個政府機構,是公共事業部 ( Human Services portfolio) 的六大機構之一,在聯邦和各州都設有,其在堪培拉設有兩個大型數據中心,與聯邦和各州的稅務、金融、警局等部門實現聯網共享,并運用大數據分析技術構建了一系列圍繞就業、社會福利、醫保等領域的風險預測評估模型[]。新加坡建設的風險評估和水平掃描系統(RAHS最初目的是應對恐怖主義和傳染病,后來逐漸擴展到住房、交通、教育、安全等各個領域,其不僅可以幫助新加坡各級部門監測和識別恐怖襲擊等風險事件,還可以幫助政府規劃采購周期和預算、預測經濟走勢、制定移民政策研究房地產市場[1]。

2.2 國內的實踐探索

國家發展改革委作為我國宏觀經濟運行的核心部門,在運用大數據手段開展宏觀經濟分析研判方面起步很早。早在2015年,就組建了國家發展改革委互聯網大數據分析中心,并啟動建設國家發改委互聯網大數據分析系統。2016年,國家發展改革委辦公廳正式印發《關于推進全國發展改革系統大數據工作的指導意見》(發改辦廳〔20161993號)提出,要圍繞發展改革系統履行職能,建設國家和省兩級宏觀決策可視化平臺,充分應用可視化技術,圍繞投資、工業、交通、能源、農業等重點領域開發經濟地圖,建設基于地理信息可視化的宏觀經濟運行大數據監測分析一張圖,形成涵蓋宏觀決策各方面的數據匯聚展示系統,支撐各級發展改革委領導會商與綜合研判。”2017年,《國家發展改革委智慧發改建設規劃》(發改辦廳〔20171959號)正式印發,提出打造智慧決策大腦的設想,要求面向重大決策需求,構建智慧發改決策算法庫、模型庫、指標庫、知識庫,開展各類大數據分析指標與傳統統計指標的回歸比對和關聯分析,逐步推動經驗智慧與人工智能融合創新,為加強和創新宏觀調控提供強有力技術支撐。根據文件要求,將原國家發展改革委互聯網大數據分析中心改名為國家發展改革委大數據中心,推進歸集位置信息、電子商務、交通物流、招投標、專利軟著、自媒體等各種大數據資源,并面向國家發展改革委等上級機構開展重大政策大數據評估研究,目前已經完成500余期大數據決策參考報告,取得了較大決策影響力。

地方層面,海南、重慶、河北、杭州、寧波等地方政府也由當地宏觀部門牽頭,在利用大數據開展宏觀經濟分析方面開展了大量有益探索。如201711月,依托國家發展改革委大數據中心重慶分中心建設的重慶經濟社會發展大數據決策支持平臺項目正式啟動,歸集重慶市經濟社會運行相關的17億條數據資源,并構建了產業地圖、投資地圖、消費地圖、外貿地圖、創新地圖、人才地圖等分析板塊。河北省發改委[]提出加快全委信息化系統整合及大數據建設的工作任務,通過構建信息資源目錄和大數據系統實現了河北省發展和改革委員會全委政務信息資源共享、建立完善的宏觀經濟數據采集渠道、宏觀經濟大數據融合分析及可視化展示等目標,并將時序算法、預測算法、相關性算法、聚類算法、影響因素等五類算法應用于宏觀經濟分析全生命周期。海南省發展改革委依托國家發展改革委大數據中心海南分中心建設了海南省宏觀經濟決策大數據分析系統,發布2018年海南省經濟社會發展大數據分析報告》等一系列重要研究報告[]。深圳市發展改革委、青島市發展改革委先后啟動“智慧發改”工程,全面提升產業決策和重大項目事中事后監管水平。寧波市地稅局啟動了寧波稅收發展指數課題研究,基于地方稅收大數據開展挖掘應用,課題組將反映經濟運行的稅收指數通過建指標、合成統一數值的方法,所形成的稅收指數與統計局所發布的PPI數值相關性達70%左右[]。

3  構建國家經濟大腦的基本思路

未來,應吸收借鑒美國、澳大利亞、新加坡等國通過歸集數據開展宏觀決策的成功經驗,充分發揮我國獨特的制度優勢,有效歸集和開發利用全社會范圍內經濟運行相關數據,建設集宏中微觀經濟運行分析于一體的“國家經濟大腦”,助力實現國家治理體系和治理能力現代化??傮w設計思路遵循以下幾個原則。

3.1 在數據基礎上,堅持政府數據與社會數據相統一

當前,隨著互聯網、物聯網、移動通信等社會化數據源渠道的飛速發展,全社會數據資源正在從過去政府掌握80%的全社會公共數據資源逐漸轉變為社會化數據資源占絕大多數的新格局。梅宏指出[],在當前萬物互聯化、數據泛在化的大背景下,越來越多物理實體的實時狀態被采集、傳輸和匯聚,從而使數字化的范圍蔓延到整個物理世界,物聯網數據將成為人類掌握的數據集中最主要的組成部分。正因如此,習總書記在中央政治局第二次集體學習時指出,要加快公共服務領域數據集中和共享,推進同企業積累的社會數據進行平臺對接,形成社會治理強大合力。要想系統描述和刻畫全社會經濟運行全貌,就要形成覆蓋政府、企業、社會機構、個人和海外相關信息,跨層級、跨地域、跨系統、跨部門、跨業務的數據采集匯聚機制,強化陸??仗祀娋W數據資源全領域、全要素統籌,實現對全國范圍內信息化、網絡化、可視化和智能化的數字集成創新,實現“一人一檔、一物一檔、一事一檔、一機一檔”的國家一體化數據資源體系框架,有效增強國家數據資源的縱橫聯動和協同管理能力。通過各類數據的深度整合和關聯應用,深刻刻畫國家政治、經濟、文化等各方面發展狀況,揭示宏觀經濟結構和微觀社會狀況。

3.2 在分析手段上,堅持均衡范式與演化范式相統一

過去百余年來,經濟學研究領域的均衡范式和演化范式正在呈現逐漸融合的態勢。一方面,主流經濟學近年來發展出的博弈論、行為經濟學、實驗經濟學、信息經濟學、新制度學派等分支已經吸收了借鑒了演化范式下對部分理性、創新擴散、路徑依賴等的論述;另一方面,以復雜經濟學、演化經濟學等則將新古典(均衡)經濟學看作是演化經濟學(或非均衡經濟學)的一個特例[]。目前,大數據在均衡和演化兩個方向上都在發揮重要作用:在均衡范式下,由于大數據在分析時效性、顆粒度、熱點識別等方面的優勢,主流經濟學界開始大量嘗試基于大數據的計量經濟學方法創新;在演化范式下,通過將基于主體建模ABM)、演化博弈論、機器學習等新技術方法與大數據相結合,形成人類真實主體( HS)數據和計算虛擬主體( CA) 數據之間的對比,有效支撐宏觀經濟風險識別和趨勢預測。因此,在構建國家經濟大腦時,應當力圖將演化分析和均衡分析方法融為一體。在這一方向上,上世紀七十年代英國科學哲學家羅伊·巴斯卡(Roy Bhaskar)提出的批評實在論[],在溝通實證主義(大致對應于均衡范式)和非實證主義 大致對應于演化范式)兩大范式方面取得了較大影響力,成為20世紀后半葉英美哲學研究領域中最令人震撼的發展[]。特別是巴斯卡提出社會系統具有不同于自然界的涌現特征,主要表現在三個方面[],即行為依賴性(Activity-dependence)、觀念依賴性(Concept-dependence)和時空依賴性(Space-time-dependence),對本文研究框架的構建具有重要借鑒作用。

另一方面,從前期對國內外宏觀經濟大數據監測預測領域的研究方法的梳理也可以看到,目前經濟運行大數據分析所使用的方法大致可以分為四類:一是統計分析方法,如ARMA模型、LASSO算法、向量自回歸(VAR)、灰度關聯分析、協整檢驗、主成分分析、多元線性回歸、時序分析等,主要是將利用大數據手段構建的各種新指標與傳統計量經濟學的分析模型相結合,實際上是均衡范式在大數據環境下的進一步延續。二是復雜網絡方法,如社會網絡分析(SNA)、模式識別、網絡特征空間、二部圖分析等,這類方法主要側重于對微觀經濟主體的行為關聯性進行分析挖掘,識別其中的潛在模式和演化趨勢,大致可以對應于演化范式下的行為依賴性分析。三是人工智能方法,如潛在語義分析、支持向量機、貝葉斯分類、觀點識別、新詞發現、情感分析、回歸樹、隨機森林、卷積神經網絡等等,這類方法目前在宏觀經濟中主要應用場景是對微觀行為主體的觀點性文本進行分析挖掘,大致對應于演化范式下的觀念依賴性分析。四是時空分析方法,如時空分布、位置分布、行為軌跡分析、區域關聯網絡分析等等,這類方法大致可以對應于演化范式下的時空依賴性分析。

1  大數據經濟分析的主要方法及代表性研究


 

3.3 在應用方向上,堅持監測預測與風險監管相統一

從應用方向上看,當前國家經濟大腦建設的主要用途包括兩個方面:一是運用大數據手段改進經濟監測預測的效果。在經濟監測方面,應用大數據手段可以提高經濟運行監測的時效性、精準性和客觀性,如通過開展經濟現時預測(Nowcasting研究幫助人們相比過去更快應對經濟運行可能出現的趨勢性、苗頭性問題,通過應用異常檢驗、新事件探測等技術手段發現海量經濟數據中隱藏的新業態、新模式等等。在經濟預測方面,大數據不僅可以改進傳統統計預測模型的預測表現,還可以運用多主體復雜性建模、時空演化預測、行為預測、基于機器學習自動識別先行性指標等手段建立全新經濟預測模型。二是近年來隨著中國貿易爭端等不斷升級,國際國內經濟形勢日趨復雜,加之中央政府大力推進“放管服”改革,各級政府在防范化解重大風險、加強重大政策重大項目事中事后監管等方面面臨的挑戰日益增加,亟待利用大數據手段強化監管手段,提升風險識別與防范能力。傳統經濟學理論模型對于風險的識別與應對一直是一個軟肋。正如著名經濟學家布萊恩.阿瑟指出,經濟學理論本身存在一個根本性弱點,即缺乏一種能夠在政策實施之前找到可能的失敗模式的系統方法[]。未來,通過運用新技術手段,對經濟運行過程中的異常點、突變點、奇異點進行識別預測,對涉及重大政策、重大項目的風險領域開展預測預警,將成為宏觀經濟運行分析的又一理論和應用“藍?!?。

從大數據視角看待經濟運行,可以構建一個以中觀層面的規則、結構、機制及其涌現性分析為切入,向上向下統籌宏觀和微觀經濟分析的新框架。正如多普菲(Kurt Dopfer[]所指出的,“在經濟演化過程中,無論是微觀角度(復雜的規則結構構成系統,如公司還是宏觀角度規則總體的復雜結構,如工業和經濟,它們都建立在中觀視角之上。”從這一角度,我們可以分別從微觀、中觀和宏觀三個層面思考和規劃國家經濟大腦的技術框架。

4 微觀層面:構建微觀經濟運行動態本體庫

在大數據時代,構成各種復雜經濟現象的微觀主體(企業、機構、個人、商品等等)的行為數據、關聯關系、基本屬性等信息可以通過多種方法進行全面及時的收集和整理,從而為客觀這些復雜現象提供了堅實的數據基礎。正如維克托. 舍恩伯格所說[],有了大數據的幫助,我們不會再將世界看作是一連串我們認為或是自然或是社會現象的事件,我們會意識到本質上世界是由信息構成的。基于此,在國家經濟大腦建設的微觀層面,應當著眼于利用大數據手段快速構建領域本體和通用本體,形成對海量微觀主體行為演變和關系網絡的快速挖掘能力。具體而言,其主要任務包括幾個方面:

4.1 建立政企一體化數據歸集匯聚體系

應當綜合考慮政府、企業、個人、海外、互聯網、物聯網等多種數據來源,形成與國家經濟運行相關各方面數據源的統一匯聚機制。其中,政府數據來源主要指國家平臺(如全國信用信息共享平臺、全國公共資源交易平臺、全國投資項目在線審批監管平臺等)、各部委平臺(如公安、人社、稅務、市場監管、民政、教育等)和各地方政務數據整合共享平臺;企業數據來源是指企業生產經營全生命周期各類數據(如工商登記注冊、稅務、海關、就業社保、投融資、專利軟著等);個人數據來源主要是指自然人工作生活中產生的各類行為數據(如移動位置、出行、教育、消費、通訊等);海外數據來源是指“一帶一路”沿線等重點國家基本概況、經濟產業、政策法規、規劃計劃、項目工程、投資貿易、科研機構、企業組織、旅游及文化交流、社會輿情等各方面信息;互聯網數據來源是指互聯網上公開信息(如新聞、微博微信、學術智庫、電商評論、房產等);物聯網數據來源是指從智能硬件設備中獲取數據資源(如可穿戴設備、車輛、智能家居、工業控制等)。通過開展覆蓋政務數據和社會化數據資源的數據標準化稽查、清洗、消減、轉換、去重、打標、校驗、修復、聚合、分級分類、血緣分析等數據治理和質量提升,不斷提升大數據分析挖掘的可靠性。

4.2 建立面向微觀經濟主體的動態本體庫體系

在歸集匯聚相關數據的基礎上,構建人、企、車、物、事、地等微觀經濟對象的動態本體庫。以企業工商注冊信息、個人證件號、車牌號等個體唯一ID為主線,依托統一編碼對接相關數據資源,對本體對象(Objects)、屬性(Properties)和關系(Relationships進行抽象化處理,依托復雜網絡分析方法及大規模圖計算技術,實現動態本體圖譜的展現、布局、搜索、統計、分析、推理、演繹和學習,支持動態本體混合檢索、路徑發現、頻繁子圖挖掘、關鍵節點識別、社團發現等功能,形成多維度分析、多視角監測、多領域應用的動態本體圖譜分析能力。

目前,國家發展改革委大數據中心已經聯合數聯銘品(BBD)等業內相關企業開發了微觀經濟主體的動態本體(Dynamic Ontology)管理系統,其將不同類型本體(企業、個人、事件、文檔等)建模的基本維度劃分為對象(Objects)、屬性(Properties)和關系(Relationships)三個方面,通過關聯打通工商企業注冊信息庫、投資項目在線審批監管平臺、全國信用信息共享平臺和國家公共資源交易平臺等若干國家級大數據平臺數據資源,初步實現了重大戰略-重大政策-重大項目-企業-自然人五類本體的關聯關系構建。如通過重大政策和項目招標文本的自然語言處理,自動關聯識別“重大戰略落實政策”、“重大政策配套項目”等本體關聯關系;通過重大項目招投標和空間位置數據,自動識別關聯“重大項目招中標企業”、“重大項目建設地點人流變動”等本體關聯關系;通過企業工商注冊信息關聯識別“企業交叉持股關系”、“企業股東和高管組成”等本體關聯關系。特別是在企業本體構建方面,目前已實現以企業統一社會信用代碼為主線,對全國3000萬家企業和5000萬家個體工商戶的工商注冊、就業招聘、招投標、投融資、專利軟著、社會信用、行政審批、法院判決等78大類、1828個指標項進行統一關聯。

 

1 數據資源動態本體組織管理系統框架

5 中觀層面:構建中觀經濟大數據仿真分析平臺

正如前文所論述的,從經濟社會運行的中觀層面來看,復雜經濟系統突現的行為依賴性、觀念依賴性和時空依賴性等三個基本特征,既可以基于微觀層面的經濟動態本體進行仿真模擬,又可以歸總并呈現為宏觀層面經濟運行監測預測的基本規律。因此,構建國家經濟大腦的中觀系統,就是要整合復雜網絡、自然語言理解和時空分析三大類算法模型,將其作為模擬仿真中觀經濟現象的技術支撐。

5.1 以復雜網絡分析為核心的行為依賴性仿真分析

與自然科學研究不同,社會科學研究的對象與人高度相關。批判實在論認為,社會經濟關系、結構和機制的存在具有對人的活動的依賴性,它既是人自身各種行為的社會化結果,又是存在于行為者之間的相對持久的社會關系[]。正如諾貝爾經濟學得主羅伯特. 索洛在其獲獎致辭中指出所有狹義的經濟行為都植根于社會制度、習俗、信仰和態度的網絡之中。[]。行為經濟學則認為,情境往往決定了人們如何決策[],因此我們可以利用對情境的研究來解釋甚至預測人們的經濟行為。大數據相比傳統統計手段一個最大的優勢就是可以通過非干預的方法獲取經濟社會主體行為方方面面的痕跡數據。通過歸集政府、企業、個人等各類微觀經濟主體的行為數據,可以刻畫政企之間(如工程項目招投標)、企業之間(如企業間持股關系、商業合同、創新合作等)、企業與個人之間(企業招聘、消費記錄等)、個人與個人之間(如社交關系、親友關系、位置關聯等)的主體關系,構建以微觀主體為節點、以主體間關聯關系為邊的經濟社會運行復雜網絡,并運用圖計算、網絡社群挖掘、復雜網絡演化分析、社會網絡等分析方法識別經濟運行主體的行為依賴性突現現象和演化規律。這方面技術方法和應用已十分成熟,如布萊恩. 阿瑟[24]基于復雜網絡演化模型,對資本市場中資產價格變動的自我強化、集群波動(clusted volatility和突然滲透(sudden percolation三種涌現現象進行了預測模擬。HIDALGO C A[]基于國別間貿易數據構建了“國家-產品二部網絡,并基于網絡拓撲結構刻畫國家經濟復雜性,并實現對國家發展潛力的預測。TACCHELLA A[]基于“國家-產品矩陣關系,利用非線性迭代算法刻畫國家發展潛力和產品復雜性,較好地解釋了不同國家的經濟競爭力變化趨勢。筆者也曾基于專利文本數據構建企業技術創新網絡[]、基于稅務發票進銷項數據構建某市企業發票網絡,并基于啟發式社團發現模型對相關領域演化態勢進行預測分析。

該子系統的基本分析功能應當包括:(1統計特征分析。即對復雜網絡基本拓撲指標的統計分析,如平均路徑長度、聚集系數、值、小世界無標度特性等;(2社團發現。典型算法如模塊度優化算法、譜分析法、k-社團算法、模糊聚類算法等;(3鏈路預測。包括相似性預測、最大似然估計預測、概率模型預測等[]);(4重要節點發現。結合網絡局部屬性、全局屬性、網絡位置等指標,基于PageRank、LeaderRankHITS算法度量超大規模網絡中節點重要程度[];(5社會網絡分析。研究社會行動者包括人員、集團、組織或者其他信息與知識處理實體之間的關系和流動,并對其進行映射測量[];(6)知識圖譜分析?;凇皩嶓w-關系-實體”三元組以及實體相關屬性的鍵值對,通過實體相互聯結從而構成網狀的知識結構[]等等。

5.2 以自然語言處理為基礎的觀念依賴性仿真分析

批判實在論認為,經濟社會中的結構、關系、機制的存在與行為者自身的價值判斷、觀點立場、利益抉擇等具有內在關聯性[]。如果說,行為依賴性是社會結構的表象,那么觀念依賴性則是社會結構的內在。 長期以來,經濟學領域對于主體預期、情緒等的策略始終是世界性難題[],傳統手段只能通過實驗、問卷調查等方式收集樣本,但樣本覆蓋面、抽樣誤差以及實驗的人為干預性等問題大大影響了結果的可信度。當前,隨著互聯網的飛速發展,互聯網上動輒數千萬甚至數億的社交媒體工具層出不窮。人們越來越習慣于將自己對經濟、社會、文化等各方面的觀點和看法通過互聯網社交媒體渠道與他人分享,這為利用大數據手段開展社會群體觀點和社會心態研究提供了便利途徑。2015年以來,國家發展改革委大數據中心基于所歸集的海量互聯網社交媒體數據,構建了網民針對經濟社會運行和特定政策的社會心理預期監測指標,如網民信心指數、政策滿意度、政策關注度等等,并對網民消費心理預期和滿意度[],以及雙創、供給側結構性改革、數字經濟等領域重大政策的滿意度等[13]進行了評估分析。除了開展社會心態監測分析之外,利用自然語言處理等技術,還可以進一步構建微觀經濟社會主體的大數據認知模型。如國家發展改革委大數據中心基于12358網上價格舉報系統的網民投訴舉報數據,通過構建行為特征集和深度學習等手段,建立“職業舉報人”行為自動識別模型[]?;诓煌⒂^主體行為模型,可以基于行為鏈條開展主體經濟行為預測。

該子系統的基本分析功能應當涵蓋面向互聯網超大規模文本的字、詞、句子以及段落與篇章等各層面的分析處理功能[]。具體而言主要包括:(1)詞法分析。負責將輸入句子從字序列轉化為詞和詞性序列。(2)句法分析。負責基于句法結構樹、依存關系圖等手段將輸入句子從詞序列形式轉化為樹狀或圖狀結構。(3)詞義消岐與指代消解。確定在給定上下文語境中多義詞的詞義和指代詞的先行語等。(4)命名實體識別。負責完成人名、地名、組織機構名、數量表達式、時間短語、貨幣短語和百分比等的識別。(5)文本分類與聚類?;谠~袋模型(Bag of Words Model)、向量空間模型(Vector Space Model)、特征選擇、特征轉換和話題分析等技術實現對自然語言文本的自動分類和聚類,并整合決策樹、隨機森林、RIPPER 算法、貝葉斯分類器、線性分類器、支持向量機、最大熵分類器、神經網絡等多種經典算法。(6)情感分析。實現在詞向量表示學習、句子級表示學習(循環神經網絡、遞歸神經網絡、卷積神經網絡等)和篇章級表示學習層面,利用深度學習算法實現文本情感分類。

5.3 以地理信息系統為依托的時空依賴性仿真分析

巴斯卡認為[23],既然社會關系、結構和機制是依賴于人們的行為與觀念,那么其就不可避免地對行為主體所處的時空條件產生依賴,而不會具備時空上的恒定性和普遍性。由于新古典經濟學是模仿牛頓機械力學建立起來的,因此其并不考慮時間和空間問題。羅伯特. 索洛曾調侃道:你可以從時間機器中丟棄一個現代經濟學家……在任何時候,任何地點,他使用個人電腦,就可以建立起經濟理論,甚至不需要知道時間和地點。[]保羅. 克魯格曼也指出,新古典傳統的通用做法是避開地理問題——大部分模型構建將世界想象為沒有運輸成本的世界[],是沒有尺度的仙境[]。大數據時代的到來,使得基于個體粒度的海量時空軌跡來獲取人類移動模式成為可能[]。現實世界中,超過80%的數據都與地理位置有關[],對于經濟研究而言,個體、企業、產業、工程項目等研究對象等等都有十分明確的時空分布特征。正因如此,時空大數據研究是當前大數據領域十分熱門的一個分支。構建以地理信息系統為依托的時空依賴性仿真分析平臺,大致包含三方面技術功能,一是傳統意義上的地理信息技術在宏觀經濟分析中的應用,利用可見光、熱紅外等多波段衛星遙感數據,開展數據融和、變化檢測、目標特征提取等技術研究,在識別違法違規工程建筑、監測項目施工進度、災害應急響應、評估社會治理成效等應用中輔助分析決策。二是將各種經濟社會運行相關數據在一個地理信息平臺上實現時空疊加和比對分析。如針對部分政府投資的重大工程項目,可以基于項目位置信息疊加衛星高分遙感圖片、項目用電量、周邊人流密集度、路網擁堵情況等多重圖層,實現對重大投資項目建設進度和實施效果的精準分析[]。三是從時空關聯的角度開展分析挖掘。筆者在牽頭規劃粵港澳大灣區大數據中心時,提出基于產業鏈、人才鏈、創新鏈、資金流和數據鏈“五鏈協同”模型[],建立大灣區“9+2”城市一體化大數據監測體系。

該子系統的基本分析功能應當包括四個層面:(1)在原有傳統地理信息系統技術的基礎上,整合深度學習等人工智能算法,如采用矢量瓦片、動態渲染技術實現對城市群、地市、區縣、街鎮、自然街區、500米網格等多個層面超大數據集地理可視化。2)實現對多源數據的一體化組織,在地理圖層上整合手機信令、土地利用分類地圖、POI、統計指標數據、企業注冊信息、專利、投資項目等具有空間區位(區域范圍和位置)和時間屬性的結構化和非結構化數據源,空間+時間作為數據統一組織主鍵。(3)對經濟運行微觀主體的商業合同、消費記錄、創新合作、股權關聯、投資項目等多源數據背后蘊含的線索信息建立關聯,在個人、企業、區域等不同層面上實現關聯分析,實現對復雜時空經濟現象背后運行機制的深度挖掘。(4)綜合運用數據和功能的容器化、基于互聯網技術特征的微服務化、機器學習模塊化、輕量級Web和移動端高效可視化等時空大數據新技術優勢,構建可用即可見的輕量、靈活、實時的時空大數據分析研判平臺,有效支撐描述分析、解釋分析和探索分析等不同維度的宏觀決策需求[]。

6 宏觀層面:構建宏觀經濟監測預測大數據平臺

基于微觀層面經濟動態本體和中觀層面經濟涌現仿真分析平臺的堅實基礎,在宏觀層面,可以進一步圍繞經濟運行和重大風險防范等需求,構建經濟運行監測、經濟預測和風險識別“三位一體”的宏觀經濟監測預測大數據平臺。

6.1 建立宏觀經濟監測指標庫

大數據技術的飛速發展和普及,使得人們可以在采集經濟運行某一剖面全樣本數據的基礎上,通過整合多源數據,形成一些具有一定經濟學含義的監測指標體系。在國家經濟大腦中,筆者結合國家發展改革委大數據中心自2015年以來的實踐與探索,探索構建了常態化監測分析經濟社會運行情況的指標體系。大致而言,目前指標分為幾個方面:

1、監測經濟動力的指數

主要分析宏觀經濟“三駕馬車”運行情況,核心指數包括:

1)投資強度指數?;趪夜操Y源交易平臺所收集的各級政府財政投資工程項目的招中標數據,可分析不同行業、不同地方政府投資項目的規模、金額、建設進度等信息,從而常態化監測主要固定資產投資領域的投資強度變化。

2)消費活躍度指數?;谶\營商和互聯網GPS定位數據,可分析主要城市核心商圈周邊區域的人流變化情況,通過對比研究周末和工作日、白天和夜間人群變動,可以對重點城市消費水平、夜間經濟活力等進行分析監測。如筆者參與開發的“2019中國居民消費大數據指數[],對北京、上海、沈陽、武漢等十余個國內重點城市夜間經濟活力進行對比。

3消費升級指數。消費升級指數旨在量化中國消費結構及質量升級狀況。如財新傳媒和數聯銘品(BBD聯合發布的中國消費升級指數 [],基于電商消費統計數據,通過計算相鄰兩個月一組相同商品的消費變化情況(月度環比),將每個月的消費升級指數環比連乘得到消費升級指數。

4)貿易活躍度指數。通過廣泛采集全球各國貿易進出口數據,可以形成對全球貿易結構和貿易活躍度變化情況的常態化監測指標。如國家信息中心聯合相關機構發布的《“一帶一路”貿易合作大數據報告》[],涵蓋了全球144個國家及地區的貿易統計數據庫,占全球貿易總量95%以上。

2、監測產業運行的指數

核心指數包括:

1)反映產業運行情況的典型實物量指標。如筆者曾嘗試基于稅務發票數據開發制造業潤滑油指數,其基本原理是工業企業往往提前2-3個月左右時間采購潤滑油,故潤滑油購買量變化在很大程度上反映企業主對未來經營前景的預期。通過提取分行業分地區的潤滑油增值稅票信息,就可以得到對具體地區或行業的未來景氣預期。

2)產業用工指數。如國家發改委大數據中心聯合佰職數據等,通過采集去重全國數百家主流招聘網站發布的招聘需求數據,分析檢測不同行業、不同地區、不同崗位的招聘需求人數、崗位薪資待遇水平、應屆生薪酬水平和招聘投崗比等指標。

3)初創企業活力指數。將成立時間較短(如在一年以內)的企業定義為初創企業,考察這些企業自成立以來發生的網絡招聘、專利、投融資、招中標等經營活動占比,將有生產經營行為的企業視為“存活”概率較大的企業,從而對不同領域的創業活力進行對比分析。

4產業運行風險指數。即通過企業發生的一些負面經營行為,如行政處罰、法院裁判、失信被執行、被投訴等事件的發生比重變化來反映產業風險程度,該值越高,一定程度上說明產業風險相對基期增長越快。

5)產業創新能力指數。將企業信息與專利申請數據精準匹配后,能夠挖掘出包括高技術企業、戰略性新興產業在內的各類產業、在各地區、分不同所有制、分不同注冊規模、處于不同生命周期企業的專利申請情況[32],從而分析各行業、各區域的產業創新能力發展情況。

3、監測區域發展的指數

核心指數包括:

1)衛星燈光指數。該數據已經在學術界得到廣泛應用[-],其基本原理是通過抓取美國國家海洋和大氣管理局Suomi-NPP衛星無云影像,匹配地理信息后,形成區域夜間燈光亮度及光斑面積指數,以反映當地經濟發展和城鎮化建設水平,取值越大代表該地區經濟活躍度越高。國家發展改革委大數據中心曾對我國高鐵沿線地區衛星燈光指數進行了分析,發現2012-2016年期間,高鐵沿線地區燈光指數增長了0.108,比全國平均水平高出151.16%[13]。

2)基于工商注冊資本的產業集聚度指數。產業集聚度是產業經濟學經典指標,通過引入企業工商注冊資本信息,可以分地區分行業計算赫芬達爾-赫希曼指數Herfindahl-Hirschman Index,簡稱HHI),從而彌補傳統統計數據時間滯后和區域顆粒度的不足。

3)產業輻射度指數。該指數主要基于工商注冊數據進行計算,通過對比分析企業注冊地和企業股東的注冊地,計算不同地域間產業持股關系變化,從而分析不同地域在不同行業領域中的對外產業輻射能力。如國家發展改革委大數據中心曾對華南某市高技術企業外向輻射度進行的分析[]。

4)產業遷移指數。一家企業注銷后,其控股股東在之后兩年于原省之外設立企業,視為一次產業遷移。通過計算不同行業、不同地區的產業遷移指數,可以較為系統地監測和分析區域和行業的基本運行情況。

5)重點城市和產業功能區常駐人口變動指數?;诔qv人口統計指標定義,對重點城市、重點產業功能區移動人群遷移軌跡進行建模分析,析取出符合常駐人口遷徙標準的移動終端數量,并推算常駐人口數量,從而較好彌補統計數據不足。如國家發展改革委大數據中心曾對雄安新區成立以來科技人才流入情況[13]和深圳市各區常駐人口變化情況進行的分析。

6)重點交通樞紐周邊人流變動指數。對機場、車站、海關等周邊區域人群變動情況進行分析監測,以對區域間人流和物流變化情況進行推算。

6.2 建立宏觀經濟預測分析平臺

當前,大數據手段已經與商業化場景緊密結合,通過運用基于大數據的分析和挖掘技術手段,使得商業智能從過去的報告和決策支持模式躍升到商業預測和未來決策(next-move decision making)模式[]。在宏觀經濟領域,研究者正在試圖通過大數據手段,從各種實時、交互、離散化、非結構化的海量數據中,發現經濟社會運行的各種先行指標信號[],并形成多種預測模型。結合前文的論述,我們可以將這些預測模型大致分為兩大方向,一是對傳統預測模型的改進,二是圍繞中觀層面經濟涌現的三個依賴性,分別從復雜網絡、行為鏈條和時空演化三條路徑對復雜的宏觀經濟現象進行預測。具體包括:

1、對傳統預測模型的優化改進

通過將大數據指標整合進傳統統計預測模型,實現對傳統預測效果的提升。其基本原理就是清華大學劉濤雄等[]提出的兩步法,該方法的基本步驟包括兩步:(1僅使用傳統統計信息選擇初步最優預測模型;2將互聯網搜索行為加入選擇的模型中,最終確定最優模型。

2、基于復雜網絡的預測模型

目前,復雜網絡中的鏈路預測方法已經成為該領域研究的一個重要熱點,即通過網絡中己知的節點信息、網絡結構信息等預測網絡中任意兩個節點之間產生鏈接的可能性[]。在構建經濟主體關聯網絡的基礎上,可以綜合運用相似性預測、最大似然估計預測、概率模型預測等方法開展復雜網絡鏈路預測,從而實現對經濟運行復雜網絡未來走勢的預測。

3、基于行為鏈條的預測模型

其基本原理是通過自然語言理解等手段分析微觀經濟主體的心理認知規律,進而基于行為鏈條對經濟主體的行為概率進行判斷,從而形成宏觀層面的預測模型。這方面研究很多,較為常見的分析邏輯如:主體產生消費意愿搜索下單產生消費行為[-];主體感受到通脹壓力社交媒體討論調整消費行為[];主體感受到失業壓力搜索或社交媒體討論投簡歷調整就業[-];主體產生購房意愿搜索或社交媒體討論看房購房[-];主體看空/看多股市在社交媒體討論產生交易股價波動[-],等等。

4、基于時空演化的預測模型

時空數據預測的基本原理,是將各種非傳統數據(如消費行為、地理位置、通話行為、空氣質量、交通流量等)與統計指標(如GDP、人均收入、房價、地區產值等)在統一的時空平臺中進行集中展現和一體化分析,其主要預測方法大致可以分為統計預測模型(如多元線性回歸預測、UC模型、AIDS模型、ARIMA模型、BP模型等)和機器學習算法(如目前大量研究運用時空數據卷積神經網絡方法對交通流量[]、大氣污染[]、貧困走勢[]等進行的預測)兩大類。

6.3 構建宏觀經濟風險監測預警平臺

當前,隨著國際國內經濟形勢的日趨復雜,現代西方經濟學在識別和預測風險方面的理論缺陷越來越明顯。布萊恩.阿瑟指出,均衡范式下的經濟學理論從根本上缺乏對重大風險的預測預警能力,因為其堅持均衡分析,假定系統會快速地向一個沒有任何行為主體有動機偏離其當前行為的地方收斂,并且會穩定在那里,因此剝削行為不可能發生?;谶@種認識,我們經濟學家的普遍傾向是,設計政策并對其結果進行一些模擬,但是不會充分地探討行為假設的穩健性,不能將那些因系統性的剝削而可能失敗的地方識別出來。 [24]運用大數據方法,則可以較好地彌補傳統均衡經濟學的這一缺陷。

1、構建風險識別模型庫

針對自然人方面,重點圍繞犯罪熱點預測、疫情傳播預測、人群聚集點風險、互聯網金融、網絡詐騙、非法傳銷等問題進行風險識別建模。針對法人方面,重點圍繞涉及重大政策、重大項目的違法違規、社會糾紛、實施進度、金融杠桿率、流動性風險、社會信用風險、影子銀行、違法犯罪、外部沖擊等重點風險領域開展建模分析。例如,在互聯網金融領域,可以重點圍繞非法集資企業精準畫像、非法集資關聯特征抽取、核心控制人捕捉、異常風險事件發現、虛設項目空殼公司預警、欺詐風險識別等顯性風險點,以及企業投資網絡、自然人股東多處投資、多家公司兼任高管、多層次隱性控制等隱性風險點進行綜合建模,開展金融風險模型訓練、數據測試集校驗建模,形成分區域、分領域、分行業金融風險預測預警體系,不斷強化宏觀經濟風險識別和應對處置能力,切實防范潛在運行風險。通過構建兩類微觀主體的行為風險識別模型庫,實現對中觀層面異常點、突變點、奇異點的及時識別和定位,從而幫助人們提前分析發現經濟運行的重大風險點。

2、構建風險評級體系

利用機器學習、風險模型、專家評分等多種手段,構建覆蓋自然人和法人的風險識別特征庫,在整合歸集多種數據源的基礎上,對不同行業、不同層級的評估對象進行風險評級,以實現更加精準、超前的風險識別與預測預警。例如,國家發展改革委大數據中心曾聯合成都數聯銘品等企業,探索從企業工商變更、關聯關系演變、招聘行為變化等數據中抽取非法集資樣本企業的行為特征,結合深度學習等算法形成企業經營風險評估模型,并研發了企業靜態風險特征指數和企業動態風險特征指數。其中,企業靜態風險特征指數考慮了企業股權結構合理度、高管業務專注度、企業投資行為、人才結構變化、關聯網絡存續時間等靜態特征。企業動態風險特征指數則側重描述企業行為變化的穩定性和趨勢性,從核心企業群關聯度、關聯企業行業/地域擴散特征、關聯方增長構成等方面出發,刻畫時間演化規律,用以評估企業的動態風險行為及泡沫化風險。

3、構建風險壓力測試平臺

未來,面對日趨復雜的宏觀經濟環境,需要堅持底線思維,形成對重大宏觀經濟政策成效和風險層級的測試仿真環境。布萊恩.阿瑟曾指出:設計一個政策體系并簡單地分析是遠遠不夠的,即便是相當細致深入地模擬政策結果也是不夠的。我們不能把社會系統和經濟系統視為一組沒有改變動機的行為,而必須把它們視為一種總會引發進一步的行為、誘致進一步的策略、導致系統性改變的激勵網絡。我們需要仿效結構工程學、流行病學或加密科學等學科中的做法,預測我們所研究的系統中可能被剝削的地方。我們需要對我們的政策設計進行壓力測試,來找出它們的弱點,看看我們能否打破它們。[24]在宏觀經濟分析中,通過歸集各方面數據資源,構建重大外部事件對宏觀經濟運行情況的“極限測試環境”,具有重要現實意義。

7 結語

2012年,諾貝爾經濟學獎獲得者羅斯(Alvin Roth)曾把經濟學理論劃分為三類,即與理論經濟學家對話”(Speaking to Theorists)、尋找事實”( Searching for Facts)在王子耳邊低語”(Whispering in the Ears of Princes) []。按照這一分類,大數據經濟學主要專注于政策應用領域,具有很濃厚的工具色彩[],可以算作比較典型的第三類經濟學理論,即通過對政策制定者所關心的主題加以實證考察,實現學界與政界的直接對話,含有直接或間接的政策目的,其更接近于政策科學的視角[]。本文按照均衡范式與演化范式相統一的基本思路,探討構建了在宏中微觀三個層面相互打通的一體化經濟運行分析框架,并將其命名為“國家經濟決策大腦”,希望本文的若干思考和建議能夠在后續國家宏觀決策部門和高??蒲袡C構開展相關領域研究提供有益借鑒。

开个什么店好赚钱呢 门面不是太正 双塔食品股票股吧 定投理财投资产品好么 陕西11选五中奖规则表 冠军极速赛车人工计划 河南快3开奖走势图结果 深圳风采最新开奖公告 江西11选五历史开奖号码 吉林11选5兑换 湖南快乐十分20选8 北京11选5前三走势图