宏觀經濟大數據系列研究之六:面向類不平衡問題的“職業舉報人”識別方法
??時間:2020-06-22

易成岐1,  黃倩倩1,  王從余2,  張何燦3,  靳曉錕4,  王建冬1

1.國家信息中心 大數據發展部,北京市  100045

2.清華大學 心理學系,北京市  100084

3.北京大學 軟件與微電子學院,北京市  102600

4.北京大學 數學科學學院,北京市  100871

 

本文引用地址:

易成岐,黃倩倩,王從余,張何燦,靳曉錕,王建冬.面向類不平衡問題的“職業舉報人”識別方法[J].計算機工程與應用,2019,55(14):1-7+23.

 

摘 要:“職業舉報人”團伙化、規?;?、專業化、低齡化作案趨勢日趨明顯,政府部門對其識別大多采用人工鑒別的方法,造成了大量人力資源的浪費。采用Bootstrapping數據重采樣技術,結合文本、時間和舉報人屬性等特征,在解決類不平衡數據的過擬合問題基礎上,實現了“職業舉報人”的準確識別。實驗結果表明,相比過采樣和欠采樣技術而言,利用Bootstrapping重采樣技術識別準確率更高,采用CFS方法結合Best First策略對數據特征進行優化,在保證精度的前提下能夠實現更高的計算效率。以全國12358價格監管平臺的真實數據為驅動,驗證了方法的有效性,對比分析了“職業舉報人”和正常消費者的投訴舉報行為習慣差異。

關鍵詞:職業舉報人; 類不平衡; 特征選擇; 數據驅動; 12358價格監管平臺

文獻標志碼: A    中圖分類號: TP181

易成岐,黃倩倩,王從余,張何燦,靳曉錕,王建冬.面向類不平衡問題的“職業舉報人”識別方法.計算機工程與應用

YI Chengqi, HUANG Qianqian, WANG Congyu, ZHANG Hecan, Jin Xiaokun, WANG Jiandong. Identification method of professional whistleblower based on class imbalance problem. Computer Engineering and Applications

Identification method of professional whistleblower based on class imbalance problem

YI Chengqi1,  HUANG Qianqian1,  WANG Congyu2,  ZHANG Hecan3,  JIN Xiaokun4,  WANG Jiandong1

1. Department of Big Data Development, State Information Center, Beijing 100045, China

2. Department of Psychology, Tsinghua University, Beijing 100084, China

3. School of Software and Microelectronics, Peking University, Beijing 102600, China

4. School of Mathematical Sciences, Peking University, Beijing 100871, China

AbstractProfessional whistleblower is a problem that has perplexed market regulators for many years, and with the trend of gangs, large-scale, professional and low-age. Most of the government departments take the manual identification methods to identify “professional whistleblower, which use up much labor power. This paper used the statistical technique bootstrapping, combined with the characteristics of text, time and whistleblower attributes, on the basis of solving the problem of over-fitting of class unbalanced data, the accurate identification of “professional whistleblower is realized. The experimental results showed that: (1) the recognition accuracy of bootstrapping is higher than that of other resampling methods such as oversampling and undersampling; (2) the correlation-based feature selection method combined with the best first search strategy to optimize the data features in the identification method has higher computational efficiency on the premise of ensuring the accuracy. By the real-world data-driven of national 12358 price regulation platform, this paper verified the effectiveness of the method. Finally, this paper compared and analyzed the differences of the behaviors between professional whistleblower and normal consumers.

Key wordsprofessional whistleblower; class imbalance; feature selection; data driven; 12358 price regulation platform


1  引言

當前,一種專門以投訴舉報為業,執意向被舉報人提出一定補償要求,甚至對其敲詐勒索以求牟利的“職業舉報人”應運而生[1]。目前,具有監督管理職能的政府部門在處理群眾投訴舉報工作中,經常會面對“職業舉報人”[2]。與此同時,隨著電子商務、移動互聯網等領域的迅猛發展,“職業舉報人”所涉獵的領域已不再局限于線下超市商場等商家,而是將目光轉向了更為方便快捷、無地域限制的網絡購物之中。

“職業舉報人”主要有以下兩方面特征[3],一是動機不純?!奥殬I舉報人”并不是出于自身生活需要進行消費,而是經常偽裝成普通消費者,廣泛尋找經營者的不規范市場行為或者故意對其設置一些圈套和陷阱,并利用這些舉證要求甚至敲詐勒索經營者為其支付一定賠償金,其最終目的并不是希望向政府部門反映問題從而對市場經營行為進行規范,而僅僅是為了追求經濟利益;二是行為專業?!奥殬I舉報人”往往會經過系統性培訓,對相關領域的法律法規非常熟知,其投訴的內容十分清晰明了,引用的法律法規準確規范,而且往往是多人同時就同一問題進行投訴,投訴內容也相對固定化、模板化。

對于“職業舉報人”這一現象,當前社會輿論對其褒貶不一,一方面認為對規范市場秩序和維護消費者權益等方面起到了一定積極作用;另一方面,大多數輿論認為其初衷就是借投訴舉報為由謀求個人的經濟利益,擾亂了市場的正常秩序,而且“職業舉報人”往往會給人一種成本低、風險小、賺錢快、代價少等不勞而獲的印象,引領了不良的社會風氣。與此同時,當前“職業舉報人”的投訴舉報行為已呈現多人舉報、一案多報、無消費舉報等特點[1],其團伙化、規?;?、專業化、低齡化作案趨勢日趨明顯。 

目前,相關政府部門對“職業舉報人”的識別大多仍采用人工鑒別的方法,造成了大量人力資源的浪費,而且目前學術界對于“職業舉報人”的研究主要停留在定性分析層面,尚缺乏以真實數據為驅動的、行之有效的“職業舉報人”識別方法和定量分析結論。

鑒于此,本文的主要貢獻主要有以下三個方面:

(1)考慮到職業舉報人和正常消費者投訴舉報案件的比例十分不均等,符合機器學習分類中的類不平衡問題,本文基于Bootstrapping數據重采樣方法,將“職業舉報人”識別轉換為二值分類問題,并提出了一種面向類不平衡問題的“職業舉報人”識別方法。

(2)為了減少識別方法在實際應用過程中的特征提取時間,本文采用基于相關性的特征選擇方法結合最佳優先搜索策略對識別方法中的數據特征進行了優化,并且詳細闡述特征選擇前后的識別準確率性能差異。

(3)本文以全國12358價格監管平臺數據為依托,通過真實數據驅動的方式驗證了“職業舉報人”識別方法的有效性,并且對比分析了“職業舉報人”和正常消費者的投訴舉報行為習慣。

2  相關工作

不平衡數據的分類問題在機器學習領域具有非常重要的研究意義和應用價值。傳統的機器學習分類算法通常會有一個前提假設,即假設數據集中各個類別樣本會分布均勻、數量級相近且誤分代價基本相同,然而在現實世界中往往卻不如此,現實世界中很多場景下的數據集都會存在不平衡分布特性[4],即某一類別樣本數量要遠遠小于其他類別樣本數量,而且小樣本量的類別往往比大樣本量類別會更加重要,如對其進行錯誤分類,則錯誤的代價更高。類不平衡問題及其解決方案已廣泛出現在信息安全[5][6]、網絡管理[7][8]、計算機視覺[9][10]、生物醫療[11][12]、工業控制[13][14]、金融風控[15][16]等多個領域。

國內外學者開展了大量針對類不平衡數據進行有效分類的研究,相繼提出了不同層面的解決辦法??偨Y而言,目前主流方法主要從三個方面開展研究,即數據處理層面、數據特征層面和模型算法層面[4]。

其中,在數據處理層面,研究人員希望利用數據重采樣方法改變數據集分布,即降低小樣本量數據類別與大樣本量數據類別的不平衡程度,使得不平衡的數據在一定程度上達到平衡狀態,從而消除類別不平衡問題以更好適應傳統分類模型算法,目前數據重采樣是最直接的解決類別不平衡問題的方法;在數據特征層面,研究人員希望能夠通過特征選擇方法,自動化選擇在類不平衡狀況下仍具有較好區分能力的數據特征子集,在可以最大程度地避免過擬合問題的同時,提高小樣本量數據類別或整體分類的準確率;在模型算法層面,研究人員在構建分類模型算法時會結合類不平衡數據集的不同數據特點,直接將類不平衡性問題考慮進去,從算法層面對傳統分類模型算法進行改進,從而提高對小樣本量數據類別的識別準確率[17]。

目前,隨著傳統機器學習及新興深度學習等技術的不斷深入和逐步突破,類不平衡數據的分類方法也在不斷演進[18],上述研究方法和成果能夠為面向類不平衡問題的“職業舉報人”識別方法的設計提供有益思路。

3  面向類不平衡問題的“職業舉報人”識別過程及方法

3.1  基本思路

面向類不平衡問題的“職業舉報人”識別方法所采用的數據源主要為投訴舉報數據,其基本思路如圖1所示,主要分為三個階段:

圖1 面向類不平衡問題“職業舉報人”識別方法基本思路

第一階段是數據重采樣階段,考慮到本文數據存在“職業舉報人”類別樣本量與“正常消費者”類別樣本量不平衡問題,為有效規避分類器模型出現過擬合(overfitting)等問題,在訓練分類器模型前會利用Bootstrapping方法對訓練樣本進行數據重采樣操作,即在訓練樣本中進行有放回的重復性采樣,采樣規模與訓練樣本數據規模相同,采樣次數n根據統計分布估計值決定。Bootstrapping方法的基本思想是通過自身樣本的重采樣來估計真實數據的統計分布,屬于用小樣本估計總體值的一種非參數方法。

第二階段是特征抽取與特征選擇階段,基于投訴舉報的主要數據字段以及需要保護投訴者用戶隱私等方面的考慮,目前主要圍繞投訴舉報的文本特征、時間特征和舉報人非敏感屬性特征進行特征抽取。此外,由于訓練樣本分布不平衡往往會導致特征屬性分布失衡,因此在該階段應用了特征選擇方法,從特征集合中選取具有代表性較優的特征子集,通過特征選擇保留不平衡數據集的關鍵區分特征,既可以保持或提升識別準確率,又能夠在實際應用過程中減少特征提取時間,增強方法的實用性和可用性。

第三階段是“職業舉報人”識別階段,在此階段將“職業舉報人”識別問題轉換為二值分類問題,同時,考慮到前兩個階段能夠從一定程度上解決類不平衡問題,因此在該階段沿用了目前較為常見的機器學習分類算法進行訓練與識別。

3.2  利用Bootstrapping重采樣方法解決訓練樣本不平衡問題

Bootstrapping重采樣方法是統計學上一種十分常用而且非常有用的估計方法,該方法是由斯坦福大學Bradley Efron教授于1979年提出,是一種用于計算任意估計的標準誤差的數據重采樣方法[19]。Bootstrapping屬于非參數Monte Carlo方法,其本質是對樣本數據進行再抽樣,在此過程中不需要對模型進行其他假設或者增加新的樣本量,通過多輪抽樣進而對數據整體分布特性進行估計和推斷,其具有穩健性強、魯棒性優、效率性高等優點。

假設現有N個數據樣本構成的訓練集Z={z1, z2, … , zn},其中 zi ={xi, yi}。Bootstrapping的方法是對這N個數據樣本進行B次有放回的重復性采樣,并且通過多輪采樣組成新的訓練集S(Z),此時保證S(Z)的樣本數也為N。但不難發現,Bootstrapping重采樣會引發一個問題,即意味著某些原始樣本可能永遠都沒有被采樣到,而某些樣本可能會同時被采樣多次。因此,在此情況下測試集的錯誤率可以表示為:

   (1)

其中,L代表損失函數,代表第b次重采樣所得模型對第i個觀測量的預測值。

顯然,由于原始數據樣本既是訓練集又是測試集,用來估計模型的錯誤率并不是十分準確。如果模型出現了嚴重的過擬合現象,會低估其錯誤率,反而使結果看起來很好。因此,借鑒交叉驗證的思想,留一法(即每次只保留一個樣本做測試集,其它樣本均用做訓練集)對上述錯誤率的估計進行了改進。對于每次重采樣,只觀測沒有被采集到的樣本,即測試集樣本的錯誤率可改進為:

 2

其中,C-i指第b次重采樣的數據樣本中不包含樣本i的集合。解決了過擬合現象發生時模型錯誤率的過低估計問題,但由于一次采樣中某些樣本仍有可能會被重復性采樣,因此仍然是一種有偏估計。此外,Bradley Efron認為,當N足夠大時,每次采樣中的非重復樣本數約占總樣本數的63.2%,因此“0.632法”估計模型的錯誤率為:

  (3)

3.3  特征抽取

由于已經將“職業舉報人”識別問題轉換為二值分類問題,因此需要在應用分類模型前預先提取決定分類標準的特征。在“職業舉報人”識別過程中,有許多因素會影響識別的效率和準確性,但在此階段首先需要考慮要確保將投訴舉報用戶的隱私信息進行過濾或脫敏化處理。

基于此,本文主要圍繞文本特征、時間特征和舉報人屬性特征三方面特征進行抽取?!奥殬I舉報人”的主要識別特征如表1所示,識別特征共15項,其,文本特征10、時間特征2、舉報人屬性特征3。

表1 “職業舉報人”主要識別特征

文本特征

F1

LENGTH

投訴舉報文本長度

F2

LAW_NUMS

投訴舉報文本中法律法規的提及數

F3

LAW_ DETAILS

投訴舉報文本中是否有提及法律法規的具體條目

F4

FORM_TIME

投訴舉報文本中是否包含較正式的時間格式,如YYYY-MM-DD

F5

IS_URL

投訴舉報文本中是否包含網址鏈接

F6

ORDER_NUMS

投訴舉報文本中是否包含訂單號

F7

INDEX_Q

投訴舉報文本中問號的個數(中文“?”或英文“?”)

F8

INDEX_E

投訴舉報文本中嘆號的個數(中文“!”或英文“!”)

F9

INDEX_P

投訴舉報文本中是否有2個及以上連續的句號(中文“?!被蛴⑽摹?”)

F10

Word2Vec

投訴舉報文本詞向量特征[20][21]

時間特征

F11

HOUR

投訴舉報時間(以小時為單位統計)

F12

WEEK

投訴舉報日期(以星期為單位統計)

屬性特征

F13

PHONE_3

舉報人手機號前三位

F14

SEX

舉報人性別

F15

PROVINCE

舉報人所在省份

其中,關于文本特征,考慮到“職業舉報人”更傾向于使用相對固定化的模板進行投訴舉報,而正常消費者用語方式更加多元化,因此選用投訴舉報內容的文本長度LENGTH、文本中是否包含較正式的時間格式FORM_TIME、文本中是否包含網址鏈接IS_URL、文本中是否包含訂單號ORDER_NUMS、文本詞向量Word2Vec(側重于用語習慣)等特征對二者加以區分,此外,由于“職業舉報人”往往經受過相關領域法律法規方面的系統性培訓[3],因此選用舉報文本中法律法規的提及數LAW_NUMS和是否有提及法律法規的具體條目LAW_ DETAILS作為識別特征。同時,因為正常消費者在進行投訴舉報時往往情感波動更強烈,因此較容易使用類似于“???”、“!!!”或“”這種表達方式,因此,本文也選用了文本中嘆號的個數INDEX_Q、文本中問號的個數INDEX_E和文本中句號的個數INDEX_P作為識別特征。

關于時間特征,考慮到“職業舉報人”和正常消費者可能會存在作息時間方面的差異,因此將投訴舉報時間(以小時和星期為單位進行統計)作為識別特征。

關于舉報人屬性特征,“職業舉報人”和正常消費者在預留手機號的時候,可能會存在使用電信運營商和網絡運營商的差異,但由于要以保護用戶隱私為前提,因此選用舉報人手機號前三位PHONE_3作為識別特征之一,此外,也將舉報人性別SEX和所在省份PROVINCE等非敏感信息作為識別特征。下文4.2小節會詳細闡述將上述15個特征應用到“職業舉報人”識別上的實驗效果。

3.4  特征選擇

特征選擇是機器學習分類算法中一個非常關鍵的環節,是一個選取符合分類要求且各個特征彼此關聯程度較小的最優特征子集的過程,其目的主要是基于一定規則從j個特征中選擇k個特征子集,從而使分類模型達到最優的性能。特征選擇在改善機器學習分類算法的效率發揮著非常重要的作用,其能夠去除不相關以及冗余的特征,可以有效降低時間和空間復雜度,提升數據質量及數據泛化能力。

本文采用基于相關性的特征選擇方法(Correlation-based Feature Selection, CFS)結合最佳優先搜索策略(Best First)對“職業舉報人”識別特征進行選擇。

其中,CFS方法可以根據訓練數據集中每一個特征之間的關聯性以及各個特征的預測能力進行評估[22][23]。CFS方法的核心思想是采用啟發式策略評估特征子集的作用和價值,其啟發式方程為:

      (4)

其中Merits為包含k個特征的特征子集,是平均的特征和類之間的相關性,是平均的特征和特征之間的相關性,rPearson相關系數。

CFS方法首先會從訓練集中計算“特征和類”和“特征和特征”相關矩陣,之后利用Best First策略搜索特征子集空間,其中,Best First策略的基本思想是將節點按照目標距離進行排序,再根據節點的估計距離為標準對待擴展節點進行選擇[24]。CFS方法在開始時會產生所有可能的單個獨立特征,并計算每個特征的Merit值。之后選擇Merit值最大的一個特征進入特征子集,再選擇Merit值第二大的特征進入特征子集,此時判斷如果這兩個特征的Merit值小于之前的Merit值,則去除Merit值第二大的特征,至此循環遞歸,最終尋找出找出使Merit值最大的特征組合。不難發現,CFS方法的時間復雜度為:

           5

其中,m是特征子集中的特征個數,n是全部特征的個數。

4  數據介紹及實驗結論

4.1  實驗數據介紹

本文選用全國12358價格監管平臺中的真實投訴舉報數據作為實驗數據集。全國12358價格監管平臺于2013年開始規劃設計,于2015年初正式開通上線運行,已經逐漸成為群眾維護價格權益的主要渠道。截止目前,平臺受理范圍已經覆蓋全國所有省份,已受理各類價格咨詢、舉報、投訴案件數百萬件,各級價格監督檢查機構可以利用平臺查處各類價格違法行為,經濟制裁金額已達上億元,取得了良好的社會反響[25]。

為了降低數據抽取過程中人為主觀因素的影響,本文從全國12358價格監管平臺中的行業分類編碼中進行了篩選,隨機抽取了“網絡購物”領域中201610月至20193月共25,592條投訴舉報數據開展后續實驗,其中,每條數據包含標識號(用于唯一標識該條記錄)、舉報人性別、舉報人所在省份編號、舉報文本內容、舉報人手機號碼、案件所屬行業和接收舉報時間等數據字段。

同時邀請了3位在價格監管領域具有數據分析經驗的專家分別對所有數據進行打標,在每條數據的“是否為職業舉報人”一欄標注“是”或“否”。如果3位專家中有1位意見不同,則該條數據標注結果由3位專家共同商議評定。25,592條最終標注結果為:職業舉報人4,888條、正常消費者20,704條,二者數據樣本量比例為1:4.24,符合類不平衡數據特征。

其中,基礎實驗數據的年度分布如圖2所示,考慮到平臺在2017年后數據字段相對更穩定、數據質量相對更成熟,因此,基礎實驗數據中2016年的數據相對較少,只抽取了3,132條,其它年份相對較均勻,每年大約抽取2016年的一倍,約為7,000余條。

 

2 全國12358價格監管平臺實驗數據年度分布

此外,實驗數據的月度分布如圖3所示,不難發現,目前實驗數據已經覆蓋了1月至12月全部月份,此舉是為了降低時間周期性影響對實驗結果的干擾。

 

3 全國12358價格監管平臺實驗數據月度分布

4.2  利用Bootstrapping重采樣方法識別“職業舉報人”

本文選取了5種常見的分類模型對實驗數據進行測試,其中,各個模型均為默認參數設置(分別為:C4.5、BayesNet、NaiveBayes、AdaBoost、RandomFores),同時,選用了基于Bootstrapping的數據重采樣方法、Undersampling(欠采樣方法)和Oversampling(過采樣方法)三種方法進行對比實驗[26]。其中,Undersampling方法是指減少樣本量較大類別中的數據樣本,使之與數量較小類別達到平衡狀態的一種數據重采樣方法。Oversampling方法則反之,是指增加樣本量較小類別中的數據樣本,使之與數量較大類別達到平衡狀態的一種數據重采樣方法。此外,本文采用十折交叉驗證方法及2種常見的評價指標進行結果評估(F值F1-Measure和ROC曲線面積AUC)。

結合表1中的15個特征,不同數據重采樣方法及分類器下對“職業舉報人”的識別效果如圖4所示。

 

4 “職業舉報人”識別效果對比(全部特征)

從圖4中可以發現,從數據重采樣方法對比結果橫向角度看,相比UndersamplingOversampling方法而言,Bootstrapping數據重采樣方法在5種分類器下的F值得分明顯最高;關于 ROC曲線面積AUC,除C4.5和RandomFores兩個分類器模型Oversampling方法的AUC值略高于Bootstrapping方法外(分別高出0.64%和0.79%),其他分類器模型下Bootstrapping方法的AUC值與UndersamplingOversampling方法相比均相對較平穩。此外,從Bootstrapping數據重采樣方法分析結果縱向角度看,采用Bootstrapping重采樣方法以及全部15個特征的方式對“職業舉報人”進行識別具有很高的準確性。在不同分類器下,F值均在93%至95%之間,同時ROC曲線面積均保持在87%至91%之間,此外,不同分類器對“職業舉報人”識別結果區分度不大,這也說明前文所述15個識別特征起到了非常關鍵的作用。

4.3  采用CFS方法和Best First策略進行特征選擇

為了減少識別方法在實際應用過程中的特征提取及建模時間,同時盡量去除不相關和冗余的特征從而達到對識別特征進行優化的效果,基于前文所述CFS方法和Best First策略,本文對表1中的15個特征進行了特征選擇,最終選定LENGTH、LAW_NUMS、ORDER_NUMSINDEX_P為優化后的識別特征。

為了探究這些優化后的特征在“職業舉報人”識別中是否能夠起到更好的作用,本文針對上述5種分類器設計了相關對比實驗。在每組實驗中,分別采用全部15個特征和特征選擇出的4個優選特征進行“職業舉報人”識別對比。其對比實驗結果如圖5和圖6所示。

 

5 識別效果對比(全部特征及特征選擇后的4個特征)

5為應用全部特性及特征選擇后的4個特征在“職業舉報人”識別效果的對比情況,其中,關于F值效果,RandomForest分類器下4個優選特征下的F值相比全部特征而言略有提高,其它分類器所對應的F值基本保持穩定或下降幅度并不明顯。此外,關于ROC曲線面積,C4.5分類器下全部特征及4個優選特征的ROC曲線面積基本保持一致,其它分類器下降不明顯(下降約0.6%至0.7%)。

從圖6能夠發現,如果在實際應用場景中只選取特征選擇后的4個特征進行“職業舉報人”識別,除能夠降低特征抽取的時間外,也能夠有效減少建模時間,例如:RandomForest分類器建模時間從4.54秒降至2.83秒,C4.5決策樹分類器建模時間從全部特征的1.05秒減至0.05秒(注:機器配置CPU Intel i5-8265U 1.6GHz,內存8G)。

 

6 建模時間對比(全部特征及特征選擇后的4個特征)

4.4  職業舉報人和正常消費者行為習慣對比

為了對比職業舉報人和正常消費者的行為習慣差異,本文選取了投訴舉報時間和投訴舉報文本長度兩個維度進行了分析。由于職業舉報人和正常消費者兩者數據量級存在不平衡問題,因此圖7和圖8兩組實驗分別選用各自類別數量占比開展分析。

 

7 投訴舉報時間對比(按小時統計)

圖7為職業舉報人和正常消費者的投訴舉報時間對比結果(按照小時進行統計),可以發現,職業舉報人更喜歡“夜間工作”,其晚8點至早7點之間的投訴舉報數據量占比明顯高于正常消費者。

8展示的是職業舉報人和正常消費者的投訴舉報文本長度對比結果,從圖8能夠明顯看出,職業舉報人的“話更多”,正常消費者投訴舉報文本長度大多均小于300個字符,而職業舉報人文本長度如圖8中方框所示,集中出現在400至1000個字符之間。

 

8 投訴舉報文本長度對比

5  結束語

基于全國12358價格監管平臺真實數據,本文將“職業舉報人”識別問題轉換為二值分類問題,利用Bootstrapping數據重采樣方法,提出了一種面向類不平衡問題的“職業舉報人”識別方法,通過實驗分析發現,相比UndersamplingOversampling數據重采樣方法而言,基于Bootstrapping的數據重采樣方法在5種分類器下的F值最高。另外,采用Bootstrapping重采樣方法,在不同分類器下,“職業舉報人”識別F值在93%至95%之間,ROC曲線面積均保持在87%至91%之間。為了減少識別方法在實際應用過程中的特征提取時間,本文采用CFS特征選擇方法結合BestFirst策略對識別方法中的數據特征進行了優化,并且通過實驗最終選定LENGTH、LAW_NUMS、ORDER_NUMSINDEX_P為優化后的識別特征,分析發現只應用這4個優選特征也能夠保持較好的“職業舉報人”識別效果。最后,本文通過真實數據驅動的方式對比分析了“職業舉報人”和正常消費者的投訴舉報行為習慣,發現職業舉報人“話更多”,也更喜歡“夜間工作”。

未來工作中,一方面可以利用投訴舉報的時間序列數據研究職業舉報人的團伙演化規律,另一方面,可以研究職業舉報人的動態自反饋增量識別模型以應對職業舉報人的動態變化,此外,也可以進一步研究如何將此方法應用到其它投訴舉報平臺之中。

參考文獻:

[1] 李彤. 職業舉報人應對策略之我見[J]. 中國價格監管與反壟斷, 2017(03): 62-63.

[2] 錢英龍. 控減市場監管領域職業舉報案件的實踐與思考[J]. 中國市場監管研究, 2018(10): 60-63.

[3] 趙婭琪. 一起“職業舉報人”惡意價格舉報案引發的思考[J]. 中國價格監管與反壟斷, 2018(02): 53-55.

[4] 李艷霞, 柴毅, 胡友強, 尹宏鵬. 不平衡數據分類方法綜述[J]. 控制與決策, 2019, 34(04): 673-688.

[5] Wang S, Yao X. Using class imbalance learning for software defect prediction[J]. IEEE Transactions on Reliability, 2013, 62(2): 434-443.

[6] Bennin K E, Keung J, Phannachitta P, et al. Mahakil: Diversity based oversampling approach to alleviate the class imbalance issue in software defect prediction[J]. IEEE Transactions on Software Engineering, 2018, 44(6): 534-550.

[7] Gómez S E, Hernández-Callejo L, Martínez B C, et al. Exploratory study on Class Imbalance and solutions for Network Traffic Classification[J]. Neurocomputing, 2019.

[8] Zhang J, Chen X, Xiang Y, et al. Robust network traffic classification[J]. IEEE/ACM Transactions on Networking (TON), 2015, 23(4): 1257-1270.

[9] Shen W, Wang X, Wang Y, et al. Deepcontour: A deep convolutional feature learned by positive-sharing loss for contour detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR). 2015: 3982-3991.

[10] Pouyanfar S, Chen S C. Automatic video event detection for imbalance data using enhanced ensemble deep learning[J]. International Journal of Semantic Computing, 2017, 11(01): 85-109.

[11] Bhattacharya S, Rajan V, Shrivastava H. ICU mortality prediction: A classification algorithm for imbalanced datasets[C]//The 31st AAAI Conference on Artificial Intelligence. 2017.

[12] Herndon N, Caragea D. A study of domain adaptation classifiers derived from logistic regression for the task of splice site prediction[J]. IEEE transactions on nanobioscience, 2016, 15(2): 75-83.

[13] Martin-Diaz I, Morinigo-Sotelo D, Duque-Perez O, et al. Early fault detection in induction motors using AdaBoost with imbalanced small data and optimized sampling[J]. IEEE Transactions on Industry Applications, 2017, 53(3): 3066-3075.

[14] Duan L, Xie M, Bai T, et al. A new support vector data description method for machinery fault diagnosis with unbalanced datasets[J]. Expert Systems with Applications, 2016, 64: 239-246.

[15] Lin S J, Chang C, Hsu M F. Multiple extreme learning machines for a two-class imbalance corporate life cycle prediction[J]. Knowledge-Based Systems, 2013, 39: 214-223.

[16] Sanz J A, Bernardo D, Herrera F, et al. A compact evolutionary interval-valued fuzzy rule-based classification system for the modeling and prediction of real-world financial applications with imbalanced data[J]. IEEE Transactions on Fuzzy Systems, 2015, 23(4): 973-990.

[17] Galar M, Fernandez A, Barrenechea E, et al. A review on ensembles for the class imbalance problem: bagging-, boosting-, and hybrid-based approaches[J]. IEEE Transactions on Systems, Man, and Cybernetics, 2012, 42(4): 463-484.

[18] 趙楠, 張小芳, 張利軍. 不平衡數據分類研究綜述[J]. 計算機科學, 2018, 45(S1): 22-27.

[19] Efron B. Bootstrap Methods: Another Look at the Jackknife[J]. The Annals of Statistics, 1979: 1-26.

[20] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems (NIPS). 2013: 3111-3119.

[21] Mikolov T, Yih W, Zweig G. Linguistic regularities in continuous space word representations[C]//Proceedings of the 2013 Conference of the North American Chapter of the ACL. 2013: 746-751.

[22] D’heygere T, Goethals P L M, De Pauw N. Use of genetic algorithms to select input variables in decision tree models for the prediction of benthic macroinvertebrates[J]. Ecological Modelling, 2003, 160(3): 291-300.

[23] Hall M A. Correlation-based Feature Selection for Discrete and Numeric Class Machine Learning[C]//Proceedings of the 17th International Conference on Machine Learning (ICML). 2000: 359-366.

[24] Gunes H, Piccardi M. Bi-modal emotion recognition from expressive face and body gestures[J]. Journal of Network and Computer Applications, 2007, 30(4): 1334-1345.

[25] 劉枝. 依托12358模式構建互聯網+監管系統[J]. 中國價格監管與反壟斷, 2018(12): 26-28.

[26] 閆欣. 綜合過采樣和欠采樣的不平衡數據集的學習研究[D]. 東北電力大學, 2016.


 

1.易成岐 ; 2.北京市西城區三里河路58號國家信息中心(100045); [email protected]163.com、18010127221。

开个什么店好赚钱呢 门面不是太正 广西快乐十分彩乐乐网 双色球投注技巧18种 福彩3d今天开奖结果 看双色球走势图的秘诀 排列三组选走势图 内蒙古快3预测 怎么分析股票涨停 南粤风采好彩1预测 江西快3开奖查询 双色球对应码是什么意思