大數據背景下公安數據分析平臺建設
來源:大數據部 ??時間:2020-03-12

 

隨著公安信息化的高速發展,公安各級部門積累了海量的業務數據。如何快速挖掘其內在價值,已成為公安信息化迫切需要解決的關鍵問題。因此,需要運用科技手段,提高公安部門的信息偵查、數據收集、智能分析、經偵調度、精準預測分析能力,構建符合公安實戰所需要的智能大數據支撐體系。

一、建設目標

面向公安實戰需求開展數據的深度整合和綜合利用,構建一套基于大數據的統一數據采集、存儲、分析、挖掘、應用的綜合平臺,實現以下目標:

l 數據資源大整合,構建齊全、鮮活的數據集市。

抽取、清洗、轉換、匯集跨地區、跨警種的各類數據,組建由公安內部、外部數據、互聯網數據等組成的基礎數據庫;面向信息檢索、數據分析和專題應用需求重新構建的專題數據庫;形成數據齊全、歸類清晰的數據集市。

l 構建高效處理、安全存儲的大數據平臺。

采用云計算架構,構建大數據平臺。通過云計算、分布式存儲、分布式計算、內存計算等技術手段提高數據處理能力,提高對非結構化數據,大容量數據的存儲及處理能力,滿足各類應用數據處理要求。

l 構建標準化、多樣化、高效的數據共享平臺。

按照統一標準,分類別封裝通用的數據訪問、數據互操作、應用功能類、數據交換、信息布控等接口,通過服務總線形式提供,并由共享門戶展現,滿足基層數據共享需求。

l 深化數據應用,構建切合實戰的數據應用平臺。

根據一線實戰需求的共性,開發部分通用的數據應用,譬如云搜索、信息比對、信息布控、背景審查等。借助大數據高效數據處理能力,開發對數據的深度應用,譬如智能碰撞、關系人挖掘、情報線索分析等。

二、建設內容

建設方案分為數據資源、數據服務、數據應用三個層面,整體架構如下:

1:架構圖

(一)數據資源層

1、數據采集

1)數據源

數據源主要包括公安內部外部數據。其中,公安內部數據以警務綜合信息應用平臺和業務系統為主要數據來源,實現不同警種業務數據的標準整合;公安外部數據通過部門間共享服務平臺獲取的社會單位數據為主要數據來源,包含互聯網數據和其他多媒體數據的獲取,實現外部單位各類數據的標準化整合。

2)采集模塊

建設統一的數據采集模塊,實現基于標準表單、文本數據及相關視頻、圖像、語音等多媒體數據的批量導入、逐條錄入和維護管理等系統功能,并進行自動分類,導入采集資源庫。

在采集入庫的過程中,按照背景信息、動態信息、關系信息、特征信息的要素進行分類,建立規范化的數據描述方法和清洗轉換規則,實現社會數據資源的規范化建庫。主體建立包含背景信息庫、動態信息庫、關系信息庫、特征信息庫等數據采集資源庫。

2、數據預處理

通過數據預處理工作,可以使殘缺的數據完整,并將錯誤的數據糾正,多余的數據去除,進而將所需的數據挑選出來,并且進行數據集成。

實現對抽取的數據資源進行加工的能力,例如空值校驗轉化、字符串操作、字符串替換、新增字段、添加JSON字段、表碼映射等。

基于特征要素模型,實現對文本內容的全文解析,并能夠將文本中涉及到對象特征,諸如:身份證、手機號碼、電子郵箱、QQ號碼、車牌等特征要素轉化為結構化數據進行存儲。

3、數據存儲

l 對象建庫

對于所各類紛繁復雜的公安數據資源,主要形成基礎數據庫、全文檢索庫、對象主題庫、碰撞分析庫、關聯分析庫來進行存儲管理。

l 結構化存儲

對于所采集匯聚的數據資源,主要以結構化數據維護且總量有限,采用Oracle關系型數據庫來進行存儲管理。

l 非結構化存儲

HDFS(分布式文件系統)是Hadoop架構的支撐性平臺,作為HBase\HIVE等大數據庫的分布式運行系統,為其提供存儲擴展能力、容錯能力、吞吐能力等。HDFS本身也適合存儲單個文件體積較大的內容,如視頻文件、音頻文件、歷史數據歸檔打包文件等等。

在本項目的基礎庫設計中,對于非結構化數據,主要是以文本、視頻、圖片為主,擬采用HDFS作為外部采集文本、視頻、圖像的存儲容器,并利用HBase為各個文件實體構建索引及相關描述信息,為資源的進一步檢索及調用奠定基礎。

在對數據的關聯整合過程中的關鍵詞標簽數據和索引信息,其存儲管理模式可根據具體數據量情況選擇確定。

4、數據管理

1)數據標準管理

主要是依據上級部門提供的標準(具體標準的內容有:數據元、限定詞、數據項),創建本地的數據標準規范,具體內容包括有:數據元管理、同義詞管理、限定詞管理、標準數據項管理。

2)數據資源管理

數據資源管理用于數據資源的統一管理,以實現數據資產的有效管理,提升數據資產管理及運營能力,輔助建立數據資源資產化管理機制、數據資源運行維護管理機制、數據質量提升機制。

數據資源管理系統主要包括數據資源注冊、數據資源編目、數據質量管理和數據運行監控。

3)數據質量管理

數據質量管理提供數據質量問題發現、數據質量問題監測及跟蹤、數據質量分析、問題數據應用等功能,幫助用戶了解數據質量情況,發現數據質量問題,持續監測數據質量,分析數據質量趨勢和對比情況,跟蹤問題數據修復情況,從而輔助用戶建立數據質量提升機制。

不同來源的數據在基礎數據資源庫進行清洗、整合,通過數據資源注冊功能,實現各類數據源及數據資源統一注冊管理,提供豐富的元數據信息。

5、數據分析

1)大數據計算

基礎數據集群中存放的往往是低價值密度的數據,經過多種大數據計算方法加工處理后,可提取出高價值密度的數據,適用于對海量數據進行數據挖掘、建模,以支撐精準營銷、決策分析、信息安全等應用場景。

主要應用的大數據計算方法包含在線處理集群(Spark)、離線處理集群(MapReduce)、流式處理集群(Storm)、圖計算集群(Neo4j)、全文檢索集群(SolrCloud)、自然語言處理(NLP)等。

2)數據挖掘

數據分析挖掘是從大量的、有噪聲的、不完全的、模糊和隨機的數據中,提取出隱含的、不可預知的、具有潛在利用價值的信息和知識的過程。數據挖掘是整個知識發現流程中的一個具體步驟,也是知識發現過程中最重要的核心步驟。主要數據挖掘方法包含:分類分析、回歸分析、聚類分析、關聯分析等。

(二)數據服務層

實現對本地應用的統一接入,減少應用系統對底層數據庫的直接訪問,提高數據安全性,解決部門以及協作區域間信息服務資源的簡便對等開放、共享標準規范、本地信息資源集中管理、面向應用服務的統一接入、高可用服務支撐能力、安全審計等一系列問題。

l 接口層建設

自主比對接口:通過數據源信息和比對條件,進行數據源比對,返回比對結果。

全文搜索接口:該接口實現省廳資源服務平臺云搜索模塊中的人員全文搜索功能,搜索條件支持關鍵字搜索,返回內容包括人員基本信息和匹配命中信息,其中人員基本信息包含姓名、身份證號、民族、戶籍地區劃等信息。

l 服務總線模塊

云服務總線系統,是基于數據整合和信息共享的集成中間件。它采用分布式的總線結構,支持像Hbase之類的云數據庫,還支持大數據查詢工具Impala,實現對構建在Hadoop之上的分布式數據庫,直接用REST方式來快速查詢出數據。

l 標準化平臺

建立公安實體標準庫,通過多種途徑獲取權威的數據元、限定詞、公安部部標國標代碼,結合系統代碼使用情況,建設一套符合公安的標準實體庫,用戶查詢和下載。

 

 

2:數據接入流程

(三)數據應用層

針對公安海量數據的全方位解析,結合公安部門的信息偵查、數據收集、智能分析、經偵調度、精準預測分析等實際工作需要,平臺提供一系列大數據智能應用,全方位滿足公安系統的工作需求。

1、目標人物畫像

目標人物畫像模塊主要通過大數據離線運算,整合所有公安系統數據對“人、案、物、組織、地址”等基本要素形成個性化標簽,進而形成目標人物長期畫像;同時通過大數據實時運算,形成目標人物的實時標簽和短期畫像。目標人物畫像需要支持自動學習擴展的體系,通過自學習體系對新的標簽進行收集,形成標簽庫,對標簽進行統一的管理。

3:目標人物畫像

2、知識圖譜

知識圖譜利用圖數據庫的天然優勢,直接將公安系統各項數據以“人、案、物、組織、地址”等為基本要素,對不同來源、不同類型的基礎數據,應用按要素提取關鍵字段,建立要素內的關聯關系,形成關聯庫,將諸姓名、身份證、手機、地址、家庭電話、聯系人、親屬關系、行為軌跡、涉案信息、違法犯罪信息等設計成圖譜的節點,定義好圖譜所需的所有節點和節點屬性后,定義兩兩節點間的關系。

根據業務需求進行知識圖譜構建,構建完成后,用戶可以直接在關聯圖譜平臺上,輸入某個節點值查詢節點的關聯信息,看其關聯范圍內的涉及到的人、財物、案件信息,看該節點是否與其他節點關聯成案件聯動,看節點與歷史的黑節點間是否有過關聯等等,有利

于案件的偵破及突發事件快速反應。

 

4:知識圖譜

3、智能云搜索

充分利用云計算技術,提供一站式智能搜索,智能解析搜索意圖,提高搜索精度。并以智能檢索模式展示給用戶,從而實現數據的可視化。

l 關鍵詞檢索:

提供使用簡單的檢索入口(符合用戶搜索習慣的查詢界面,類似谷歌或百度的界面操作),用戶輸入關鍵詞后進行跨庫全文檢索,可分庫統計結果數,并可點擊結果記錄查看詳情。

l 高級檢索:

支持通配符檢索、軌跡檢索、多類人員檢索、時間段檢索、年齡段檢索等多種專業檢索方式。

l 檢索資源自定義分類

檢索時可選擇數據資源的范圍,支持數據資源的多維度配置管理和選擇,便于過濾掉不相關的干擾結果。系統后臺可對數據表進行不同維度分類管理,用戶可根據需要建立按五要素分類、按資源庫分類、按業務分類等,在檢索頁面上用戶可以方便的選擇某一類/幾類,甚至其中的一個或多個數據表,檢索結果按照選擇的維度分類分數據源分表進行展示。

l 主題庫監控

利用全文高速比對引擎,根據不同的業務需求,將公安敏感信息數據建立比對主題庫。在用戶的查詢命中結果中,系統自動與被監控主題庫進行自動比對,將比中信息進行標注。

5:智能人員搜索

6:智能分類搜索

4、比對碰撞

針對公安的海量數據實現自定義碰撞,最大限度的發掘信息資源的關聯應用效益,為掌握對象活動軌跡信息、優化情報分析工作和偵察破案工作提供有效支撐,從而進一步提升公安數據的應用水平。能夠更好地面向實戰、服務基層,提高基層民警在實戰中的信息化應用意識、應用技能和應用水平,從而進一步提高公安機關的整體素質和戰斗力。

自主比對系統通過界面拖拽的方式,實現了數據的任意碰撞。用戶可以非常容易的進行自定義規則進行碰撞,支持兩兩數據源的碰撞,還支持多數據源的碰撞。自主比對系統不僅支持單點的碰撞比對,還支持分布式的碰撞比對。譬如:省廳里的某些數據在本地數據源里面沒有碰撞出來,可以分布到各個地市的數據源里進行碰撞,然后將碰撞的結果分別返回并進行合、匯總,然后統一展示。

 

 

7:關系碰撞

5、關系人應用

整個系統公安業務基礎數據以及各類人員活動軌跡為依托進行各類關系的計算和關系服務提供,提升公安民警的工作效率。

該系統主要功能為提供用戶的基礎關系查詢:用戶輸入查詢條件后,在關系顯示區顯示出該搜索條件的關系圈,并且可以在此關系圈的基礎上進行關系挖掘操作功能;用戶可以上傳一批身份證,對這一批身份證進行批量的關系碰撞功能;用戶可以根據已查詢的關系信息進行不同關系分類的二次關系挖掘;用戶可以根據已查詢出來的關系

鏈接進行關系軌跡跟蹤,進行下一步的關系確認。

 

8:關系人搜索

6、軌跡分析

對個人軌跡信息進行可視化展示,并分析周圍出現人群的前科情況以及與目標人員之間存在的關系。

 

9:人員軌跡分析

 

作者:崔永慶,全拓數據董事長兼CEO。

 

(本文發表于由國家信息中心數字中國研究院編輯出版的《數字中國建設通訊》2019年第6期)

 

开个什么店好赚钱呢 门面不是太正 山西十一选五平台 2013棋牌评测网 牛360配资 江苏11选5走势图 北京11选5今天开奖结果 深圳风采35选7玩法 网络彩票怎么玩才会赢钱 今天股市大盘行情 福彩p62走势图 买排列三有什么技巧