中國工程院院士鄔賀銓在28日上午的大數據峯會開幕式上發佈了《大數據共享與開放及保護的挑戰》報告。以下是內容實錄:
 

 
  尊敬的陳部長,各位領導,各位專家,早上好,我的報告題目是大數據共享與開放保護的挑戰,談三方面問題,大數據的共享與開放、大數據流通與交易、大數據的利用與保護。
 
  先說說大數據的共享與開放。我們知道現在大數據本身有物理空間的數據,有信息空間的書局,還有智慧空間的數據,這是三元數據。作爲網絡層面的數據有自媒體數據、富媒體數據、基層網絡數據、日誌數據,麥肯錫曾經講過大數據的利用能給美國的保健、歐洲公共管理服務的提供者分別帶來3000美元、2500億歐元和6000億美元的年度價值,會給經銷商帶來60%的利潤增加,會給製造業帶來50%的成本降低。麥肯錫曾經統計過,受教育、運輸、消費產品、電力、遊戲、保健,如果政府開創數據,大約在保證國家安全和公民隱私的情況下開放數據,可以帶來年度的全球經濟價值32000億美元到54000億美元,所以大數據本身帶來的產業價值是很大的。
 
  首先說共享,國務院關於促進大數據發展的行動綱要裏提到推動政府信息系統和公共數據的互聯共享,消費信息孤島,避免重複建設和數據打架,增強政府的公信力,促進社會信用體系建設。大數據共享是談什麼共享呢?政府部門之間的數據共享、跨行政區域政府間的信息共享、政府與企業間的數據的合作和共享、企事業單位之間的數據共享,這是很多方面的,當然我們可以先看政府層面的。需要設立大數據協同管理機構促進政府部門間的數據共享,必須有很多政府間合作纔有很大得數據量,但是必須要健全地製造框架和制度體系,明確共享什麼,明確參與共享的責任和義務,要有互利,否則共享是很難持久的。現在一些城市設立大數據局來做這個工作,比如廣州大數據管理局,主要做協調政府內部的信息平臺的共享,怎麼打破部門之間的信息壁壘,共享各項民生數據。
 
  另外需要建立進一步的基礎數據庫,一方面是要集中存儲被共享的數據,同時進行清晰、校驗和整合,提供可以共享的目錄,以便用戶可以接入和收取這些數據。當然還要規定訪問的權限,跟你沒關的數據你不見得都需要去訪問。還要災備等等。
 
  這是政府基礎數據共享與交換平臺,首先包括人口數據、空間地理數據、宏觀地理數據、醫療數據、經濟數據,進行融合、重組、轉換、關聯、安全。提供服務可以提供部門之間綜合的服務,部門企業政府的數據共享。
 
  按照行動綱要的要求,明年中央就要構建形成統一的互聯網數據平臺,習總書記講要建立全國統一的數據集中的平臺,當然這是邏輯上的統一,是不是物理上都是統一,這可以研究。有一些跨神經區域的大數據共享合作的例子,這裏講的是連雲港有個區是跨山東和江蘇的,跨兩個省,它徹底打破了行政區劃的限制,整合了山東和江蘇相鄰的幾個地方的監控圖像數據,要做統計分析、軌跡展示、佈防布控,實現一鍵查詢、統一風控報警、快速判定行竊軌跡等等,目前通過這個平臺抓獲了國內違反犯罪人員500多名,破案400餘起,這僅僅是這一個區和周邊五個縣就已經取得這麼好的成效。這是跨部門的大數據共享,發展行動綱要提出要加快建立公民法人和其他組織的統一社會信用代碼制度,要有企業的信息公示系統。目前已經建成了網絡執行查獲系統,現在已經有13個國家部門、3000多家銀行能夠查詢11類14項,使得全國法院可以瞭解所有被執行人的情況,實現自動化的精準查詢。
 
  中央政府之間的共享,監察部對其他部門有監督作用,他可以共享其他部門的數據,不見得其他政府部門可以共享他的數據,中紀委的數據不太可能跟其他部門全部共享,部分的數據共享可能是不對稱的。中央政府跟地方政府間的數據共享也是不對稱的,中央政府可以看到所有地方政府的數據,但是不等於地方政府都能看到中央政府的數據。中央政府共享到什麼層次,是省級、市級還有縣級現在沒有界定。政府數據共享到什麼程度,是不是政府與政府部門之間所有工具都是透明的,至少公安部不會跟其他部門的數據透明。
 
  政府跟企業間的數據共享是不對稱的,政府提供給企業的數據本身就是可以公開的數據,除此之外政府也不能只給某個企業提供信息,而不給另一個企業提供信息。從國家安全出發,政府是有權調用企業數據,但除此之外企業是不是有義務一定要向政府提供數據,這是有疑問的。在政府調用企業數據的情況下怎麼保證企業的商業祕密不泄露,現在還沒有完成規範,企事業單位間的數據共享,這實際上是交易行爲。在國家大數據行動綱要提到,2018年要開展政府和社會合作開發大數據的試點,不是簡單說政府調用企業的數據,而是政府怎麼跟企業合作開發。在關於積極推進互聯網+行動計劃綱要,開展一批社會治理互聯網的應用試點,打通政府部門、企事業單位之間的信息壁壘,利用大數據分析手段提升政府的數據治理能力。政府爲了很多數據,很多BAT數據政府是不擁有的,如果政府能把BAT數據融合在一起,對於政府能夠掌控社會智慧城市、中國的治理都會有很大的作用。
 
  2013年在北愛爾蘭召開的會議提出了開放數據,發佈數據是爲了激勵創新。開放14個重點領域,這裏邊非常詳細。開放數據三項共同行動,激發國家的行動計劃,每年都要評估政府開放數據的情況如何。要求發佈的數據不是一般的數據,而是高價值的數據,包括預算、民主、環境,另外不僅僅是發佈加工過的數據,還要有源數據,往往我們認爲政府發佈的數據是加工過的,實際上只要不影響國家安全和公民隱私,很多原始數據政府應該開放。開放的數據是要完整的、重要的、及時的,很重要讀,不要對某些公民開放,對某些公民不開放,不能說一定要有授權才能接入,不能開一陣就關掉了。共享是政府部門之間、政府和單位之間,開放是對社會,所以在這點上對開放的要求是很嚴格的。
 
  美國政府有個開放網站,有些沒有開放,公民提出來要求開放的時候要分析,有些就立即開放,有些經過一段時間開放,因爲安全隱私原因沒法開放要向政府交代。而且開放數據要屏蔽掉隱私,比如他開放人口數據,是安全編碼分區域的人口數據,老齡化的有多少,上學兒童有多少,男的多少女的多少等等,可以看出這個地方的情況,還有用電量、犯罪記錄、中小學評估等等,可以判斷這個地方的學區房值不值得賣。還有小區的污染、噪聲等等。還要注意到美國政府的開放數據同時開放了數據挖掘的工具,幫助老百姓利用這些數據,在政府開放數據的平臺收集了老百姓通過挖掘這些數據得出的可視化的結果,所以非常有利於公民對社會的瞭解。美國開放數據可以開放到很多方面,有交通、空氣污染、環境、支付各種。
 
  這是英國的開放數據,他在網上,比如你的收入是2萬英鎊,你就點網上,把鼠標拉到2萬英鎊,得出你一年的稅收是8774英鎊,你的稅收用到哪裏,用到政府運行,每天的稅收,1.69用在國防,每個人都可以很清楚地看到你的納稅在政府裏的應用狀況,是陽光透明的。中間的大圖是英國總共收到的稅收,6948萬億英鎊,其中用在各個方面多少錢,就知道政府開支具體的狀況。中國政府開放得怎麼樣?根據不完全統計,中國政府數據開放平臺超過40多,其中沿海經濟發達地區佔總數的70%,西部中部還是比較少的,我們開放了教育、醫療、文體、環境,開放的數據存在什麼問題?開放的總量偏低、結構化程度低、數據質量不高、民衆參與反饋不準。我們還有很多方面做得不夠。
 
  以北京的政府開放數據爲例,去年北京政府主動公開政府信息超過100萬條,跟2015年差不多,其中主動公開的文件不到1萬件,主動公開的重點政府領域信息73萬條,細看一下北京公開的政府信息裏主要是關於食品安全標準和食品生產的佔了一半,關於企業信用系統佔40%,兩項加起來佔了90%,剩下的只有10%,10%有政府的三公預算、農民徵地、政府定價,實際上可以看到還是很不全面的,還有很多可以開放應該開放的數據沒有開放。公民關心食品安全,所以這方面的數據比較多。
 
  聯合國電子政務發展指數,有三項,信息基礎設施、人力資源、在線服務的情況,其中在線服務跟開放數據有關。我們看到兩年統計一次,2016年開放電子政務發展最好是英國,中國排第63位,還是比較靠後的。數據有個晴雨表,開放數據的準備程度、開放數據的執行力,開放了什麼類型,質量怎麼樣,開放數據的影響力、效果、透明性、對環境的影響、對國家經濟的影響。根據三方面來評價,2014年中國排在46位,第一位是英國100分,中國只有28分。2015年中國退後了,排在第55位,不是說中國2015年跟2014年比沒有前進,而是別的國家前進更多,相比之下中國得分排名反而下降。可以看到我們的影響力,特別是看到2015年的影響力只有8,我們也開放,但是我們開放的效果比較差,只有8,北京開放100萬條數據,從應用效果上來看反映還是不夠的。政府開放數據需要技術框架來支持,包括開放數據管理、開放數據技術、開放數據的門戶。今天我主要不是講技術,所以不細緻地解釋這部分了。
 
  社會上有免費開放數據的例子,有些公司現在在網上已經公開地表示大家只要上網去點,可以看到這些是免費的,誰都可以用,有些比較簡單,有些是身份證查詢、手機查詢、IP地址查詢,還有股票、基金等等,當然這些對老百姓可能有點用,但是基本上還是一種比較普通的開放數據。數據共享開放現在面臨三大挑戰,不願意共享開放,政府部門各自爲政,把數據開成自己的權利,很多政府部門以信息不對稱作爲手段,缺乏激勵機制,和技術部門共享數據還得向公衆開放數據,得不到商業回報,因此在多數情況下職能部門對於數據開放消極的被動。現在很多法律法規制度不夠具體,不清楚哪些數據可以跨部門共享和向公衆開放,數據信息的共享開放有一定的風險,搞不好把一些應該保密的數據開放了,搞不好泄露了公民隱私,目前制度是不明確的,導致了我們政府開放存在風險,責任很難界定。現在缺乏公共平臺,共享渠道不暢,過去信息的傳遞多數是部門之間通過電子郵件進行,安全性保密性可持續性很難保證,沒有統一的標準規範,不同職能部門對數據的採集記錄標準千差萬別,統計口徑和時間不一致,沒法用。數據開放需要脫敏,缺乏必要的技術和人才支撐,很難按照技術標準來規範。所以實際上我們數據開放面臨三大挑戰。
 
  第二,大數據的流通與交易。什麼叫數據交易?數據有提供方有使用方,很多時候需要通過數據中介方,政府開放的數據在脫敏以後的原始數據,我們有數據挖掘公司,開放了政府收集的數據,在加工以後把它出售,給數據使用方、行業戶,數據生產者、原始的要脫敏的數據給數據挖掘的中介方清洗以後提供給行業用戶,通過中介方整合挖掘合併清洗以後,提供給行業用戶。數據生產加工者,清洗後的數據通過數據交易所、數據交易所就是倒手,把他清洗加工後的數據轉售給行業用戶,或者數據生產者直接把原始脫敏的數據交給行業用戶。
 
  一般來講數據生產者是很少直接面向最終用戶的,大多通過中介渠道實現自身數據的變現,像美國的推特本身不直接銷售他的數據,把他的數據授權給好幾個公司,讓他們賣,目前美國的數據中介思想在2012年的最規模已經達到1500億美元,數據中介本身也是一個很大的產業。美國有好多數據中介公司,這些中介公司通過各種渠道收集和買數據,Clemic(音)從政府收購數據,他自己也有傳感器,也收集了一些數據。
 
  中國聯通有很多用戶數據,包括OSS的上網流量、BSS的用戶的詳單等等,這些數據不是中國聯通的,都是用戶的,中國聯通可以進行加工利用,通過脫敏,屏蔽掉個人隱私,當然這裏面要通過審覈,他可以接受很多公司的委託,有審覈他的需求,通過各種分析通過過濾最後可以提供服務,聯通是以諮詢的方式對外部的公司提供服務,他們已經上線了身份覈查、位置驗證行爲評估等等,已經服務於招行、螞蟻金服、住建部、交通部等等,這是數據收集者直接數據挖掘然後提供服務。
 
  目前在我們國家網上出售的數據有多少呢?有公司已經出售了一些數據。總的來說現在網上出售的所謂大數據都不夠大,不夠大也不能說一點沒有用,從大數據的角度還是有限的,這是公司本身的行爲。
 
  大數據交易關鍵對數據質量的要求,準確性,你一般會提供原始數據,我怎麼知道你的數據是真實的完整的,萬一你提供給我的是不全面的、不真實的假的,我買的數據挖掘結果你告訴我這是數據挖掘,誰知道你挖了多少數據,最後怎麼能判斷你是真假,這裏沒有第三方,所以這是個大問題。還有完整性,數據是不是缺漏,很多時候是數據過濾和脫敏以後的,如果說簡單只是爲了避免安全、隱私,但是最後你的數據還得有全面性,不能是片面的。還有一致性,同類數據的表述形式是否一致,出現多次的數據是不是差異,數據是不是符合標準,是不是合規,否則買來的數據也不好用。
 
  合法性,你賣給我的數據所有權是不是你的,我現在問一些國內的數據交易所數據是哪兒來的,他說政府的數據,我說政府數據不能賣錢,政府數據能公開就是免費,他說有些企業給我的數據,我說首先明確企業給你的數據是不是企業自身的,三大運營商有數據,但數據所有權不是三大運營商的。數據及時性,你給我的數據是2017的數據還是2016的數據,你是不是有實時性。可用性,你給我的數據我能不能容易理解,能不能用我的技術手段進行分析挖掘。安全性,你給我的數據是不是真正把國家安全和個人隱私的都屏蔽掉了,不然我用了以後變成我侵犯別人的商業機密和個人隱私了。我把數據存在你的中介那裏,你能不能保證這個存儲是安全的,不被污染的,數據不被竊取。
 
  現在在我們國家做數據交易,我覺得有很多問題,現在沒有保證它的質量。
 
  大數據交易權限。政府的數據如果能夠開放那就是免費,不能開放的數據無論多少錢也不能賣,所以政府的數據不存在提供給中介方交易的問題,當然中介方也許收集政府的數據,通過加工可能他有他的勞動,運營商收集的用戶數據原則上所有權是用戶,BAT收集的數據原則上所有權是用戶,但運營商和BAT擁有對數據脫敏對挖掘分析後的加工結構數據的所有權。沒有數據所有權,有數據的公司通過挖掘向政府和企業提供諮詢報告,是不是允許在保護隱私和國家安全的情況下提供,他沒有數據所有權,但是他有數據挖掘能力,他進行挖掘加工了,這個時候他是不是可以提供,沒有數據但是有數據挖掘能力的公司可以受委託完成數據挖掘。受委託挖掘以後,他能不能利用數據爲非委託方服務呢,應該是不允許,但是現在沒有明確規定。
 
  沒有數據也沒有挖掘能力的公司,可以作爲中介平臺,但是是不是可以允許他截留數據呢?中介方收集了政府開放的數據據爲己有並且出售是不是合法?很多政府公開的數據,有些網站標明價格出售,按道理這是政府的數據,儘管你去收集花點時間,但是畢竟還是公開的東西,你是不是能出售?在數據源的穩定性、更新頻率和數據擴散方面也要商量明確的界限。
 
  怎麼衡量數據的價值?精加工的數據可視化的數據怎麼定價,怎麼衡量數據挖掘的工作量,你做了多少工作,一次性買斷的數據和可以重複多次出售的數據怎麼定價,數據的價值跟時效性什麼關係,應該隨着時間掉價,是不是需要有對數據評估的第三方機構,現在都是兩者來談。國內的數據流通和交易存在什麼問題?我國數據源的活行不夠,數據中介機構處於起步階段。政府企業組織沒有充分認識到用外部數據可以對自身工作和業務起到巨大的提升作用,所以一般來講都很少利用外部數據。很多數據擁有者對數據裏蘊含的東西缺乏足夠的洞察,不放心讓自己的數據進入流通環節,擔心企業隱私機密泄露。剛纔是不願意吸收外部數據,這是不願意把自己數據拿出去流通,大部分數據資源的壟斷,關注自己的小生態圈,不願意把自己的數據資源向生態圈之外的市場提供,所以流通也不夠,交易也不夠,利用更不夠。
 
  這個月剛剛掛牌的大數據流通與交易技術的國家工程實驗室,是發改委批的,有上海數據交易所牽頭,聯合了浪潮、聯通、互聯網信息中心。
 
  大數據利用和保護。什麼數據要保護?和國家安全有關的數據要保護,和企業商業祕密有關的數據要保護,公民隱私的數據要保護。目前歐盟制定了嚴格的數據保護法案,中國雖然有宏觀上的數據保護的要求,但是沒有全面的數據保護法規。關於歐盟的數據保護,去年4月份歐洲議會通過了通用數據保護法案,也叫一般數據保護要求。這個法案要在明年5月25日生效,還有一年左右,這個數據保護法案裏沒有國家安全、企業祕密。涉及歐盟裏面的單位對多元數據的處理,這個處理不管在歐盟內部處理還是在歐盟外部處理都要受這個法規管。沒有在歐盟裏有分支機構,但是你向歐盟的消費者提供服務,不管你的服務是不是收錢也都受這個法規的約束,你對歐盟裏頭的消費者進行行爲監控,歐盟之外如果已經有的法律受歐盟成員國控制的也在這裏。所以要注意的是處理者不在歐盟裏邊不重要,但是歐盟裏頭的消費者都要受這個管理,中國的企業如果把微信支付寶用到了歐洲,那麼一樣你也要受這個管理。什麼叫多元數據?多元數據是跟個人隱私、專業、公共生活有關的任何信息,包括姓名、照片、電子郵件地址、IP地址等。
 
  針對個人的信息的收集、記錄、組織、建構、存儲、修改、諮詢、使用、傳播和其他的應用,包括排列組合,無論是人工處理還是自動化處理,你可以通過這些處理能夠針對自然然的工作表現、經濟狀況、健康狀況、個人偏好、興趣、這裏個人隱私的範圍是很寬的,包括個人的IP地址都是隱私。個人對自己數據有什麼權益?個人具有管理自己個人數據的權益,具有自己的數據被泄露能夠獲得及時通知的權利以及被遺忘權。對個人數據處理有什麼要求?合法公正透明,必須有規有法。目的是有限的,你可能爲某一個目的來收集處理,只要是爲公共利益或者歷史研究的目的、統計的目的,目標是有限的。數據是最小性,你獲得我的數據不能把我所有的數據都要,可能跟某個目的有關的數據被使用,但是不能把所有數據都拿走。及時性,你用完以後要毫不延遲的刪掉處理掉。存儲的有限性。只有爲了公共利益或歷史研究,個人數據才能長時間存儲,其他目的個人數據不能長時間存儲。完整性,要保證你收集的數據要有技術措施保證它不能受非法授權、非法處理、遺失丟失損毀。
 
  關於數據處理什麼算合法?並不是說個人數據不能處理,以下的規定可以處理。本人同意可以作爲一個或多個特定目的,我特意查了一下所謂本人同意是要書面同意,要寫下來同意。我有一個合同,要有個人數據,處理的數據主體在籤合同前的請求。處理是爲了執行法律,當然要徵求。處理是爲了保護我自己,爲了保護另一個自然人的切身利益,爲了保護利益。處理是爲了公共利益,處理是爲了追求合法的利益的必要,這是允許商業利用,利益的商業部門企業來處理個人數據,首先是爲了合法利益,當然不能侵犯提供個人信息的數據的消費者的利益,尤其是兒童。我們現在手機上的APP幾乎所有APP都收集個人信息,收集完了如果有合法利益的那是允許的,什麼界定你的合法利益,很多時候不見得是合法利益。有個社會調研,有人提出來你是否願意爲了你將來的應用資費上的優惠犧牲你的隱私,全國有27%的人表示可以犧牲隱私,中國有38%的人表示可以犧牲隱私,中國更多人認爲隱私不重要,反而優惠更重要。
 
  傳輸存儲和開發要有要求,所有的軟件包括移動應用的APP在開發階段和運行數據處理階段要保護個人數據的隱私,數據控制也含APP,要有充分的技術和措施確保數據和移動應用的完整性,必須應對數據處理面臨的風險,處理的時候是不是數據被丟失了,有很多要求。違規怎麼辦?一般性的違規,處理上限是罰款1千萬歐元。如果嚴重違規的罰款上限是2千萬歐元,上一年度的營業額的4%,BAT營業額都到幾百億的話,要罰起來不得了。雲計算跟這個法規什麼關係?管理者負主流責任,如果一個政府在雲裏存儲了數據,你就是管理者,很多人認爲我把數據存在雲平臺,管理者是雲平臺,歐盟提出來你存進去你應該對數據所有的保密、安全負責,所以雲平臺有雲平臺的責任,你存數據也有你的責任。法規不受限於公司國籍,不受限於雲服務的地理位置,如果在中國存了關於歐洲公民的個人數據,這個法規也適用,所以在中國的雲平臺裏不是說什麼數據都存進去有用。目前80%的雲服務不會在合同終止的時候立即刪除客戶的數據,58%的雲服務不能提供IT所有權的保證。對2萬多個雲服務的調查,只有6%的雲服務符合這個,如果現在雲服務涉及到歐盟的消費者,這裏面就危險了。
 
  對中國有什麼影響?法規提出非歐盟成員國公司只要滿足下邊兩個條件就受這個法規的影響。你向歐盟境內可識別的自然人提供商品和服務,收集和處理他們的信息,你做支付寶肯定收集了他的信息,你做微信肯定收集了他的信息。監控歐盟境內可識別自然人的行動收集他們的信息,你做地圖服務也收集了信息。在歐盟境內有分析機構的外國公司,分析機構被作爲責任主體強制執行法律要求。如果在歐盟境內沒有分支機構,一旦境外公司高管進入歐盟境內將直接執行,你小心,如果你犯規的話,你的高管進去他就罰你,把你抓起來。所以對中國企業的移動應用安全數據收集處理交易產生重大的影響。首當其衝的是銀行、電子商務、互聯網、IT企業、軟硬件生產商。歐盟這個法規既有保護他的意義,也有很多是限制。
 
  我們國家當然也有一些數據開發應用的文件,工信部出臺的大數據產業發展規劃,去年出臺的網絡安全法都提到對個人信息和重要數據在境內存儲,保護信息安全和個人隱私,我們的規範都很宏觀,不具體,真正違反了怎麼樣並沒有沒有。跟歐盟的比,我們準備得還是比較粗的。
 
  最後,數據的價值在於融合與挖掘,政府數據對公衆的最大利益在於共享與開放。數據流通與交易有利於促進數據的融合挖掘,數據的使用必須面對保護的責任與義務,尤其是對個人隱私數據的保護。歐盟提出的GDPR將數據保護的嚴重性提高到前所未有的程度,需要引起我們的高度重視。數據的共享開放、流通交易和數據保護以及數據安全,對數據技術提出的研究挑戰,區塊鏈技術在數據流通交易的保護方面能夠起到一定的作用,數據的共享開放流通交流使用保護對法律的制定與執行提出了很高要求,同時需要平衡數據的保護與數據的開發利用。

責任編輯:admin