數據的經(jīng)濟學(xué)分析:要素、產(chǎn)業(yè)和市場(chǎng)
文/江小涓
中國社會(huì )科學(xué)院大學(xué)教授、國務(wù)院原副秘書(shū)長(cháng)
去年以來(lái),數據是一個(gè)很熱的熱點(diǎn),從經(jīng)濟學(xué)的角度需要一個(gè)很好的分析框架,因為經(jīng)濟學(xué)中的生產(chǎn)要素分析是一個(gè)非常成熟的體系。我們現在把數據當成生產(chǎn)要素,這對經(jīng)濟學(xué)界的理論提出了很大的挑戰,我們來(lái)探討研究什么問(wèn)題,才能稱(chēng)之為學(xué)術(shù)研究。中國是首個(gè)把數據作為生產(chǎn)要素的國家,這在國際上是沒(méi)有先例的。作為一種生產(chǎn)要素,確權、交易、收益等概念需要納入分析框架中;作為一個(gè)產(chǎn)業(yè),產(chǎn)業(yè)組織、生產(chǎn)消費、價(jià)格形成等概念需要納入分析框架中;作為一個(gè)市場(chǎng),創(chuàng )新、競爭、公共品等概念需要納入分析框架中??紤]到數據的特點(diǎn),還需要在分析中擴展框架和增加維度。并且,研究方向要呼應經(jīng)濟學(xué)的宗旨:研究社會(huì )資源配置的總體效率并盡可能合理分配??傊畬W(xué)術(shù)研究應該致力于知識體系的構建和完善。當下關(guān)于數據要素市場(chǎng)的研究,比較集中在數據確權、定價(jià)、交易等領(lǐng)域,希望學(xué)術(shù)界整體在數據研究方面繼續加強學(xué)術(shù)含量高的研究,來(lái)促進(jìn)理論發(fā)展,服務(wù)實(shí)踐,促進(jìn)國際交流,這是過(guò)去一年多我在參與數據問(wèn)題時(shí)非常深切的體會(huì )。從經(jīng)濟學(xué)視角思考,數據研究涉及非常多的學(xué)術(shù)問(wèn)題:數據作為要素,配置效率怎么樣,比如確權、交易和收益的制度安排,最終希望配置的效率最高;數據作為產(chǎn)業(yè),需要研究具體經(jīng)濟主體的行為及其市場(chǎng)影響,例如消費者和生產(chǎn)者行為、均衡價(jià)格、創(chuàng )新行為等;數據作為市場(chǎng),要研究數據市場(chǎng)的規則、行為和結構,特別是AI出現以后的巨型企業(yè),對競爭規則、壟斷的判定,政府的規制該怎么做,是非常具有挑戰的問(wèn)題;數據作為半公共品,公共利益和市場(chǎng)效益如何權衡,政府供給和市場(chǎng)供給的組合怎么判斷。
接下來(lái)舉例來(lái)講,數據要素我以確權、流通和收益為例,數據產(chǎn)業(yè)我用創(chuàng )新范式的改變作為例子,數據市場(chǎng)我們用規模遞增下的競爭和壟斷作為例子,公共數據以免費開(kāi)發(fā)和收費開(kāi)發(fā)的平衡作例子。
關(guān)于數據要素
數據是一個(gè)生產(chǎn)要素,又是一個(gè)非常特別的要素,面臨的理論挑戰非常多。數據的獨特性質(zhì)主要體現在以下幾個(gè)方面:首先是多主體生產(chǎn)因而確權困難,數據的生成過(guò)程錯綜復雜,常常是多方主體相互協(xié)作的結果,包含了不同主體不同程度的投入和貢獻,因此確權困難。其次是多場(chǎng)景復用方便,一組數據可以被不同主體以不同方式重復利用,在使用上不具有競爭性和排他性,不易清晰明確主張權力。第三是數據中的敏感信息多,許多數據的內容多層次多元化,可能承載了需要保護的個(gè)人信息和商業(yè)機密,即使匿名化和去標識化,也有可能被挖掘出來(lái)。第四是減損貶值快,絕大部分數據的價(jià)值在于實(shí)時(shí)性,有研究表明一年期以上的數據貶值達到 98% 以上,保值增值十分困難。各位想想,你經(jīng)常點(diǎn)什么外賣(mài),搜索過(guò)什么類(lèi)型的服務(wù)、APP 就會(huì )推薦推送給你相關(guān)的內容,這都是從即時(shí)數據中挖掘到的,幾個(gè)月后可能你的口味發(fā)生了變化,按照現在數據推送就沒(méi)有意義。第五是具有交易和交互兩類(lèi)流通方式,特別是交互型流動(dòng)即數據在不同主體間的非交易型流通使用,與其他生產(chǎn)要素流通使用的形態(tài)相比有顯著(zhù)不同。這個(gè)是我們后面要分析的重點(diǎn)問(wèn)題??紤]到上述問(wèn)題,在“數據二十條”的起草制定中,針對數據要素這些與其他生產(chǎn)要素不同的特點(diǎn),文件的重點(diǎn)是構建起主要架構,即所謂的“四梁八柱”,許多更具體的內容都需要不斷探索發(fā)展,并從社會(huì )有較多共識、實(shí)踐有迫切需求、符合數據要素特征、與理論體系有較好契合性這些角度排出工作的重點(diǎn)。例如,在起步階段不回避“所有權”,但更強調持有權、使用權、經(jīng)營(yíng)權,讓數據先動(dòng)起來(lái)用起來(lái),就是現階段中國特色數據產(chǎn)權制度的一個(gè)鮮明特點(diǎn)。再如,處理好場(chǎng)內交易和場(chǎng)外交易的關(guān)系也是現實(shí)針對性很強的問(wèn)題。從實(shí)踐看,數據流通使用既有通過(guò)數據交易所完成的“場(chǎng)內交易”,也有企業(yè)與企業(yè)之間直接發(fā)生“場(chǎng)外交易”,更有規模巨大的非交易型的數據交互。因此“數據二十條”并未強調以哪種流通方式為主,而是提出場(chǎng)內交易與場(chǎng)外交易相結合,不斷探索創(chuàng )新。在公共數據開(kāi)放共享和開(kāi)發(fā)利用、構建安全貫穿數據治理全過(guò)程的安全治理模式等方面,也都從理論與實(shí)踐的結合出發(fā),既提出長(cháng)遠發(fā)展方向,也明確當下工作重點(diǎn)。
理解了數據要素的特點(diǎn),就能理解一年多來(lái)數據要素市場(chǎng)發(fā)展中的困難與問(wèn)題。數據要素交易所在“數據二十條”出臺前后特別是以后快速增長(cháng),但大體上是一個(gè)有市無(wú)價(jià),或者有市有價(jià)無(wú)交易的情況,這在其他要素市場(chǎng)上很難看到。各地數據交易所發(fā)展很快,到 2023 年 10 月已經(jīng)超過(guò) 48 家。每個(gè)交易所都有成千上萬(wàn)家的數據服務(wù)商,也有些入場(chǎng)準備參與確權交易的數據供應方。但一年多下來(lái)(有些起步早的交易所嘗試時(shí)間更長(cháng),有些已有十年之久)數據交易量非常少,整體上仍在嘗試性起步階段。其實(shí)許多數據持有者都明白,數據交易很不容易,那他們?yōu)槭裁捶e極“入場(chǎng)”呢?企業(yè)期待數據入表,將數據資產(chǎn)化,進(jìn)而能夠去做金融創(chuàng )新、融資擔?;蛸Y產(chǎn)證券化等。下圖是各個(gè)數據交易所表達自己平臺能夠做什么的邏輯:做數據資產(chǎn)登記、數據資產(chǎn)評估;然后發(fā)放數據資產(chǎn)憑證,進(jìn)而入表;入表后的主線(xiàn)是去做金融創(chuàng )新、融資貸款等,其次是進(jìn)行數據資產(chǎn)的交易。我和銀行開(kāi)玩笑,說(shuō)“數據要素市場(chǎng)建設發(fā)展的接力棒交到了金融領(lǐng)域,你們遲遲不接棒”。金融業(yè)不敢往下做的原因之一,就是認為數據資產(chǎn)定價(jià)、交易方式特別是易貶損特點(diǎn)帶來(lái)的挑戰和風(fēng)險都是新問(wèn)題,需要積極而謹慎,發(fā)展與安全并重。不過(guò),雖然我們將數據納入傳統生產(chǎn)要素分析框架中有困難,但這是一個(gè)新事物,需要留給創(chuàng )新足夠的時(shí)間和空間。而且我們不一定要將其“裝”進(jìn)我們熟悉的體系構建中間去,要允許探索。但從學(xué)術(shù)理論角度看,總要構建一個(gè)學(xué)術(shù)體系出來(lái),這是一個(gè)非常有創(chuàng )新意義也有挑戰的領(lǐng)域。
關(guān)于數據產(chǎn)業(yè)
數據產(chǎn)業(yè)鏈條中,各環(huán)節參與方的行為和以往不一樣,這個(gè)方面要研究的新問(wèn)題很多。因為最近我在做一項數字時(shí)代創(chuàng )新問(wèn)題研究,就拿它舉例?,F在數據創(chuàng )新范式按照國內外的很多學(xué)者來(lái)說(shuō),進(jìn)入了“數據密集型”的科研創(chuàng )新范式。我們能看到除了數字行業(yè)自身以外,生物醫學(xué)、高能物理、地球科學(xué)、海洋科學(xué)很多都是以信息科學(xué)為支撐的基礎研究領(lǐng)域,如果數據觀(guān)測處理能力不高,它們的進(jìn)展是非常困難的。生命科學(xué)中,蛋白質(zhì)怎么預測出來(lái),不是生命科學(xué)自身的原創(chuàng )性發(fā)現,而是數字技術(shù)應用帶來(lái)的結果,其中的原理早就知道,但就是算不出來(lái)?,F在,世界進(jìn)入數字時(shí)代,數字技術(shù)迅速發(fā)展和海量數據的產(chǎn)生不僅顯著(zhù)影響經(jīng)濟社會(huì )運行方式,而且推動(dòng)著(zhù)科研范式的深刻變革。這種變革不是原來(lái)創(chuàng )新范式內部因素和結構的調整,而是“數據”這個(gè)新要素和數據復雜交互形成的“數據關(guān)系”這些新變量加入所引發(fā)的創(chuàng )新要素、創(chuàng )新主體和創(chuàng )新組織的深刻變革。
我們現在講到數據和數據關(guān)系,不光是數據量多少,主要是數據關(guān)系影響了創(chuàng )新的重要維度。我們現在 AI 發(fā)展相對滯后有很多原因,能夠共享的信息的數量和質(zhì)量比較差,是影響下一步人工智能非常重要的因素。數據和算力決定誰(shuí)來(lái)創(chuàng )新,包括很重要的原始創(chuàng )新。大模型的訓練和調整需要極其巨大的數據、算力和算法的投入,Transformer 架構進(jìn)入主流以后,AI 算力每?jì)赡暝鲩L(cháng) 275 倍,在計算機本身有革命性的變革之前,只能靠擴量來(lái)增強算法的能力,所以目前只有大科技企業(yè)有雄厚的財力足以吸引大批頂尖的 AI 人才,從而以算力、算法和數據的最佳結合來(lái)推動(dòng)人工智能前沿的突破,這就是最領(lǐng)先的 AI 大模型的變化。
如下圖,2014 年是一個(gè)轉折點(diǎn),AI 系統不是高校研發(fā)后的產(chǎn)業(yè)轉化,而是從最基本的數學(xué)算法開(kāi)始,都由產(chǎn)業(yè)界來(lái)做,2023 年 32 個(gè)重要的機器學(xué)習模型都誕生在產(chǎn)業(yè)界。我們現在也經(jīng)常講國家創(chuàng )新體系,集中力量辦大事,這方面也要考慮到數字時(shí)代的這種產(chǎn)業(yè)創(chuàng )新范式變革。這種海量的算力、數據以及人才迅速決策的能力、技術(shù)迭代的速度,完全是另外一種創(chuàng )新的組織架構,其中的變化是非常重要的。
關(guān)于數據市場(chǎng)
看待數據市場(chǎng),需要研究市場(chǎng)的規則、行為和結構,特別是 AI 出現以后的“小規模企業(yè)+巨大市場(chǎng)”是非常具有挑戰的問(wèn)題,對規模遞增下的競爭和壟斷的分析也是我們的一個(gè)困惑。我們不能簡(jiǎn)單地認為市場(chǎng)從長(cháng)期看會(huì )解決這個(gè)問(wèn)題的,然后完全交給市場(chǎng)去處理。規模遞增并不是數據市場(chǎng)的獨有特點(diǎn),軟件業(yè)也有這個(gè)特點(diǎn),但開(kāi)源模式限制了規模遞增導致的大者愈大,因此壟斷問(wèn)題沒(méi)有走向極端。雖然領(lǐng)先者有規模遞增的能力,但是開(kāi)源之后,更多的開(kāi)發(fā)者和應用市場(chǎng)出現,目前沒(méi)有導致規模遞增一定會(huì )致使大者越大、強者越強的局面出現。
對于大模型,我們能期待這個(gè)趨勢出現嗎?仍是未知。如果理論不能有預測性的話(huà),就沒(méi)有價(jià)值?,F在我們的知識能夠想到 OpenAI 在 AI 時(shí)代,其產(chǎn)業(yè)組織、競爭壟斷的格局最后會(huì )不會(huì )避免走向極端?也是未知。所以這個(gè)問(wèn)題對我們是一個(gè)很大的新挑戰。
關(guān)于公共數據
公共數據的性質(zhì)有很多討論,有觀(guān)點(diǎn)認為數據本身具有公共品性質(zhì),公共數據又是政府掌握的數據,應該對社會(huì )開(kāi)放。公共數據對公眾開(kāi)放是國際共識。開(kāi)放數據的定義是“公眾可獲取的、能夠被用戶(hù)完整觀(guān)測和使用的數據”。2009 年,美國的奧巴馬政府頒布了《開(kāi)放政府指令》(US Open Government Directive);2018 年 12 月 24 日,美國國會(huì )通過(guò)《開(kāi)放政府數據法案》,要求聯(lián)邦機構必須以“機器可讀”格式,即以方便公眾在智能手機或電腦上閱讀的數據格式,發(fā)布任何不涉及公眾隱私或國家安全的“非敏感”信息。例如,紐約市的政府及分支機構所擁有的數據必須對公眾實(shí)施開(kāi)放,市民們使用這些信息不需要經(jīng)過(guò)任何注冊、審批的繁瑣程序,使用數據也不受限制。2011 年,巴西、印尼、墨西哥、挪威、南非、菲律賓、英國和美國簽署了《開(kāi)放數據聲明》,公共數據開(kāi)放也是 2011 年成立的“開(kāi)放政府合作伙伴”。迄今為止,全球已經(jīng)有 75 個(gè)國家加入這一計劃。國內政府數據開(kāi)放發(fā)展至今,發(fā)展和應用最好的主要還是地理位置信息的開(kāi)放、公共設施的數據開(kāi)放(圖書(shū)館、教育機構、公共wifi等)、涉及健康安全的數據開(kāi)放(比如河流洪水水位、交通擁堵?tīng)顩r、空氣指數等)、市場(chǎng)監管數據開(kāi)放(企業(yè)信息查詢(xún)、行政處罰查詢(xún)等)。這些信息現已可以通過(guò)多種途徑獲得。政府數據開(kāi)放意義重大,但多年下來(lái)動(dòng)力不夠是普遍問(wèn)題。作為數據提供者的政府機構并不能從中直接得到經(jīng)濟回報,相反承擔著(zhù)泄露商業(yè)秘密和個(gè)人隱私的巨大風(fēng)險,即便對數據采取“脫敏”處理也無(wú)法完全消除隱患。從道理上看,允許對數據開(kāi)放并有一些收費也有合理性,例如有些原始數據不能直接開(kāi)放共享,要做成數據產(chǎn)品;再如有些公共數據并不被廣大公民和市場(chǎng)主體所需要,是某些企業(yè)的運營(yíng)需要。公共品是為廣大公民和市場(chǎng)主體服務(wù)的,對少數人服務(wù)“用者付費”這是公共品的基本原則。今后,要尋求免費開(kāi)放(開(kāi)放共享)與收費開(kāi)放(開(kāi)發(fā)利用)的平衡?!皵祿畻l”里的提法是:“推動(dòng)用于公共治理、公益事業(yè)的公共數據有條件無(wú)償使用,探索用于產(chǎn)業(yè)發(fā)展、行業(yè)發(fā)展的公共數據有條件有償使用”。目前看,對公共數據有償開(kāi)發(fā)開(kāi)了一個(gè)口子以后,政府和相關(guān)公共企事業(yè)單位動(dòng)力更強勁,行動(dòng)更迅速。各地政府紛紛成立國有數據運營(yíng)公司開(kāi)展政府數據的授權運營(yíng),還可以搞二級合作商,獲取合理的收入,這是一個(gè)非常普遍的趨勢。政府大規模出售公共數據,公共品性質(zhì)的數據轉化為商業(yè)化數據,需要學(xué)術(shù)理論給予分析和解釋?zhuān)辽賹财防碚摰陌l(fā)展提出了要求??偟膩?lái)講,中國是一個(gè)數據生產(chǎn)大國和使用大國,我們是首先提出數據要素概念的國家,其中的實(shí)踐探索多元而豐富,期待學(xué)術(shù)界同仁共同努力,構建符合學(xué)術(shù)理論規范、包含數據實(shí)踐主要問(wèn)題、體現中國數據發(fā)展特色的學(xué)術(shù)體系。