当前位置:首页 > 杂文随笔 » 何谓数据

何谓数据

2022-06-22  分类: 杂文随笔  参与: 人  点这评论

大家都在说,数据是新的“石油”,数据就是财富,数据蕴含宝贵价值。但是,何谓数据?有我的数据和你的数据这样的东西吗?数据脱离环境的话还有没有价值?其实,对于很多系统来说,价值根本不在“数据”,而在于围绕它展开的活动流之中。文章来自编译。




别人告诉我们,说数据是新的石油。每一个国家都需要数据战略,我们所有人都应该拥有自己的数据,并为此应该获得报酬。但实际上,没有数据这种东西,数据不属于你,也没有任何价值。


技术充斥着故事,但其中叫得最响的,是围绕着一种叫做“数据”的东西展开的叙事。他们声称人工智能是未来,这一切都与数据有关,数据就是未来,我们应该拥有数据,也许应该为此付费,各国都需要数据战略与数据主权。数据是新的石油!


但这些说法多半是胡说八道。没有所谓的“数据”,数据一文不值,而且其实它也不属于你。


最明显的一点,“数据”不是一个东西,而是无数不同的信息集合,每一个都与特定的应用相关,是不可互换的。西门子有风力涡轮机遥测记录,伦敦交通局有刷卡记录,你不能用涡轮遥测记录去规划新的公交路线。就算你把这两组数据都给谷歌或腾讯,对他们开发一个更好的图像识别系统也没有帮助。


讲得这么直白似乎有点轻描淡写,但却指出了大家(尤其是科技圈以外的人)经常下的结论是不对的,比方说“中国拥有更多的数据”或“美国将拥有更多的数据”这样的说法——到底是什么样的数据?美团上面每天都要新增 5000 万份外卖订单,这些订单可以帮助它开发出更高效的路由算法,但这些算法没法用来开发导弹制导系统。甚至可能都没法用到伦敦开展外卖业务上面。 “数据”不是单一、统一的存在,没法将每一行和每一种表都添加到一个巨大的数据池里面,然后获得越来越多的洞察。建立“国家数据战略”就像要求制定“国家电子表格战略”或“国家 SQL 战略”一样。


当然,当大家说起“数据”时,他们主要指的是你的数据——你的个人信息,以及你在互联网上所做的事情,其中有些是由科技公司筛选、汇总以及部署的。我们希望掌控更多的个人隐私,同时我们还希望,无论这些数据放在什么地方,我们都应该拥有这些数据的所有权。


问题是, “你的”大部分数据的意义和价值并不在于你,而在于你与其他人的各种交集。你在 Instagram 上发布的内容意义不大,关键是看谁给你的帖子点赞,他们还喜欢什么,你又喜欢什么,还有谁喜欢它,谁关注了你,他们又关注了谁,还有谁关注了他们,等等——而且这是在十亿人之间的互动网络里面向外拓展的。如果我喜欢你的照片,那就不只是“我的”数据或者“你的”数据那么简单,如果缺乏其他的点赞和关注的上下文信息的话,这些数据就没有多大价值。你没法随身携带,因为那也包括有很多其他人的数据(和隐私!),就算你真的一起带过来了,可能也没法植入到 TikTok 里面,因为 TikTok 的网络不一样,用户也未必跟 Instagram 的有重合。


也就是说,对于很多这样的系统来说,其价值根本不在“数据”之中,而在于围绕它展开的活动流之中——真正的意义不在于你发布的图片或视频,而在于社交网络如何对它做出反应,以及产品如何生成和捕捉这种反应。你可以将 Instagram、 TikTok 或 PageRank (编者注:Google 的核心搜索算法)看作是大规模的土耳其机器人——由于能理解每一个网页、图片和视频的人工智能还没有出现,所以人类需要介入到到这个循环之中,在合适的地方点赞,链接,点击和观看(当然还有创作)。这些是系统,而不是数据,价值在于流动。


正因为这种种原因,蒂姆·奥莱利(Tim O'Reilly)才说“数据不是石油——而是沙子”——聚沙成塔,数据只有汇总到一起才有价值。事实上,就算放到很简单的现金流来看也是如此——2022 年第一季度,Meta日活用户每月贡献的自由现金流也才是99 美分。


这对适用“个人”数据也适用,你可以刻意把它说成是“你的”。你的用电量与其他人无关,但它本身并没有价值,只是伦敦南部或布鲁克林所有家庭用电量之中的一颗沙子。 DeepMind的研究人员或许能够从一百万张胸部 X 光片当中发现一些新,在临床上具有重要意义的相关性——但你的 X 光片本身并不能让人从中得到任何东西,而且他们没有将这些 X 光片输入给AlphaGo 。同样地,数据不是一个东西。


这一幕似曾相似:今天围绕人工智能和数据展开的讨论,看起来很像 1980 年代围绕着数据库展开的讨论。我们能够利用信息做的事情、能够提出的问题,以及组织运作的方式,这些都与以往不同了。当数据库初来乍到之时,我们担心过,其中的一些担忧确有其事,但时至今日,没人会对美国有更多的 SQL提出质疑,或者 SAP 是德国的是不是有关系。达沃斯上面没人会谈 “SQL 殖民主义”。这些技术不是国家战略资产——人人都可以拥有它们,但用来做什么呢?数据库的存在,让实时供应链得到支持、沃尔玛公司取得成功,也让 iPhone 在中国生产成为可能——这些都是战略问题。人工智能和“数据”也是如此——它并不是什么新的“石油”,只是更多的软件而已。那么,你打算用它来开发什么呢?


译者:boxi。


相关阅读:

2021广州二模作文范文:让数据不再冰冷

雅思写作:Task 1数据的表达方法

2021高考素材:“大数据时代的喜与忧”导写演练

为什么我们应该终结数据经济

2021高考素材:“大数据时代的喜与忧”导写演练

观雨遐想

年少不知爱

走出方寸天地与有趣的灵魂相遇

看这么多书却没有收获?因为你没有这样内化学到的知识

辗转难眠,心系广厦;浙江猛狮,剑指冠军!

版权申明:本文 何谓数据 版权归作者所有

转载请联系作者并保留出处和本文地址:https://www.bgee.cc/zawen/20220622/844122.html

下一篇:很抱歉没有了

  • 评论(4)

哔叽文学网
留言与评论(共有 0 条评论)
   
验证码: