原创 PUP China 普林斯顿读书汇
Editor's Note:
在这样一个大数据时代,人们很容易以为自己拥有做出正确决策所需的所有信息。但事实上,我们拥有的数据从来都不完整,甚至可能只是冰山一角。
正如宇宙的大部分是由暗物质组成的,我们虽然看不见它们,但并不意味着它们不存在。信息世界同样充满了这样的暗数据,我们如果忽视其存在,那么无论你多么聪明,无论你使用的统计模型和算法多么先进,你的结论都很可能是错误的,严重时甚至会使自身陷于险境。
暗数据——无处不在
什么是暗数据?暗数据就是你没有的数据。
这个“没有”,可能是你知道你没有,比如问卷表单上问题下方的空白;也可能是你不知道你没有,比如那些不满意的顾客选择沉默而非投诉。但是除了简单的二元分类之外,暗数据可以以多种方式出现,一些比较明显,一些比较微妙。
例如,虽然简单的摘要统计可以告诉你有关数据的一些信息,但这些统计忽略了其他方面。为一个目的而设计的定义可能会在另一种情况下产生极大的误导。是隐藏的数据,那些你没有,但是想获得的数据,会告诉你在不同情况下会发生什么。
总的来说,有十五种暗数据值得关注。
暗数据——至关重要
暗数据很重要,因为如果数据库、计算机、笔记本以及电子表格中实际可用的数据只是部分数据,隐藏了重要信息,那么你依据这些数据做出的分析可能会具有误导性。
有一种迷思是:数据缺失一点点没什么大问题。
尤其在“大数据”的世界里,这样的说法渐渐流传开来:大量的数据现在更容易积累起来,这将淡化错误或修正那些由缺失数据造成的偏差。
但这种想法是错误的,这些缺失的数据可能是理解正在发生的事情的关键。
继续为你贡献数据的是回头客,如果忽略了那些不再来光顾的消费者,那么要想为你的公司制定发展策略,就会被数据所误导。诊断疾病的算法,如果其数据中缺失了一种罕见但致命的疾病,那对患有此种疾病的人来说,无疑是个坏消息。
暗数据——危机四伏
暗数据对任何领域都构成潜在风险。
在商业领域,你将获得关于客户行为的数据,但商业扩张需要了解其他客户可能会有何种行为。
在新药的临床试验中,你需要知道为什么病人会停止用药——是因为治疗没有效果,还是因为治疗完全有效,病情已经治愈?
在天体物理学中,我们看不到天空中的所有星星,那么如果我们看不到的那些星星(也就是暗数据)与我们能看到的星星是截然不同的呢?
当人类参与到诸如经济和公共政策等领域时,情况就更加复杂了。人类会对他们所处的环境做出反应,甚至在你观察或评估他们的时候做出反应。这意味着你收集到的数据受到了“你在研究这个议题”这件事的影响。暗数据带来的潜在复杂性和误解是显而易见的。
暗数据的危险一直伴随着我们。人不可能无所不知,所以一定有我们不知道的事情。问题是,这些缺失的东西是否重要,以及“数据驱动社会”的仓促发展是否加剧了问题的严重性。
当然,大数据集的现成(和自动)获取,再加上现代统计学、机器学习和人工智能工具的强大威力,对于提高人类的能力充满前景,但这些进步也伴随着挑战。
计算机的能力很强,但这也意味着我们必须依赖这些机器。我们需要他们为我们提供统计摘要、图形图表和算法输出。这意味着计算机是我们和数据之间的必要中介。
当它作为显示这些数据的滤镜时,它也充当了我们和数据之间的一堵墙。它让数据分析有了一种不透明性,只有在我们可以透过这堵墙窥视的地方,才能有新的洞察。
PUP 内容速递:
Dark Data:
Why What You Don”t Know Matters
暗数据:为什么你不知道的事情很重要
点击“阅读原文”直达本书购买页
作者: David J. Hand
出版时间: 2020.1.3
ISBN: 9780691182377
精装,344页
全书内容亮点
Dark Data 探索了我们在许多方面都对缺失数据视而不见,以及这导致我们得出的错误、危险甚至灾难性的结论和行动。从挑战者号航天飞机爆炸到复杂的金融欺诈, Hand 通过研究大量现实生活中的例子,对存在的暗数据类型和可能出现的情况进行了实用的分类,以便我们能够学会识别和控制它们。在这样做的过程中,他不仅教导我们要警惕那些我们不知道的事情所带来的问题,而且还告诉我们如何利用暗数据为我们带来更多的理解和更好的决策。
今天,我们都是用数据来做决策的。Dark Data 向我们展示了如何降低制造坏数据的风险。
作者简介:
David J. Hand
David J. Hand, 英国帝国理工学院数学系荣誉教授、高级研究员。曾任皇家统计学会主席,英国科学院成员。著有 The Improbability Principle, Measurement: A Very Short Introduction, Statistics: A Very Short Introduction, 和 Principles of Data Mining.
名家推荐:
“当我们在个人和职业生活中做决定时,我们通常从某种形式的数据开始。“数据”这个词来源于拉丁语,意思是“给定的某物”,但谁给出的呢?从哪里来的?我应该相信表面吗?打开我们的眼睛,让我们认识到把“给予的东西”视为理所当然的陷阱,在“假新闻”和数据爆炸齐头并进的时代,这本有见地的书应该是每个人都必须阅读的。”
——Adrian Smith, director and chief executive of The Alan Turing Institute
“如果你做过数据驱动的决策,那么阅读本书吧,事不宜迟,你会有收获的。作者毫不费力地引导读者看清了许多暗数据的陷阱。”
————Arno Siebes, Universiteit Utrecht
- END -
原标题:《数据时代的另类决策指南》
阅读原文
新闻推荐
网站截图据外媒报道,一位99岁的英国退伍老兵汤姆·摩尔发起在月底自己100岁生日前推着助步车在后院行走100圈的挑战,以此呼...