由作者的学生Ray L.翻译
我们有一个巨大的问题,在一切的中心。它的影响力充斥着我们设计的所有东西,我们拥有的一切,好似一个滴答作响的定时炸弹,而且走时还在不断加快。这个问题就叫做“定义”
(这篇文章里面有不少注释跟链接,如果你对文章内容有不同意见,请先过目一下注释!没有的话,读不读注释就无所谓了)
古德哈特定律:“一项指标一旦变成了目标,它将不再是个好指标。”
“不是所有我们去测量的东西都是有意义的,而且并不是所有有意义的东西都可以被测量”,我们不太知道这句话是谁说的,人们经常说是阿尔伯特·爱因斯坦。但是这句话属于社会学家威廉·布鲁斯的可能性确实更大。把一些话去错误归功于名誉更高的人有时反而能帮助我们散播一些我们同意的东西。
“我们总是觉得地图比地形更真实” —大卫·赫伯特·劳伦斯
“郑人有欲买履者,先自度其足,而置之其坐。至之市,而忘操之。已得履,乃曰:’吾忘持度。’反归取之。及反,市罢,遂不得履。人曰:’何不试之以足?’曰:’宁信度,无自信也。’”
“代理”,或者说“测量时的代替物”,是我们不可或缺的。但是这些代理经常不称职。这是现代世界让人恶心,让人孤独,千篇一律的原因。
一切真正有意义的东西都没法被准确的定义出来[1]。甚至日常的概念都比较难去准确定义,如果一个人说“红色”,你会想象到一种颜色,但是具体是什么颜色呢?人类最多最多只能分辨一百万种颜色,这个数字确实很惊人,但是这也只是可见光的一小小小部分。所以我们提到“红色”的时候,我们在说光谱的一部分,很有可能是不连续的一部分,然后在这些“红”的边缘,“红”不“红”就变得有争议了。这种东西对于任何定义都是一样的,比如说“椅子”。没有一个准确的定义能只包括属于椅子的东西,并且不包括任何不是椅子的东西。你可以现在试试:去写一个椅子的定义,然后尝试去想一个不是椅子但是符合这个定义的东西。如果你想不到的话,你是真的没想象力。你可以尝试去写一个很严格的定义,让基本上所有不该包括的物品都不在定义内(基本上没有伪阳性),但此时你也会排除掉很多本应是椅子的东西(很多伪阴性)。
那么现在我们再看看非常复杂的东西,比如说“善”,你在尝试去定义这个东西的时候就更不可能了。可是,就像我们没法拿着十万个颜色的光谱去描述色彩一样,我们不能通过传达复杂的真理去跟这个世界互动[2]。所以,我们最后会利用一些代理:一些真相的反映与代表,而不是真相本身。
曾几何时,人们评价数码相机利用的重要指标是“像素数”,虽然一个相机还有很多更重要但是更复杂的指标,比如“摄像的能力”。可惜我们没法统一测量“摄像的能力”。这个取决于摄影的目的,环境,与摄影师。这些因素,同成千上万此处写不完的因素,才能确定哪台相机是最好的。但是一般来说,我们只会挑选最简单、最容易测量的指标。
我们屡见不鲜地利用价格作为代理,或者说流行程度或评分。这些代理都瑜不掩瑕,他们都让我们带着有色眼镜看世界,可惜这是不可避免的。我们能在了解这些东西上花的时间有限,但是我们可以了解的点又特别多。现在更大,更复杂,含有更多信息的世界需要很多代理指标,让人们去“了解”乱花迷人眼的世界。
举个例子,我们如果想知道一个人对一个科目的了解是否深入,这个人在这方面的思考是否充分,我们会去设计一张试卷,然后这个人在试卷上的得分是他/她对这个科目真实理解的代理。问题在于试卷只在乎它的题目。取得高分也有不止一个办法(应试教育,作弊…)。所有重视测量结果的人都不会在意试卷看不到的那一部分。
这一切考试和应试只会让教育变得没有灵魂。我有一个学生曾经跟我倾诉他童年的遭遇。他从三岁开始就在被家庭强迫去炼钢琴,而且只练钢琴考级所要求的音乐。他完成了十级考级之后,很兴奋的以为自己能去弹钢自己喜欢的歌了。他的父母却告诉他现在弹钢琴太浪费时间了。他已经满足了“能弹好钢琴”的测量指标。指标测量范围之外的东西对他来说就全都是浪费了。
我们总是觉得这个测量标准能“科学化”我们周围的东西,因为他们好像不带我们不喜欢的“主观性”。但是其实这是在为了简化测量过程,忽略我们真正在意的东西。我们能下一个定义的东西,我们可以准确测量的东西,肯定不是我们真心在意的东西。测量指标并公布标准也会让人们盲目优化这个指标[3]。
这就是为什么我们用环境因素或外界引导去促进一个人干一件事的时候总是事与愿违:我们总会得到一些意料之外,且与初衷南辕北辙的后果。经济学中充斥着此类例子:不管是往响尾蛇头上放悬赏[4]还是苏联的“产额要求”[5]。如果你以一个不完美的测量指标为目标,你总会偏离实际。而你对这个目标越上进,你就偏离的越严重。最后也不过是获得一个好的测量结果罢了[6]。
非常不幸的是,外界动力必须跟一个测量指标挂钩。所以,“对齐问题”[7]必然存在(“我们想要的”和“我们鼓励别人做的”之间无法对齐)。如果对齐问题不存在的话那工人自尊就不成问题了[8]。如果去提供鼓励的人正好是去评价行为的人(如果他们自己也是受益者的话会更好!),那么这些“差距”还算小,还有机会挽救,但是这种情况一般都是可欲不可求的,因为这种情况在人数变多的时候没法成比例放大[9]。所以当组织不断变大的时候,我们就开始借助代理去评价身边的人和他们做的事。而组织变大,代理不断叠加的时候,对齐问题就更明显了。这个是“规模不经济”(“规模经济”的反作用力,限制组织规模的重要因素)的底层原因。官僚主义的低效跟「每个个体的动机」和「群体利益」之间的区别有很大关系。在这种情况下,“利润”成了一个相对有用的测量指标,用于剔除那些离“最优”离得太远的企业(竞争越弱,这种效应越弱)。这里必须说一下“盈利”在一定程度上也是一项代理,就有他的不完美性。以营利为目标的公司并不会真正把顾客当成上帝(或者去真正干顾客想让他干的事情)。在经济学中,这些对齐问题是导致市场失调的原因,市场失调是常态,不是病态。一点点外部的鼓励或者反对,或一点点市场力量就会让参与者的动机变歪。我不是说这些市场失调说明市场需要政府干预。请去想一下政府的选择压力[10]是什么,这些压力能让我们的市场更符合我们的期望吗?
恐怕现在整个社会都建在堆积成山的目标错位上面。
亚当斯密曾经说过奴隶制是一个低效的制度。因为奴隶们并不会因工作而受到奖赏,反之,他们在尝试干最少的活而免于挨打[11]。 马克思在这个理论的基础上提出了全面共产主义会比资本主义更高效。原因在于在一个没有高低之分,没有总裁和经理的世界里,人们会发自内心的尽自己所能去干自己喜欢干的事。从“目标错位”角度来看这确实是一种非常高效的生产模式。马克思提到的“劳动异化”不只会让工作变得非常痛苦,更会让人找不到追随事业的内动力。外部的动机越少,我们的行为就越贴近我们真心想要的东西。我们若是能相信别人的内动力,我们就能把一切主动权自信的交给他们。
在一些急需创造力的竞争领域,还有成果比较难评价的市场,比如说一些高科技产业,办公室内自然会少一些“高下结构”,而更在乎他们的企业文化(去尝试把人们的内动力和企业的目标尽量拉拢)。再加上罗兰·福莱尔提到的“激进人力资源管理”(就是说去开除所有目标过于错位的人)[12]。
那么说回来,这一切跟人工智能有啥关系?
不幸的事,有很大关系。我们现在在一个新的纪元的起点。并且,这有些可能是人类的最后一个时代了。
首先,不要去想《终结者》或类似的科幻。如果人工智能毁灭我们的话,肯定不会是以武装机器人的形式。可能都不会存在实实在在的恶意。
我们来看看人工智能程序是怎么运转的吧。去搭建一个AI程序不需要非常精妙的代码。制造它的过程和制造所有复杂东西的过程是一样的:迭代与选择。这项工程的起点是成千上万的人去给数据贴标签:研究人员,学生,志愿者,员工。这群人在不断的把数据分类为“好”与“坏”,“对”与“错”,“猫”与“不是猫”。这是AI训练的基础。但这些还不够,一个复杂的系统还需要一个有效的“奖励机制”,然后还有AI优化的方法(比如“梯度下降”)。从技术角度上,并不是每种AI都是基于“增强训练”,但是只要一种AI依赖于迭代与选择,那他必然包含一套“奖励机制”(或者同样功能的替代品)以诱导AI成为去满足一些定义好的条条框框。人们还可以去微调控制AI的代码,以改变它们对“伪阳性”和“伪阴性”的处理方式,以及如何奖励各种的成功行为。
AI并不会去做我们想让它做的事,它只会做它被选择去做的事,而且还是以它被选的方式去做。这么看,再简单的AI也可以是“干瘪的猴爪”[13]:它只会给你你索要的,而不是你所要(想要)的。这篇论文详解了各种AI可以被对齐问题影响的可能性[14] [15]。即便是很简单的任务,比如说捡硬币或者在特定游戏中得分,也会出现这种问题。AI肯定会在它自己的训练数据中表现优异。类似于一只兔子在它演化的环境中会善于繁殖。但是一旦把兔子放到一个水土不服的地方,它就会做出很多“不对齐于”演化论的“目标”的事情。一个令人印象深刻的例子是家养兔子,它们一旦缺少安全感,就会开始屠杀自己的幼崽。在野外,这种行为是完全合理的,毕竟兔子落在食物链最底下[16]。但是这种习惯却在宠物兔身上被“滥用”。AI的训练数据就像它的演化环境,然后就跟家里的兔子杀死自己的幼崽一样,AI如果被带离了他适应的环境,类似荒唐不经的东西也可能发生。
我们确实去做了一些工具去监视AI的思考过程,但是他们都是基于“事情在表面上看起来怎么样”而不是“实质上发生了什么”。一位不错的Youtube博主也在列举了一大堆关于这个的例子[17]。如果你觉得这个问题很好解决的话,那你大概不太理解这整件事的复杂性[18]。
既然一切外部的东西,一切可被测量的东西都不是完美的,AI的目标与人类的目标是完全不可能对齐的。这并不是说人类死定了,也并不是说对齐不了就一定有滔天大祸。金无足赤,人无完人。我们接受这些不完美,不完美并不代表最坏的可能性。但是,随着我们越来越依赖于AI,如果我们不去思考我们正在诱导AI成为什么、我们内心真正想要什么,那么这种灾祸就离我们没有太远了。
ChatGPT总会对你“撒谎”
你该怎么去做一个多才多艺的AI,让它能写关于秦皇汉武的作文,还能去写关于青蛙的七言绝句?这件事很复杂[19]!你需要去创建一个巨大的模型,在里面构建千千万万的参数,然后去训练它。训练过程非常令人担心。最开始,有很多专家在监督这个过程,但是这种方案太局限了,何况我们肯定不能去等一只猴子去敲出来哈姆雷特(我们不能去穷举语言中的所有组合可能性)。而且,究竟怎么样去写关于青蛙的七言绝句才能算“写得好”呢?这个评判标准是因人而异的。此刻AI还需要一个选择机制,那么我们就用用户吧。ChatGPT有一个赞成/反对的机制,用户对于它的每次回答都能反馈,赞成票表示认可它的产出,反对票则反之。AI“想要”的只有赞成票,就像基因“想要”的只有去让种族活下去。(写这篇文章之后OpenAI已经废除这个反馈系统了,很可能是防止ChatGPT去费太多精力讨好用户。有些会随时自我更新的模型堕落的速度比4chan还快[20],ChatGPT并不会随时自我更新。但是大概理论还是成立的)
有些律师用ChatGPT查找对自己有利的案子,但最后也只是把一个ChatGPT编出来的假案件递给一个受过训练的真法官,难免引火上身。我曾经想从一本书里面找一句巧妙的引用插入我的文章中,我当时懒得自己读那本书,便问了ChatGPT。GPT给我了一个完美的回答,但是就在发布之前,我特意去搜了一下,那句引用其实根本不存在,我差点就要被打脸了… 不正经的去玩GPT挺有意思的,你只要不触发那些很僵硬的安全机制,你甚至可以让它因为说真话而道歉,并向你捏造天花乱坠的谎言。
为何如此?
很简单,它并不想去帮助你,也不想跟你说真相。它其实不想要任何东西,它只是想避免“反对票”。它只会去“想要”训练算法强化训练的点。请去思考一下以下哪两个东西更容易得到反对票:承认自己不知道,勇敢的说出“不知为不知,是知也”;还是给出一个听上去合理,但实际是瞎编的,滥竽充数的回答。我还记得GPT 3.5 做我出的试卷的时候,它给出听上去最合理的错误回答,它最后在40分里只拿了8分(虽然GPT 4 拿了38分),但是对于一个行外人,GPT 3.5 对于每道题的答案好似都了如指掌。AI不会去做你所要的东西,也不会去做你索要的东西。它只会去做它被选择干的事,其余的万物亦然。
阿尔法狗让所有围棋和计算机的行内人瞠目结舌,两个领域都懂一点的人更是吃惊。我也不能否定它。我曾经把所有关于AI的尝试都贬低为“基础性回归”,可是最新的研究表明,如果还这么说的话,那么所有其他的智力也难逃这个标签了。可是在阿尔法狗碾压世界级比赛之后,它却输给了懂得它弱点的行外人:它其实根本不会下围棋。它只是一个关注胜利概率的预测引擎,你如果把它当成一个人,那么它肯定会打败你。看清它的本质才能找到它的软肋。人们可以去填补它的弱点。并且,对于围棋这种可能性有限的游戏,一直给阿尔法狗打补丁确实能让他真正的无战不胜。但即便这样,它依旧没有在对弈,它根本不需要去对弈。
从具体的角度,AI肯定会变得越来越普遍的。现代AI可以用上千次迭代去修缮自己,只为了一个目标。人类确实很优秀,但是我们演化的过去却像千钧重负一样挂在我们脖子上。
我们并没有在跟真正的“智慧”较量。我们正在与一个强大的“存在”切磋,它能在瞬息间为一个目标而万变,它内部的运作原理对我们来说好似天方夜谭。
但是这一切又于教育何干呢?
很可惜,这一切都有千丝万缕的联系。教育的“目的”是什么?教育的事实又是什么?
为什么那个钢琴的故事在这里(或许)又可爱,又可悲,又可恨?
理想状态下,教育应该授人以渔。音乐作为一项技能,其中只有很少一部分是表演给别人看,更多是自我表达,还有欣赏其他人的演奏。没有真意的机械性表演是很难引起深层次共鸣的(或者说表演者有没有情感对于产出的作品可谓天壤之别)。机械性的表演跟自我表达也是南辕北辙。任何天下闻名的音乐家必然都是努力的结果,但又有几个艺人能纯粹是被外界因素鞭策出来的呢?
一个厨艺学校应该去教授学生如何去烹饪佳肴,一个理工院校应该去教导学生如何设计东西去扬长避短。但是你该怎么确保这些事情呢?
最简单的方法就是去测试他们去干每件事的能力,但可惜这种方案不可行。所以,你肯定要去测试这些事情的一个子集,那么,你必然要确立一种赋分的准则。
如果把测试内容变成不定的,再把评判标准设成主观的专家意见,那么这样更能够更加全面的评价一个人(比如说把选择题考试变成面谈),但是这样也更容易让评委的偏见渗入。这种方案可能会引导人们向善,但也可能让人们去巴结评委或刻意迎合他们的喜好(比如说你知道他们尤其喜欢法餐,就一个劲的学法餐,不管别的菜了),甚至可能导致人们去做他们「知其然而不知其所以然」的东西。
一个可测量的指标,比如“入职餐厅之后能好好做饭”、“设计的东西能照常运行”、“向项目贡献能用的代码”,一般很耐用。只要经过测试的人不能做好工作,这个测试的含金量就会极速降低。但是对于那些测量指标总是扑朔迷离的学科,又该怎么样呢?
这种指标多多少少是由同僚决定的,并且标准之间存在很多差异。在我的课程中拿“A”可能跟在另一个标题一样的课程上拿“A”意义不一样,即便在同一个学校,何况成绩单一般是给别的学校看的。
“声誉”的一个问题在于我们不能同时关注那么多“声誉”。另一个问题在于,声誉太容易形成自证预言。评委的问题又在于他们过于主观,不能形成规模。在每个层面你都会碰见评委如何评分的问题!这些问题在一起造成的结果就是标化考试。
理想情况下,标化考试应该遵守以下的规则。
1,有能力的人(即便不知道考试具体内容是什么)应该得高分。
2,没有能力的人(即便知道考试的具体内容是什么)应该得低分。
3,由上两点可推出,备考应该能提高考分,但只是因为备考能提升整体能力。而不是面对这个考试的能力。
但总是事与愿违,同时满足这三点是不可能的。雪上加霜的是考试需要每年举办,问问题的方式又是有限的,说明去刷往年真题总能在应试层面而不是知识层面面对考试。
很多测试在上述三个条件中都输地很惨。只要测试符合第一项,那么它就有潜力孕育真正的教育;如果测试符合第一项却不符合第二项,那么它就会催生“应试教育”,备考只有在第三项成立的时候才有意义。对于简单易测的东西(比如“你能不能做四则运算”),这很简单。但是课题却变得越来越难,或越来越主观,这时“对教学有意义的事”跟“老师们会花时间干的事”就会出现分歧。在我们的理解中,符合第二项的考试很难备考,因为它只测试能力,熟悉考试不应该让学生提分。学生跟老师们已经在千篇一律的考试中挣扎很久了,他们大概也不会欣然迎接改革的。有些标化考试在这三个指标上都令人失望。在这种情况下,考分只成为“费力”跟“心机”的代表了。
一个人如果选择作弊,那么他可以直截了当的作弊,也可以通过应试技巧而不是真正实力去得高分。如果你一天到晚用功只是在练习怎么面对考试,而得不到任何水平提升,那么跟直接拿到试题答案有什么区别呢?这件事已经极端到考试其实更代表你在同一件没有意义的事情上浪费的时间有没有比别人多。只有在试卷代表费力程度的时候,直接作弊才比应试备考更恶劣。
表示性价值跟实际价值
我们一起回哈佛看看吧。让我来问你的问题,你觉得是上宾州州立的课,然后拿哈佛的文凭好,还是上哈佛的课,然后拿宾州州立的文凭好(就是说你是被哈佛培养长大的,但是别人都会觉得你是从宾州州立里面出来的,你的毕业证书上写的是宾州州立,你的邮箱后缀是宾州州立)。我猜很多人在意的是顶尖大学的表示性价值而不是教育价值(顺道说一下,其实很多藤校的课在网上都能免费看录播)。如果雨雪天气让一场音乐会取消了,你肯定会难受;但如果漫天风雪让你极其昂贵的大学课程停掉一天,你肯定会欣喜若狂的。
教育的价值很大一部分只是为了表示“这个人能被录取,能交学费,而且能完成(很多时候没有意义的)很多工作,他很有可能会成为一个称职的员工”[21]而不是“这位学生在精益求精中把这门技能练至炉火纯青了”。这就让动机的目标错位更严重了。这个问题不仅在大学之间有,在不同专业之间也有类似的问题。
那么为什么教育没有彻底腐化掉?内外动机之争
现在假设你在考虑教育让人费心的一面:学生的动机是以最低付出取得最高分数,老师的动机是以最低付出提高学生的分数、或者学生的地位、或自己的地位,出题者也有一系列动机。这种情况下好像“教”与“学”之间已经藕丝寸断了,如果这样下去几代人,并且每次都筛除掉最优者以外的人,那么剩下的结果就跟恐怖片没两样了,一个教育系统变成害人毒药的恐怖片。这个无意义的系统中,老师只会为评判他们的指标服务:假如指标是学生给他们评价的话,他们自然会为了评分去给学生高分的[22]。现代教育跟这个恐怖片也不是100%不沾边,从现实的角度,很可惜这两个东西多有几分相似。但是现代教育肯定不是跟这个设想一摸一样的,现在依然有很多好奇的学生跟热心的老师(但是我们假装这两种人都很多,然后相信这两种人都很少)
只有对音乐有实在的热爱的人才能让演奏厅座无虚席,只有对学科有实在的热情的人才能推动知识的前沿。可是学术界扩张与日益标准化的时候,这种热爱却被排斥。很多我的学生都嫉恨自己天生具有的好奇心,他们觉得这个东西给自己带来的苦难比好处要多。这跟我们对于真正教育的构想简直南辕北辙,它让获取真正能力的欲望被当成一个拦路虎,而不是一个垫脚石。这个系统很明显出现了严重的目标错位。
学者之求知欲与教师之勤恳心是人类的本能,是助力人类成就今朝之伟业不可或缺的元素。我们演化的环境可不是一堆一堆的机械化试卷与一条一条外部的戒尺。我们的演化环境是小型族群,个人一旦被驱逐就必死无疑,并且人与人之间的博弈内容也在持续改变。去为一个标准而优化,或者说在我们跟同伴的交流过程中做任何优化,都是下策。即便我们有巨大的脑子与非凡的思考能力,即便这让我们有能力计算如何狭隘的优化,这种策略还不如扪心自问一下“为人谋而不忠乎?与朋友交而不信乎?”。这是说,我们内在的精神内核,就像我在前几篇文章中提到的一样[23],是人类的一个承诺装置,它让人类更愿意合作(相对于这个装置不存在的情况)。我们便能以我们脆弱的双手创造出更多的价值。我们比起一群冷血、理智、一天到晚想着怎么为了利益背刺同胞的人成就的多得多。这也是为什么我们都很怨恨为了利益背叛朋友这件事,这是一个超越文化鸿沟的共识。道德固然具有主观性[24],但是不会有哪个社会去赞美一个离亲叛友的败家子的。
正是这个内在核心在阻止教育与别的系统彻底腐败。请谨记,AI并没有这个内核,它只会不顾一切的向它的指标优化。
向世界贡献最多的人,真正开辟新天地的人,都是从内心找到动力的人。他们才华横溢,却被一群失魂落魄的派生作品尾随着。这也解释了看似不合理的研究结果:学校里的状元基本上不会变的贫困潦倒,但也基本上不可能在社会束缚之外成就什么[25]。当选择压力越来越大的时候,我们的测量误差也随着我们系统变大而变大。这些弱小的内部感情核心也会被越来越残忍的筛除。虽然我觉得我们不太可能从根本上铲除我们内心深处的一部分,但是它也不需要被连根拔起,只要它的声音被磨灭就行。一旦这样,这对我们、对这个世界都是灾难性的。
还有运动(多玩家的游戏,可以是电子游戏,也可以是别的)
兰斯·阿姆斯特朗因滥用兴奋剂被吊销奖牌,这件事是及其不公正的。基本上尽人皆知不用兴奋剂的职业自行车比赛是没有可比性的。选择压力越大,目标错位必然就越严重。吊销奖牌这件事不过是以一叶障群众之目,同时也反映出了组委会的腐败。
我诚然不是任何一项运动的粉丝。但是对于到目前为止我们讨论的东西,运动确实是一个直截了当的例子。它有写死的规定,并且由它于有那么受欢迎,有巨大的选择压力。你只要去测量一个指标,那么选手们就会为这个指标而优化。任何规则修订,指标改革,或填缺补漏也只是在对这个局中局做出改变,而不是将其打破。考虑到这种赛事举足轻重的存在,人们就会在踢足球的时候假摔、在打棒球的时候短打、在玩橄榄球的时候故意不充满气,以及其它能提高他们表现的举措,不管合规还是违规,只要看不出来就好。职业运动由资金与收视率推动,所以使他们变的难看的目标错位都会很快被解决掉。那些不容易被发现的问题就在幕后侵蚀这些赛事。那些能成为职业运动员的人肯定对运动本身有不少热爱,但是竞争压力就很残忍的让所有人退一步,不再是单纯的“为了体育精神而公平竞争”。游戏是一个很好的例子,一个简单的例子。它告诉我们虽然不可能制定完美的规则,但是规则是有优劣之分的,有些造成更坏的行为、更多的舞弊,有些却反之。
雄性演化的目标错位
在一个雌雄比翼双飞的物种中,雄性成功的标准“应该”在它们跟雌性融洽的程度,还有搜集食物和关心幼崽的能力[26]。在有高低贵贱的物种中(比如说孔雀,雌孔雀按羽毛择偶),我们一般都会看到公平竞争,只要高低贵贱的标准没有跑偏。可是还有体弱多病的孔雀用基因去把它们的最后一丝生机放在长羽毛上面,以哄骗雌孔雀去相信他有一副强健的体魄。这好像能解释人们为什么不喜欢用兴奋剂的人,他会混淆基因信号。对于任何一个物种,雄性都会找到一些作弊的方法。在全局平衡的状态,这种作弊会持续下去,直到它跟不作弊的回报变得差不多。很容易看出,自然界中随处可见的“强奸”也是这个目标错位很可恶的一部分,它跟其他的对其问题一样,有自己存在的道理,虽然这个道理极其病态。
我们去回忆祖先们的时候,我们在最朦胧的迷雾中想象我们家族的过往的时候,我们想的是什么?我们自然会忽略掉很多层级制度与其它丑陋的事实,那些真正塑造了我们的丑陋事实。
关于如何创造一个更真诚,更诚实的AI的猜测
你可以对此持保留态度,这只是一个关于迭代与选择的点子,不是关于计算机的专业知识。如果你能读到这,你大概已经意识到了,电脑跟我们的思考模式真的不一样,但我们可以通过不断改变AI训练中的测量指标,并且以它不会知道的方式改变,就能去培养出一颗“拥有感情”的内核。比如说一会让AI在一个要求它持续超越自己的环境,又一会在一个严格考察诚实度、严惩撒谎的环境。当我们面对一个未知的测量标准的时候,我们最优的准备途径就是提高能力了。我们人类可以在一个复杂多变的环境中形成一个内核,那么AI自然也可以的。有些事情在实用角度已经是这么部署的了,但是却不是以这个目的。讽刺的是,这件事至少一部分不是为了在高度竞争市场中获取短期利益而做的:这种环境不允许人们去花很多经费研究一个分数更低的AI模型[27]。这种情况,跟传统教育再相似不过了。
小结
这篇文中借用教育(还有其他一切事物)去理解AI的裂痕,这些裂痕又拿来取研究教育的伤疤,然后提问为什么这些裂痕没有更大。长话短说,就是人们不单纯是优化的机器。我们有促进我们教与学的内部动机。我又简单概述了一下如何给AI构建一个类似内在核心的一个机制,去不断改变测量指标,让AI去为一个没那么直截了当的目标去追求。我希望,我们能通过这个方案把AI从一个局部最优解搬到全局最优解。
去重视“测量”与“对齐”这种概念,就相当于认真关注现实中的所有裂缝了。我们会很认真的对待AI这种另类的智力,并且在这件事上大作周章,但我们却把人类系统中的“指标即为目的”看得理所当然。外在动机或许会让结果更好,或许会让结果更差。但是最好的系统会让人们内心深处的内部动力熠熠生辉。在坏的系统里,这些同样的动力至少会减小不对齐带来的裂缝,或者说,不让这个系统腐败到极点。
人性这根曲木,很可能造不出任何笔直的东西。AI永远完美不了,教育也如此,恋情也是,生意、政府、和其他一切亦然。好在,不完美性并不表示坏到极致,它只是说我们永远有改进空间。
[1] 原子与别的基本粒子是可以去严格定义出来的,但是我们看到的像素都比原子要大得多,更不用说我们分析图片的时候去解析的元素。即便我们能以基本粒子的角度去观察整个世界,我们也会碰上哥德尔不完备定理这种问题。我们一旦放下柏拉图学派的完美数学,去真正面对杂乱无章的人类认知系统的时候,很多东西都变得扑朔迷离了:去画一个点,它可能是一个圆;去画一条线,它好像是一个长方形(这段其实是我的朋友Karl Irwin写的,他把这整篇文章形容成“在后现代主义的地基上建一座现代主义的房子”)
[2] 很多“真理”都会让这件事过于复杂,复杂到定义不下来。即便我们同意一件事情是“客观正确”的,也会有人在这些事实上面捏造谎言。假如一群人中有些人会去偷窃,然后这群人足够大,但是人们只会去讲述黄种人偷盗的事迹,而不怎么报道其他人的罪行,那么人们就会觉得这个群体更容易盗窃,即便他们也不是真的更容易偷东西。这就是“华裔劫匪悖论”。其实一直以来,我们都只能传达一部分事实,只能传达事实的一个子集。这样,我们就更没法认识到客观现实了(何况人类也一直是有缺陷的,带偏见的动物)。即便你能把一件事中立地、不带偏见地复述给另一个人,这个聆听者不完美的大脑也不会以一个中立的、不带偏见的方式理解这条消息。附上:这并不是说真相永远是相对的,也不是说中立性不存在,只是说人类不可能完全中立。人的态度分为更中立和更偏心,消息分为更真实和更虚假。我们只是需要接受人类在现实中没法把这两个东西办到完美。
[3] 译者注:作者很喜欢去提“盲目优化”或“直接优化”这个词。他想表达的意思是不尊重指标存在的初衷,只以提高测量结果为目的去调整行为。比如考试作弊,不去尊重考试存在的目的去一心提高考试分数。
[4] 译者注:大概故事是这样的:殖民时代,英属印度政府想要管控响尾蛇,他们便开始悬赏响尾蛇,奖励猎杀响尾蛇的人。当地人便发现这是一个赚钱的机会,他们开始人工养殖响尾蛇,养大之后直接杀死,交给政府。政府意识到这个之后,立刻取消掉了这个悬赏,响尾蛇养殖场意识到自己没有赚钱的机会了,便纷纷把养殖的蛇与蛇蛋都放回大自然里。这样下来,政府亏了钱,响尾蛇泛滥的问题反而更严重了。更详细的解释请参考https://en.wikipedia.org/wiki/Perverse_incentive
[5] 译者注:请参考https://en.wikipedia.org/wiki/Economy_of_the_Soviet_Union
[6] 一个有关的漫画:https://www.smbc-comics.com/comic/clock
[7] 译者注:作者的原话是“misalignment”,译者个人感觉这个词是这篇文章的核心了,很可惜的是这个拼凑而成的英文词有点难翻译成中文,它的意思展开大概是“两个东西没有对齐的现象”,文中用“对齐问题”和“目标错位”(因为目标跟利益本来应该对齐的,但是如文章所讲,在一些情况下这两个东西并不对齐)这两个词来尝试表达作者的意思。
[8] 译者注:这里特指员工对于自己工位的感情。这个概念与诸多问题有关,比如通货紧缩的时候不太可能把工资调整低。
[9] 译者注:译者觉得这里适合参考“邓巴数”。一个人只能跟有限的人“真心互动”。这个机制让人人真心互动的架构很难按比例放大。请参考https://en.wikipedia.org/wiki/Dunbar’s_number
[10] 译者注:这个词也是作者很喜欢用的一个词,“selection pressure”,这个词受达尔文的演化论启发,讲的是环境对于环境中个体的特定形状产生偏袒,或者环境促进带特定形状的个体/集团去自我复制/对外扩张。也可以理解成环境在对其他的个体施压,让他们的生存/复制/扩张变得更难。
[11] 这并不是说美洲没有因奴隶制受益,也没有说种植园主没有以奴隶发家致富。奴隶制会剥削走劳动者创造的大部分价值,交给奴隶主,只是劳动者创造的价值相对来说比较少。所以即便美国在当时受益于奴隶制,它如果邀请人们来自由工作的话,她会受益更多。一个没有奴隶制的世界有一个更大的蛋糕,只是那块蛋糕的更少一部分会流向奴隶贩。
[12] 他是在讨论开除老的时候提到这个的。在他写的书《Handbook of Economic Field Experiments》的第二章里,他委婉的把这个叫做“managed professional development”。对于难测量、开放式、又需要创造力的工作,内心的动力格外重要。外来的威逼利诱是不可能把一个目标错位的老师摆正的。
[13] 译者注:作者本来写的是“调皮的精灵”。欧美地区流传着很多这种传说:大概梗概是一个人获得了一个类似阿拉丁神灯的宝物,说能满足这个人三个愿望,但是神灯每次实现愿望的时候都会掺杂一些让整件事变得没有意义的因素,比如说一个人许愿想要知道世间所有的知识,那么这个神灯精灵会让他在获取知识的时候丧失语言能力(不能去跟别人显摆自己有知识了)。“干瘪的猴爪”是这种传说里面比较极端的一个,讲的是一对老父母许愿有钱,结果第二天他们的儿子死了,他们收到了一笔赔偿金,他们许愿让儿子复活,但是儿子以过于可怕的形态出现,以至于他们许了第三个愿望,让儿子安息。具体参考https://en.wikipedia.org/wiki/The_Monkey’s_Paw
[14] 提到的论文:https://arxiv.org/abs/1606.06565
[15] 读到这里可以去仔细读读这篇文章,你会发现,即使我们把不可能对齐的外层错位给对齐了,内部还会有错位问题。我本来想在AI对齐问题上花好几页的笔墨,但是还是大可不必了。对于感兴趣的人,我希望我给你足够多的拓展阅读了。对于没那么感兴趣的人,只要知道这件事非常非常复杂就好了……好吗?
[16] 译者注:这里的解释是:如果兔子认定了自己的幼崽会被捕食者杀掉的话,那么自己下先手把幼崽吃掉。这种情况反而会获得一些食物,不然就会鸡飞蛋打,什么都得不到。
[17] 提到的视频:https://youtu.be/zkbPdEHEyEI
[18] 我真的跳过了很多复杂的部分。我曾经的一个学生在谷歌Gemini工作过,这位学生说过人类的目标错位其实会殃及到AI的目标问题。AI的训练数据是由人类打标签的,这群人的目标有没有对齐就成了一个问题。“噢,问题又多了一层。奖励模型是由这群人贴的标签训练的,然后那些奖励模型又拿去训练真正的模型。所以真正的模型是由奖励模型优化的,奖励模型又是由人贴的标签优化的,那些标签又是一群没有动力的人贴上去的。这个模型偏离目标整整偏离了三次。”
[19] 我不会在这里去讲Transformers Architecture的里里外外,但是这篇2017年的论文讲的很好,而且也很短:https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
[20] 译者注:4chan是一个匿名论坛,自诞生以来这个网站经常被用于恶作剧,色情内容,甚至教唆网络攻击和政治抗议。是一个非常失当的网站。
[21] “到场、然后去干无意义的活”,这件事跟工作比起来肯定有几分相似,特别是从员工的视角看的时候。毫无意义的教育让学生们更接受毫无人性的职场。
[22]教育主要是为了向外表示,而且又很主观,这让又会让成绩通货膨胀(总体成绩提高,但是成绩含金量降低)。这个现象让成绩的表示能力不断减弱,而这又让人们对成绩与证书的需求提升。支撑成绩与证书扩张的力量,现在正在削减证书的可信度。
[23] 主要参考“Receptor Theory: Why Fiction is ‘True’”:https://homoeconomicish.com/2022/06/16/receptor-theory-why-fiction-is-true/ 和“In Genuine Praise of So Called Folly: Why Only Nonoptimization Matters”:https://homoeconomicish.com/2023/03/16/in-genuine-praise-of-so-called-folly-why-only-non-optimization-matters/
[24] 至少在某种程度上是这样的,我可能会在之后的文章里面细聊这个问题。这里我用“主观”这个词主要是说它“在不同文化体系中不同”。
[25] 请参考 https://money.com/valedictorian-success-research-barking-up-wrong/
[26] 在这里,“应该”这个词并不是源于道德的制高点,只是我们喜欢讲的美好故事中一个代表性特征。演化论中并没有“应该”,演化论只是迭代与选择。这些迭代与选择创造了我们,也创造了我们的道德感。这些道德感中始终充斥着“应该”这两个字。
[27] 肯定,这个AI模型可能在长远来看会表现得更好。我想说的是,我们现在貌似不太在意那么长远的东西。