一、AGI从狂欢到反思:
2023年之后,关于AI的叙事在网络上呈现出一种奇特的二元结构。
一边是AGI狂欢。每一款新模型发布,都会引发一轮”人类职业消亡倒计时”的刷屏。OpenAI的发布会,已经有了苹果当年春晚级别的仪式感,围观者屏息等待那几个benchmark数字——仿佛只要曲线向右上角弯折,AGI奇点就在明天。
另一边,是一些值得关注的反思。Andrej Karpathy最近在播客里说,他现在用AI生成的文章做初步筛选——不是为了获取信息,而是为了找到那些”没被AI写过”的东西。Gary Marcus多次公开讨论”AI生成内容的质量均值在向平均水平收敛”。
这种现象终于有了一个名字:AI Slop。
Slop,原本是”烂泥、废料”的意思。现在它指代的是那些由AI批量生产、格式工整、语气流畅、但本质空洞的内容。
二、AI Slop的解剖:给你最通俗易懂的傻豆包
在讨论AI Slop的本质之前,下面的这些你肯定听到了无数遍。
“不是X,而是Y”
“Prompt Engineering不是一门玄学,而是一种思维框架。” “AGI不是遥不可及的幻想,而是正在发生的现实。”
这种句式传递的信息量为零。它用一个被稻草人化的”错误观点”,来衬托一个什么都没说的”正确观点”。
奇怪的类比,类比跟没类比一样
“大模型就像是人类智慧的海绵,它吸收了互联网上所有的知识,然后在你需要的时候拧出来给你。” “Attention机制就像是你在图书馆找书时,视线会自然落在书脊上的标题,而不是逐字扫描每一行字。”
这些类比在技术上全是错的,但读起来”很有画面感”,点赞量很高。
制造紧迫感的数字,即使是乱编的
“ChatGPT用了5天时间获得了100万用户,Netflix用了3.5年——这意味着什么?”
意味着什么?文章不知道,它只是把这个数字甩给你,然后转向下一个段落。
“给你最通俗易懂的解释” ---- 豆包
“别被那些复杂的概念吓到,让我来给你最简单的解释……” “我用大白话告诉你,什么是Transformer架构……”
然后给你一个比原始定义更难理解的类比。
三段式万能结构:是什么→为什么→怎么做。无论任何话题,套进去都能输出500字。
每段结尾的过渡句:
“那么,这对我们意味着什么呢?让我们继续往下看。”
没有任何一个人类会在自己的文章里写这句话。
三、为什么LLM写着写着就变成了网文的形状
这是我想重点讨论的部分,也是真正有意思的地方,LLM不会给你带来任何惊喜。
LLM的训练目标,在本质上是对人类语料的拟合。什么样的内容在互联网上最常见,LLM最倾向于输出这些。
LLM生成文本是一个自回归过程,每一个token的生成都以前文为条件。一旦前几段确定了”科普文章”的语境框架,后续的每个token都会被这个框架拉着走。就像一个人在KTV点了一首歌,旋律响起之后,他的嘴会不由自主地开始跟唱——不是因为他想唱,而是因为这个模式被激活了。
网文有一种极其强烈的形式引力:开门见山、小标题分段、每段一个观点、结尾升华。这种结构在互联网上的密度极高,所以在LLM的”相空间”里,它是一个极深的势阱。生成了几句话之后,模型几乎不可避免地滑落进去。
所以AI Slop不是”AI写作能力不够好”的问题,问题的本质是”AI在优化一个错误的目标”。 它被训练成生成人类”觉得好”的内容,而不是”实际上好”的内容。这两者之间,存在一道我们目前还没有能力完全弥合的鸿沟。
四、经济学:成本趋零时,市场会发生什么
让我们从微观机制跳到宏观结构。
在经济学里,当一种资源可以被免费使用,每个个体的理性选择会导致集体的灾难性后果。
当边际成本趋近于零,供给曲线会发生什么?
传统内容生产是有门槛的:你需要时间、经验、专业知识。一篇有价值的技术文章,可能需要一个从业十年的工程师花三天写成。这个成本构成了一道天然的质量门槛——不值得写的东西,没人会花时间写。
LLM把这个成本压到了接近于零。现在,任何人都可以在十分钟内产出一篇五千字的”深度分析”。
结果是可预测的:有能力生产高质量内容的人,其供给几乎没有增加;但有动机生产低质量内容的人,其供给出现了爆炸式增长。
AI/计算机领域是这场灾难的震中,我非常头疼。这个领域曾经有一些门槛的——你需要真正懂技术才能写出有价值的东西。这道门槛筛掉了大量只想蹭流量的人,毕竟写不出来。
然后AI热起来了,变成了流量密码,变成了流量密码。LLM的出现导致门槛消失了。
各路人马闻着味就来了,搞营销的,搞运营的,搞自媒体的,疯狂开始写”10个让你工作效率提升10倍的AI工具”。新闻媒体开始产出”ChatGPT将在三年内取代所有程序员”。每天打开抖音,知乎,公众号,自媒体开始复述卡帕西播客里的每一句话,无限轰炸,但去掉了所有的细节和论证,只留下结论。
真正的从业者在哪里? 他们还在。但环境烂了,写真实文章不如搞流量的,这让我非常头疼,因为当我搜索一个技术问题,前10名都一些搞SKILL来赚流量的大V的稿子,毫无新意,我需要的是一个真实的技术踩坑,不是天天看你的xxx skill。
这就是淹没机制的运作方式:不是消灭好内容,而是用数量把它淹没。
五、我们已经在路上,没有回头的路
我需要诚实地说:这不是一篇会给出解决方案的文章。
因为我认为,就目前的技术和社会结构而言,这个问题没有系统性的解决方案。
搜索已经基本失效了。
LLM生成的内容有一个现在还没有被解决的优势:它对SEO友好。 它会自然地把关键词分布在合适的位置,它会有清晰的标题结构,它会有合适的字数。搜索引擎的排名算法,在相当长的时间里,都会继续把这类内容排在前面。
我没有结论。
我只是想记录一个感受:当我们在互联网上搜索一个具体问题的真实经验时,这件事正在变得越来越难。不是因为信息变少了,而是因为信息变多了,而其中真实的信号,正在被稀释。
这不是技术问题。这是一个人类社会的古老问题,只是现在有了一个新的形状。
当一个东西变得廉价,它就会被滥用。当它被滥用,它就会贬值。
内容,正在经历这个过程。