AI= 黑天鹅产生器?

AI= 黑天鹅产生器?


前段时间Cloudflare全球挂了。

作为全球最佛,技术实力最雄厚的托管商。
(我的平台就是cloudflare托管的,没花钱)。

由于Cloudflare 用来判别机器人和爬虫的模块bot management 升级了AI组件~ AI疯狂判定新的bot(甚至把UA/IP/header signature也归类为bot) ~塞爆cloudflare工程师一万年不敢动的远古黑名单(这个名单应该上限大概1,200)的样子(经典的deny/allow list 设定)~紧接着全网都被判定为bot(比如说VXN节点,国际跳点/UA等)

这样一个远古list+远古诡异reget js代码,类似下面的经典JS语句:
export*from'./ancient_shitloadoflist_regex_blocklist.js'

接着模组开始将数以亿计的节点丢到这个list里面,自然流量~黑名单被误判~远古工程师留下的regex代码导致无限自循环~榨干CPU~导致 CPU爆炸
(早期cloudflare用regex判断爬虫,所以现在还在用)。

这种类似于请每一次都严肃认真逐字逐句地翻出/查找中华辞典中的某个词。每个网站都要跑一个reget,每天几万条几十万条请求丢越来越多的list最后就是把CPU炸穿天际。

这就是AI作为“熵值产生器/黑天鹅制造器”的神奇作用。

你只需要一个 junior dev( vibe coder)
+
AI module(一次随机生成一大段代码瞎几把import/export那种)
=
引爆整座屎山/代码超级黑洞/万年技术债。

然后这家公司又用自家的服务做托管,等于自己登入不了自家的网站。

然后这次炸的不是免费层所以我没事,但我的GPT出现类似unable to challenge之类的验证信息(浏览器端),所以这次屎山炸了,实际上是溅了大厂商一脸。

因为只有Enterprise大佬级别用户才有类似的list功能(防bot/防爬虫等),所以这次爆炸可以说是VIP only.

今年出了类似的几件事情了。

比如前段时间北美节点的AWS服务器,本质都是无法面对密集调用大模型所带来的巨大流量需求,在某些特定时间段(北美码农上班的时候),服务器会算力不足卡爆,
AI work load+ AI traffic + Request等於算力地狱直接打爆所有这个美丽蓝星上面的infra(基础设施)。

这反应了几层现代文明的脆弱性(fragility)

1. AI 大模型带来的巨大算力要求正在挑战物理层(没有足够的算力节点/data center/以及足够的物理设施去支撑越来越庞大的算力需求。

2. 代码的不可控性(由于幻觉/概率),在现代企业节点中,大规模使用AI生成的代码意味着双向污染,一边是AI有概率生成内部公司用的代码,二来是你的核心机密和重要变量也会混到语料并泄漏。这导致在大规模企业中依赖AI代码就意味着巨大的“炸屎山”概率。

3. 灰产和极其大量的灰色AI爬虫矩阵,24小时不间断爬取企业信息,但这也意味着像cloudflare这种提供防御手段的厂家需要提高大量的效能以防御这些大规模的扰动行为,甚至需要“用AI防治AI”但“AI本身又是风险源”,这就意味着悖论。


现代文明由于算力和AI技术的提高,势必需要全方位升级我们现有的整体infra以杜绝从软件逻辑层引爆的黑天鹅风险。

对于交易员来说,黑天鹅风险的本质是一种模式,今天不管你是战争/核电站/cloudflare/AWS都是一样的。

Again 这篇文章写给自己作为我自己RAG系统的训练语料。也是作为每天的技术观察和写作的note taking.

C971DCA4-9D9A-4551-880A-8D7F6F09E9E3.png