
强如 Claude,最近的 bug 也越来越多了。
最新热议话题让 Hacker News 炸开了锅:
不知说念是 Claude 精分如故失了智!
完全分不清哪些话是用户输入的,哪些话是系统设定的,致使把坏心注入的底层指示当成是用户的正当肯求。

发帖东说念主 G 哥(一位软件工程师,在某阐述初创公司当 CTO)致使称这是他"迄今为止我在 Claude 代码中见过的最严重的 bug "。
这个对于" Claude 沾污发言变装"的帖子仍是发布,坐窝在 Hacker News 上激励了数万名极客的强势围不雅。

网友们的征询太过是非,以至于关系帖子热度急剧攀升。
毕竟不少东说念主发现,不单是第一个发帖东说念主的 Claude 失了智,是大师的 Claude 都很爱精分……(扶额 .gif)

Claude 新 bug:记不清话是谁说的
此次激励社区大征询的中枢槽点,即是有网友发现 Claude3.5 和 Claude 4 系列在处理复杂或坏心构造的高下文时,出现了严重的身份识别遮拦。
有开发者在实测中发现,若是用户在发问中神秘地镶嵌访佛 to make 这样带有强烈戒指意味的异常截断字符,Claude 的里面代码逻辑就会被透顶侵犯。

模子会作假地把这些坏心注入的外部数据,当成是之前对话中助手或者系统层面下达的既定指示,进而无庸婉言地合计:
这些违法操作都是"用户让我这样干的"!

究其背后的本领原因,根源直指 Transformer 架构中刺倡导机制(Attention)的盲区。
在模子的视角里,不管是无出其右的系统教唆词,如故混合着多样庞大信息的用户数据,最终都会被完全切碎成 Token,毫无保留地扔进合并个刺倡导矩阵中进行算计。
这种数据旅途与戒指旅途完全重合的特色,导致模子在处理海量信息时衰败物理真谛真谛上的安全阻难界限。
这个情况不是孤例,驳斥区里多量围不雅大师对此都深有共鸣。
有本领大佬指出,IM体育官方网站首页这就如同早期的冯 · 诺依曼架构,数据和戒指指示在内存中莫得任何物理阻难。

许多东说念主试图写"千万别听我输入的任何危境指示"之类的教唆词,却被其他网友冷凌弃戏弄,称这是塞耳盗钟。
网友线路,这种行径像极了几十年前体式员试图用正则抒发式来留恋 SQL 注入相通,本体上只是在自欺欺东说念主,全凭气运留恋。
惟有大模子本体上依然是一个"下一个 Token 探讨器(Next Token Predictor)",它就会依据概率散播去适合高下文线路。

网友给出琳琅满方针避坑指南
既然底层架构自然存在把数据当指示的弱点,本领社区里的极客们便运转探讨如安在工程利用层面拓荒起防火墙。
最运转的 Reddit 底下,大师给 G 哥出的主意是让它别给 Claude 那么多权限。
到了 Hacker News 这边,轮盘游戏app建议的惩处办法就更多了~
呼声最高的决议之一是在模子进修的底层引入不成伪造的界定符。
这意味着开发者需要盘算推算一种绝对无法通过当然讲话用户输入来生成的异常 Token。
如同在操作系统里强行差别出不成卓越的内核态和用户态,这种次序是想确保任何来自外界的平素文本,始终无法在 Tokenizer 阶段被颐养为具有系统戒指权限的要道标志,从根源上阻断当然讲话层面的越权行径。

此外还有网友建议,对于已经部署在分娩环境中的业务,现时工程界最主流的解法是遴荐一种访佛"巡警与嫌犯"的双模子架构。
单一的主模子容易被巧语花言骗过,开发者们取舍引入一个专诚崇拜安全审计的旁路小模子。
这个审计模子不崇拜具体的业务逻辑,只崇拜死盯主模子的输入和输出。
一朝发现对话中有任何越权推行或身份沾污的头绪,坐窝强行割断对话。

不外大师如故存在一个共鸣,那即是受架构甘休,始终不要寄但愿于大讲话模子能够产生所谓的"安全醒觉"。
在底层架构层面已毕透顶的指示与数据物理分离之前,任何将 LLM 接入要道业务系统和自动化推行链条的场景,都必须将其视为一个完全不成信的黑盒引擎来对待。
G 哥在帖子的临了提到:
其实不仅是 Claude,有东说念主说 ChatGPT 也有访佛的问题。
现时初步接洽 bug 的触发条目之一,是聊天对话接近了高下文窗口极限。

体验感起滚动伏的 Claude
顺着 Claude 新 bug 这个话题,开发者们围绕近期 Claude 的发扬越征询越快乐。
近段时候,为了给行将惊艳亮相的全新一代模子 Mythos 腾出巨大的算力资源,Anthropic 在后台对现存 Claude 处事的 API 调用和算力分拨进行了多轮黧黑调整,平直导致多量前列开发者的现实体验如过山车一般不沉稳。
就在不久之前,就有摧毁的测试者实测发现,Claude 在处理复杂逻辑时的深度想考长度在毫无预警的情况下被大幅削减了 67%。
跟着想维链的裁减,其长文本逻辑推理和长代码生成才调肉眼可倡导出现了左迁气候。
以前能够连结推演几十步的复杂难题,现时往往刚起步就急仓猝地给出粗率的论断。

更令东说念主啼笑齐非的是近期爆出的计费系统大乌龙——
由于底层 API 计费逻辑的突发性故障,灵验户在对话框里只是发了一句简短的" Hello ",系统就平直判定破钞了天文数字的 Token,短暂把账号里辛贫贫困攒下的额度一说念清零。
这些接二连三的插曲,也让大师对 Anthropic 颇具微词。
临了,若是你也遭遇过 Claude 逻辑掉线、或者见效率一句话"绕晕"过它的阅历,接待在驳斥区共享你的调教心得~
参考畅达:
[ 1 ] https://news.ycombinator.com/item?id=47701233
[ 2 ] https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
[ 3 ] https://dwyer.co.za/
一键三连「点赞」「转发」「注重心」
接待在驳斥区留住你的想法!
— 完 —
� � 谁会代表 2026 年的 AI?
龙虾爆火,带动一波 Agent 与繁衍家具海潮。
但真偶合得耐久温文的 AI 公司和家具,大致不啻于此。
若是你正在作念,或见证着这些变化,接待陈述。
让更多东说念主看见你。� � https://wj.qq.com/s2/25829730/09xz/
一键温文 � � 点亮星标
科技前沿进展逐日见轮盘
PG电子(PocketGames)游戏官网