发布日期:2026-03-07 11:56 点击次数:198

演讲嘉宾|李锐
编订|Kitty
筹办|QCon 全球软件开荒大会
连年来,大前端技艺领域呈现出迭代速率加速、功能复杂度和业务耦合度加多的秉性,加之快手亿级 DAU 的用户鸿沟和超长使用时长,靠近着多种技艺栈并存、高资源占用的挑战,性能踏实性风险持续增大。传统的性能踏实性排障用具使用门槛高,依赖领域众人多年积蓄的深度常识和隐性经历判断。那么,AI 是否是破解有限的东说念主力和无尽的复杂问题之间矛盾的谜底?本文整理自快手转移端踏实性负责东说念主李锐在 2025 年 QCon 全球软件开荒大会(上海站) 的共享“AI x 大前端性能踏实性:快手亿级 DAU 下的智能会诊实践”。重心共享在大前端性能踏实性保险中,若何借助快手「柯南 AI」 赋能,竣事性能踏实性问题排障经历黎民化,显贵提高会诊遵循。
预报:将于 4 月 16 - 18 召开的 QCon 北京站缱绻了「下一代交互架构:LUI 与 GUI 的和会」专题,将研究如安在复杂系统中均衡目田输入与结构化操作,构建高效、可控的新一代东说念主机交互范式。若是你也有联系标的案例想要共享,迎接提交至:https://jinshuju.com/f/Cu32l5
以下是演讲实录(经 InfoQ 进行不改变情愿的编订整理)。
最近,AI 赛说念的“卷”已从国内蔓延到硅谷:“996” 乃至 “007” 的据说赓续于耳;ACM 总决赛冠军被大模子摘下;IMO 金牌水平的自动编码才智,也足以让大多数圭臬员自叹弗如。若是 AI 既能写代码又能自动完成调试,是否就酿成了一个自我迭代的闭环,把“东说念主”透彻挤出了开荒经过?热度之下,我更想厚重地想考下,在快手这么体量的复杂业务里,从性能踏实性视角来望望 AI 到底能走多远。今天,我就以亲历者的身份,聊聊咱们团队在“AI x 性能踏实性”上的想考和构建「柯南 AI」平台躺过的那些坑。
我 2019 年加入快手,尔后一直负责踏实性领域的建设。个东说念主偏好钻研系统底层旨趣,折腾过不少“硬核”技艺,亦然快手转移端第一个开源神志 KOOM 的作家。接下来的共享分五部分:先恢复“为什么”和“若何作念”,再聚焦两个重要场景,临了谈谈领略和感受。
快⼿性能踏实性布景
我把我方在快手经历的踏实性演进,顽劣地划成四个阶段。回头去看,每一阶段皆站在上一阶段的肩膀:最早自研 APM,接着把一一零星用具千里淀成 APM 平台,再基于平台作念问题治理,临了是体系化的踏实性故障驻扎。节律与转移互联网技艺波澜同频——从转移互联网红利期到存量用户竞争期,性能和踏实性被再行界说为用户的体验带来的公司竞争上风,再到今天的 AI 波澜期间。

大前端的性能踏实性议题已陪同转移互联网十余年。硬件层面,iPhone 的算力较初代已提高百倍;软件层面,QCon、GMTC 年年设专场。可问题真实被十足扫清了吗?并莫得。上半年 QCon 的主题叫“越挫越勇的大前端”,下半年又变成“AI 与跨端的高效和会”——主题自己就在默示:复杂度并未消解,咱们仍在受挫,遵循依旧不及。若用算法复杂度打比喻,当年十年咱们面对的场景和其惩办算法自己并未升级,且复杂度还因鸿蒙等新变量持续彭胀水长船高,输入鸿沟也加多了。因此,咱们照实靠近不小的挑战。

AI x 性能踏实性先容
那么 AI 能否破局?先从东说念主的角度谈下我的想考,在诸君的团队中是否发现有在一个景色:团队里总 有些 Bug 唯额外定“老众人”能解,新东说念主插不上手,得不到考试;众人又持续被这些 bug 缠身,没法开释出东说念主力作念更有价值的事情,进而导致恶性轮回质料下滑。从这个角度启航,在性能踏实性领域,我当先的想考:AI 定位起先不是取代谁,而是成为团队产出放大器,把“众人经历”滚动为组织才智。
{jz:field.toptypename/}
要让放大器不失真,得先搭好踏实的“电路”。咱们踏实性体系本就分阶段演进,每一阶段皆是下一阶段的底座;AI 也必须长在这套体系之上再去更始这套体系,不然就是无米之炊、无米之炊。可是,踏实性横跨技艺、经过、运营几十个小域,AI 该从哪切入?

里面多轮推演后,咱们锁定“问题处置”——它最吃研发时分,也最影响用户体验,且能弥补东说念主在排障时处置时的盲区(盘问标明东说念主脑同期作念多处理四个变量)。具体拆成两条线:根因处置与济急止血;根因里又分疑难与节略两类,赶巧与大模子的推理、检索、生成才智相呼应。

咱们自顶向下缱绻了一套可扩展的 Agent 架构,搭建了「柯南 AI」平台。业务主张明确:把根因定位与济急反应作念得更快、更准。产物口头先以里面 IM 机器东说念主落地,撑持问题根因排查建议 和 MR 自动培植;再简陋演进为镶嵌 IDE、Coding Agent 、里面排障平台多轮会话。技艺选型上,Agent 框架咱们的发展经历了两个阶段:从 AutoGen 到基于 OpenAI Agent SDK 原语自研 Agent 框架,撑持图编排、多种模式计谋,也能接入和各 CLI Agent 联结。基建层分两端:AI 侧按场景选模子——节略任务用轻量模子,推理密集型上强模子,多模态场景再重叠视觉才智;同期把激动里面平台 MCP 化演进,让用具随调随用。工作详察似重要:系统必须可不雅测、可调试、可压测,还要提前算清老本,幸免鸿沟上去后失控。

实践:AI 扶助根因排障
前边谈了“为什么”与“若何作念”,接下来我想用一次实在案例恢复“咱们到底作念了什么”。案例是一枚被里面戏称为“五星 NPE”的异常。乍看只是空指针,加个判空似乎就能了事;可它偏巧只在大型行径爆发,且堆栈里只剩系统帧,连崩溃触起泉源皆无处寻觅。把日记丢给 ChatGPT、Claude 或 DeepSeek,它们相似抓瞎,因为高下文太少,推理链断裂。那么,通过咱们的用具链能定位出问题根因吗?

在起原之前,咱们先对研发同学作念了一次摸底:96 % 的东说念主承认线上排障厄运,却又在不出事时痛恨日记太多,出过后嫌日记太少。刚刚前边友商的演讲不错看到,工程师 60 % 的时分花在修 Bug 上;我查到的 ACM Queue 报说念数据也落在 30 %–50 % 区间。两相照射,可见“写代码易,排障难”并非个例。

近来,行业里 Linus 那句“Talk is cheap, show me the code” 被广为流传在 AI 期间变为了 “Code is cheap, show me the talk” ,但我想说的是:“Code is cheap, debug is expensive—show me the fix。”写出能跑的代码只需几分钟,但要录用工业级、零颓势的版块,仍然需要一套能把“腾贵排障”降本增效的体系,这恰是咱们接下来要伸开的内容。

为什么修一个 Bug 会如斯耗时?我把这些年的踩坑经历概述成一句话:排障实质上是一场科学推理实验,实质上是演绎推理、归纳推理、溯因推理、类比推理等推理门径论的组合。我发现 MIT 有一门课也持相似不雅点——先不雅察景色、集聚数据,再提倡假定,用扼杀法迭代,直到去伪存真。AI 能否胜任这场实验?基于此想路,我把它拆成“摸高”与“短板”两条线。
咱们再来想考,咫尺 AI 的推理才智有多猛进程能惩办排障的问题。AI 的长板不问可知:回明天记快、空想模式多、见过的异常广。只须通过 Agent 计谋或教导词稍加指引,它就能把碎屑化信息赶快拼成一张“思绪图”。关联词,一朝涉及天花板,它就会碰壁:私域代码、里面用具链、超长推理链,皆是它的盲区。最毒手的是“深度 Bug”,真钱投注触发条目多、旅途长,需要衔接十几步推理,模子经常在半途失焦。
咱们给 AI 建了一套四级胜任度评估体系:最底层是“问题回来”,简直百发百中;往上是“提倡假定”,准确率启动下跌;再往上是“考据假定”,需要东说念主工补位多论会话;顶层是“给出可落地决策”,径直把问题进行培植,咫尺只可当扶助惩办节略问题。先把标尺立起来,再持续往里填数据、调计谋,才能看清 AI 到底站在哪一级台阶,下一步该往哪迈,并据此评估体系,伴跟着模子才智的提高,持续不雅测迭代 AI x 踏实性的才智。

把排障比作破案,是我这些年最贴切的感受:皆要在零星思绪里还原动机,再锁定真凶。想作念出一个实践中切实有用的踏实性 Agent,开荒者我方得先是又名老考查——见过千奇百怪的案发现场,才能把经历千里淀成礼貌。最难的 Bug 就像“完好违警”,现场干净得连指纹皆莫得;前边提到的“五星 NPE”就是如斯,只剩一条光溜溜的系统堆栈,简直莫得任何可供推理的陈迹,吃力高下文 AI 也会指雁为羹。
为了在这种“零思绪”场景里也能破案,咱们里面作念了一套叫 Holmes 的用具。它把传统技巧拆成“静态”与“动态”两条线:静态侧是日记、Coredump、内存转储这些“尸体论述”;动态侧则是调试器、Profiler 这类“让圭臬再死一次”的利器。老圭臬员偏疼调试器,恰是因为它能一步步重演物化过程,把陡然定格成衔接画面。

Holmes 的想路是在两条线上同期作念蔓延:静态侧,咱们将日记与转储映射为可视化 UI;动态侧,则通过汉典热插桩及时采集运行时数据。
今天我想重心说说 UI 视图在排障中的现实价值。转移端圭臬以 GUI 交互为主,bug 中自然有很大占比是来源于 UI 视图联系的问题,复杂欺诈碰到的 UI 视图贫瘠时常是组合式问题,需要朝上欺诈层直达系统框架层。咱们曾碰到一类极难定位的崩溃:唯唯一张截图、一份 ViewTree 和一串点击事件。把这三样拼在总共,就能还原用户到底点了哪个按钮、触发了哪段逻辑,从而把“毫无关联”的系统堆栈翻译成“按钮 A 崩溃”。别小看这一步,它让研发坐窝理猜想最近的 MR 和需求,排障时分从小时级缩到分钟级。
具体落地时,Holmes 的 UI 视图采集必须“刚刚好”:信息不成多也不成少,多了烦躁判断,少了缺重要思绪;同期要对系统 UI 框架富饶熟练,才能在不显贵损耗性能的前提下,把 View 层级、布局参数、事件链路一次性抓全。
第一次看采荟萃果的东说念主常被密密匝匝的参数吓到。照实,唯独写用具的同学才难忘住每个字段含义。这又回到老问题:用具越复杂,会用的东说念主越少,资源再次错配。

AI 期间给了咱们突破轮回的契机。咱们沿用了前边提到的 Agent 框架:先让大模子把版块、系统、堆栈等基础信息作念一轮预处理;再用 众人千里淀的经历礼貌让大模子把问题分桶,每个桶对应反应的问题分析 Agent**(作家注:AI 发展很快,2026 最新架构已在 Skill 标的发展,但想想一致)**,举例 UI 视图 Agent 会读取 Holmes 采集的数据并联结源码,用 ReAct 计谋不断自问“是否需要进一步用具”“是否已定位根因”,在截止轮次内给出论断;若超时仍未惩办,则标识失败并交由东说念主工兜底。如斯,复杂参数被 Agent 自动消化,研发只需和顺“哪个按钮崩了”,用具终于从“个东说念主绝技”变成“团队标配”。

看起来问心无愧,是吧?先粗判问题,幸运飞艇app下载再分类,临了给出源码。但信得过起原作念过 Agent 的东说念主皆知说念,大模子的幻觉远比联想严重,且每一步皆陪同概率衰减:一步 80 %,两步就只剩 64 %。工业级场景要求接近 100 %,于是工程细节被放大成决定性身分。
在高下文工程上,咱们踩的坑不错归为两类。第一类是信息不及,主张过于雄壮:径直让模子“分析一下此次崩溃”,后果经常稀碎。第二类是信息过载,责任界限暧昧,模子反而迷失。用数学讲话讲,前者是“欠定”,后者是“超定”,咱们要的是“适定”:不丰不俭,刚好富饶。为此,咱们把问题拆成多少单一责任的 Agent,每个 Agent 的教导词皆经过全心编订,并通过 few-shot 示例教导它若何调用私域用具。最终呈现的后果是:系统先给出根因推测,再列出排查标的。若问题节略,可径直生成 MR,一键遴荐;若问题复杂,研发可沿思绪无间深挖。

前边谈的多是崩溃类场景。在“动”的另一侧,Profiler 负责性能问题。最广为东说念主知的就是火焰图。细究名字,它源于十多年前 Netflix 工程师 Brendan Gregg 用 Perf 用具生成的可视化:调用栈越高,火焰越旺,瓶颈一目了然。如今,火焰图已“名不副实”——Android 的 Perfetto 不再只是画火焰,而是把 CPU、内存、转机、欺诈事件(atrace)与内核跟踪(ftrace)全部塞进一张图。十几秒的采集即可产出 60 MB 数据:采样太短,信号不及;采样稍长,数据便彭胀到难以处理。复杂问题需要复杂用具,复杂用具又带来复杂费法,而场景自己还在持续彭胀。
当年咱们面对性能问题时,时常的作念法是:先花时分去学习火焰图用具的使用,再在图中往来拖拽、放大削弱,逐层定位瓶颈。这一步对工程师的底层常识要求极高,完成后才能负责参加分析阶段:稽查历史案例、比对相似问题,总共链路长、门槛高、遵循低,还容易遗漏重要思绪,这些恰是 AI 不错发力的痛点。

咱们给出的火焰图决策依旧沿用“众人经历前置”的想路:作念 AI 火焰图排障的东说念主,起先得是一位能熟练解读火焰图的性能众人。决策的中枢在于数据预处理算法,若何把 60 MB 的原始火焰图压缩成可供模子高效虚耗的高下文,并与源码、trace 事件精确关联,从而完成粗筛,然后再又后续的处理要津按需加载必要信息进行分析。最终,火焰图分析收尾按四种维度呈现:卡顿、启动、Slice 与自界说查询。系统径直给出论断,并指出对应源码位置,撑持一键跳转;无需再像当年那样手动拖拽寻找瓶颈,排障旅途被大幅镌汰。

实践:AI 加速济急处置
接下来我想谈谈济急故障处置。它的中枢唯唯一个字:急。
先说一个实在案例。iOS 26 升级后,苹果再次引入兼容性变动——25 年后仍在修改 Objective-C Runtime,并在文档里“善意”提醒:此处会崩 **(作家注:详见《**iOS 26 你的 property 崩了吗?》)。收尾,快手线上仍在运行的上百个历史版块,在升级 iOS 26 后陡然集体崩溃。唯独真谨慎历过的东说念主,才体会赢得那种痛:版块多、用户广,止损无从下手。咱们盘货现有技巧,有以下三种:
欺诈商店更新——一周隐秘率 50%,剩下 50% 的用户必崩一次;
变更回滚——此次是苹果篡改,无法让苹果回滚;
于是,咱们问我方:有莫得一种用具,能在崩溃发生的陡然径直“兜底”,像《硬人定约》里的 Ekko 开大招——时光倒流,让圭臬回到平日气象?咱们里面也把这个用具定名为 Ekko。它的想路很朴素:不管异常由谁引入、缘何触发,先跳过误差,保证用户不崩。固然,竣事起来并不节略。

行业里曾有一种前置 Hook 决策,但它必须在异常发生前就介入,对总共用户收效,哪怕他们从未崩溃,Ekko 侧目了这个污点。Ekko 与行业决策的最大差异,在于它是“过后”的:唯独当用户信得过崩溃时,才参加兜底经过,从而把对平日用户的烦躁降到零。这听起来节略,竣事却层层递进。以 NSException 为例,咱们注册 exception_preprocessor;C++ 异常则要 hook personality routine;Mach 异常还得与内核通讯,难度逐级升高。

崩溃被拿获后,践诺流已被打断,必须精确复原现场:指示地址、寄存器、栈帧、局部变量,一个皆不成错。咱们的决策也经历了屡次迭代:1.0 版基于老例栈回溯,碰到 Mach 异常就无法可想;2.0 版引入异步 unwind,又碰上因包体积优化而被编订的 unwind info 带来的兼容性问题;最终,咱们干脆自研反汇编器,把礼貌权十足抓在我方手里。

用具虽强,落地仍难。确立跳转指示、复原高下文等门径依旧繁琐,只可由少数众人操作。一朝线上告警,众人不在场,风险便陡增。于是咱们把 AI 接进来:由 Agent 自动分析崩溃现场,生成兜底确立,并给出影响范围与推选参数,既约束门槛,也减少东说念主为很是。
再讲一个故事。我不知说念群众历史上见过多大的事故,我见过的是千万级崩溃,而况只发生在半小时内。起始只是一个小崩溃,一小时才崩一两百次;群众在处理时作念了一个善意的止损——把弹气泡功能关掉,以为这么就能止血。没猜想“关掉气泡”这个当作自己的问题根因旨趣一致,收尾崩溃量从几百次陡然涨到几十万次。这件事给咱们最大的陶冶是:故障处置里依赖东说念主作念判断超越不靠谱。东说念主在高压下会病笃、肾上腺素飙升,很容易漏掉重要信息。
于是咱们把 AI 引入进来。它不会病笃,也能把历次操作皆回来下来,并提供处置建议,发展至结尾阶段以致概况自动处置。作念法也曾基于前边说的 Agent 架构:故障来了先分析,给出建研究断;若是判断需要兜底,就调用兜底用具生成确立并发布。
径直看后果。第一,Checklist:你当今很病笃,就按咱们处理了一年几百次报警回来出的门径一条条列出来给处置建议,驻扎遗漏。第二,问题回来:崩溃上报字段有 100 多个维度,东说念主眼看信服漏。好多问题其实有维度特征,比如展示图里教导“Android 35、高通芯片”等截止条目,有了这些信息,第一步定界就很快。第三,在给出维度后,无间提供源码级分析,并推送可能的培植标的,省去东说念主工翻查。

回来估量
接下来想说说咱们在开荒 Agent 过程中的实在体感,也算一次领略升级。起先是一次想维切换。写传统圭臬时,咱们默许“图灵机”式的详情趣:输入固定,输出必达。但大模子需要概率想维,若仍以详情趣想维调试,只会徒增苦恼。唯独先摸了了它擅长什么、薄弱在哪、天花板多高,才能决定那里用 AI、那里留硬代码,省下大皆返工时分。
其次,要识别瓶颈并主动拆解。教导词工程自己并不成提高模子自己的上限,因为模子权重并未改变;但一份全心缱绻的教导词能把模子已有的才智充分引发出来,这需要众人多年隐性常识与直观开释模子才智的天花板。模子单次推理深度有限,也需要基于众人经历,把复杂问题切成可治理的子部分,并尽可能的完善公司里面各个系统的数据买通串联。与此同期,评测体系必须同步建立:AI + 踏实性的才智是个螺旋上升的过程,传统圭臬只耗时分,AI 还耗 Token,烧钱速率倒逼咱们把评估作念得像高下文工程一样严谨。
回到当先的问题:AI 会不会把东说念主替代?我倾向听听“祖师爷”的声息。Linus Torvalds 被问到“是否已有 LLM 代码未经央求就提交给你”时,恢复干脆:“信服发生了,而况鸿沟还会扩大。”在他看来,用具演进从未停歇:机器码 → 汇编 → C → Rust,如今只是又多了一层 AI。代码审查与赞好意思相似如斯,Linus 但愿 AI 能先帮他抓“那些不问可知的蠢 bug”,毕竟连他我方也免不了犯初级误差。
面对垄断东说念主试图把话题引向“AI 会取代圭臬员”的负面预设,Linus 并未接茬,反而强调:自动化用具历来只是东说念主类才智的蔓延,从机器码到汇编再到高等讲话,每一次演进皆让路发者走得更远;AI 也不例外——信得过决订价值的,长久是咱们若何左右它。

当下 AI 话题很热,越在高潮越要厚重。咱们合计,膂力型的排障当作终将被自动化,但东说念主类需要更高阶的才智:提倡正确问题、识别模子幻觉、在适其时机介入。俗语说 AI 一天东说念主间一年,AI 发展超越快,伴跟着模子才智的提高,咱们也会把经过从 “human-in-the-loop” 向 “human-on-the-loop” 蔓延发展。面向 AI Native 期间,一切才刚刚起航。
演讲嘉宾先容
李锐,快手转移端踏实性负责东说念主。2019 年加入快手,主导了发版禁锢、监控报警、排障用具、止损用具、济急处置多个领域的建设,现为转移端踏实性标的负责东说念主。个东说念主擅长转移操作系统、虚构机、编译器等底层基础技艺,当今探索 AI+ 性能踏实性标的,KOOM 开源神志作家。
上一篇:幸运飞艇app 【深度推演】一份“假造”的AI备忘录击穿华尔街
下一篇:没有了