当团队维护的 UI 组件库被几十个项目同时使用时,性能问题的归因就成了一场噩梦。Sentry 报告了一个缓慢的 LCP 或一个超长的 TBT,但根本原因是什么?是业务代码的逻辑问题,还是我们某个核心组件,比如 <SuperGrid />
,在处理特定数据时出现了性能退化?标准的 RUM 工具只能告诉我们“页面”变慢了,但无法精确定位到是哪个“组件”拖慢了整个应用。我们缺失了最关键的一环:组件级别的性能度量。
这个痛点驱动我们构建一个内部的可观测性平台。目标很明确:不仅要看到宏观的页面性能,更要下钻到微观的组件渲染层面,并将这些微观指标与宏观的错误报告(Sentry issues)关联起来。
初步构想与技术选型
最初的方案是尝试将所有组件性能数据作为自定义事件上报给 Sentry。但这很快被否决。一个复杂的页面单次交互可能产生数十个组件的重渲染,每个渲染都产生一条性能数据。如果应用有 10 万日活,每日产生的自定义事件将是千万甚至上亿级别。Sentry 的成本模型和产品设计并不适合这种高基数、高频率的纯时序数据存储。
我们需要一个更专业的武器。
数据存储: InfluxDB
- 为什么是它? InfluxDB 是一个为时间序列数据而生的数据库。它的数据模型(Measurement, Tags, Fields)天生适合存储我们的组件性能指标。
componentName
,version
,propSignature
等作为 Tags,可以被高效地索引和查询,而不会导致基数爆炸问题。写入性能极高,查询语言 Flux 强大,非常适合做聚合与分析。成本效益远超通用型可观测性平台。
- 为什么是它? InfluxDB 是一个为时间序列数据而生的数据库。它的数据模型(Measurement, Tags, Fields)天生适合存储我们的组件性能指标。
错误与事务关联: Sentry
- 为什么保留它? Sentry 在错误捕获、事务追踪和用户上下文聚合方面依然是业界标杆。我们不想重复造轮子。我们的目标是增强它,而不是取代它。关键在于,我们需要一种方法将我们自定义的性能指标与 Sentry 的
traceId
关联起来。
- 为什么保留它? Sentry 在错误捕获、事务追踪和用户上下文聚合方面依然是业界标杆。我们不想重复造轮子。我们的目标是增强它,而不是取代它。关键在于,我们需要一种方法将我们自定义的性能指标与 Sentry 的
数据采集: 自研组件探针
- 为什么自研? 没有任何现成的工具能精确度量我们内部组件库的特定生命周期。我们将利用 React 的
Profiler
API 来实现一个轻量级的探针,以 Hook 或 HOC 的形式注入到需要监控的组件中。
- 为什么自研? 没有任何现成的工具能精确度量我们内部组件库的特定生命周期。我们将利用 React 的
数据可视化与访问控制: 自研 Dashboard + GitHub OAuth
- 为什么自研? 我们需要一个高度定制化的看板来展示数据,比如“对比
<SuperGrid />
v1.2 和 v1.3 在千行数据下的渲染时间分布”。用我们自己的 UI 组件库来构建这个 Dashboard,既能“狗粮”自家产品,也能满足独特的展示需求。 - 为什么用 GitHub OAuth? 这是一个内部开发者工具,不需要复杂的权限管理。团队所有成员都有 GitHub 账号,使用 OAuth 2.0 协议通过 GitHub 进行身份认证是最直接、最安全、开发成本最低的方案。
- 为什么自研? 我们需要一个高度定制化的看板来展示数据,比如“对比
架构设计
整个系统的生命周期可以被清晰地划分。
graph TD subgraph Browser A[React App] --> B{UI Component}; B -- wraps --> C[Performance Profiler Hook]; C -- metrics --> D[Beacon Service]; D -- Sentry.getTraceId() --> E[Sentry SDK]; D -- batch POST --> F[Ingestion API]; end subgraph Backend F --> G[InfluxDB Client]; G -- write --> H[InfluxDB]; end subgraph Dashboard I[Developer] -- login --> J[Dashboard Web App]; J -- GitHub OAuth --> K[Auth Service]; J -- authenticated API calls --> L[Dashboard API]; L -- Flux Query --> H; end subgraph Correlation M[Sentry Issue] -- contains --> N(traceId); I -- copies traceId --> J; J -- queries with traceId --> L; end
步骤一:为 UI 组件库植入性能探针
我们的核心是数据采集。这里我们使用 React 的 Profiler
API,它可以在组件树的任何位置测量渲染开销。我们将其封装成一个可复用的 Hook useComponentProfiler
。
// src/profiler/useComponentProfiler.ts
import React, { Profiler, useRef } from 'react';
import { beacon } from '../beacon'; // 数据上报服务,稍后实现
type ProfilerData = {
id: string; // 组件ID
phase: 'mount' | 'update'; // 挂载或更新
actualDuration: number; // 渲染耗时 (ms)
baseDuration: number; // 预估耗时 (ms)
startTime: number; // 开始渲染时间戳
commitTime: number; // 提交更新时间戳
interactions: Set<any>;
};
export interface ComponentProfilerProps {
componentName: string;
componentVersion: string;
// 可以传入一些关键的props,用于后续分析,但要注意脱敏
trackedProps?: Record<string, any>;
// 是否启用监控,可以通过全局配置或 props 控制
enabled?: boolean;
}
/**
* 一个封装了 React.Profiler 的 Hook,用于自动上报组件性能数据
* @param props - 组件元数据
* @returns Profiler 组件的 props
*/
export const useComponentProfiler = (props: ComponentProfilerProps) => {
const { componentName, componentVersion, trackedProps, enabled = true } = props;
// 使用 ref 避免每次渲染都重新创建 onRender 回调
// 这对于性能至关重要
const onRenderCallback = (
id: string,
phase: 'mount' | 'update',
actualDuration: number,
baseDuration: number,
startTime: number,
commitTime: number,
interactions: Set<any>
) => {
// 如果未启用,则直接返回
if (!enabled) {
return;
}
// 可以在这里增加采样逻辑,例如只上报 10% 的数据
// if (Math.random() > 0.1) return;
// 异步上报,不阻塞渲染主线程
setTimeout(() => {
beacon.push({
measurement: 'component_performance',
tags: {
component_name: componentName,
component_version: componentVersion,
phase: phase,
// 将关键 props 序列化为 tag,用于分析
// 注意:这里的 key 和 value 都不能包含敏感信息
...serializeTrackedProps(trackedProps),
},
fields: {
actual_duration: actualDuration,
base_duration: baseDuration,
commit_time: commitTime,
start_time: startTime,
},
// 时间戳使用 commitTime,单位是纳秒
timestamp: Math.round(commitTime * 1e6),
});
}, 0);
};
// 返回一个对象,可以直接解构到 Profiler 组件上
return {
id: componentName,
onRender: onRenderCallback,
};
};
function serializeTrackedProps(props?: Record<string, any>): Record<string, string> {
if (!props) return {};
const serialized: Record<string, string> = {};
for (const key in props) {
if (Object.prototype.hasOwnProperty.call(props, key)) {
const value = props[key];
// 仅序列化原始类型的值,避免复杂对象
if (typeof value === 'string' || typeof value === 'number' || typeof value === 'boolean') {
serialized[`prop_${key}`] = String(value);
}
}
}
return serialized;
}
// 如何在组件中使用
export const SuperGrid: React.FC<SuperGridProps> = (props) => {
const { data, config, version } = props;
const profilerProps = useComponentProfiler({
componentName: 'SuperGrid',
componentVersion: version,
trackedProps: {
rowCount: data.length,
virtualized: config.virtualized,
},
});
return (
<Profiler {...profilerProps}>
<div>
{/* ... SuperGrid 的复杂渲染逻辑 ... */}
</div>
</Profiler>
);
};
这段代码的核心是 useComponentProfiler
Hook。它接收组件的元信息,并返回一个可直接用于 <Profiler>
组件的 props 对象。onRender
回调会在组件完成渲染后被触发,然后我们将数据推送给一个全局的 beacon
服务。
步骤二:实现数据上报信标 (Beacon)
信标服务负责在客户端缓存和批量上报数据,以减少网络请求。它还需要与 Sentry SDK 交互,获取当前的 traceId
。
// src/beacon/index.ts
import * as Sentry from '@sentry/react';
interface Metric {
measurement: string;
tags: Record<string, string | number | boolean>;
fields: Record<string, string | number | boolean>;
timestamp?: number;
}
const BATCH_SIZE = 20;
const UPLOAD_INTERVAL = 5000; // 5 seconds
const ENDPOINT = '/api/metrics'; // 我们的数据接收端点
class Beacon {
private queue: Metric[] = [];
private timer: NodeJS.Timeout | null = null;
constructor() {
// 页面卸载时,尝试将队列中剩余的数据全部发送
window.addEventListener('beforeunload', () => this.flush());
}
public push(metric: Metric) {
// 核心:关联 Sentry trace
const transaction = Sentry.getCurrentHub().getScope()?.getTransaction();
if (transaction) {
metric.tags['sentry_trace_id'] = transaction.toTraceparent().split('-')[0];
metric.tags['sentry_span_id'] = transaction.toTraceparent().split('-')[1];
}
this.queue.push(metric);
if (this.queue.length >= BATCH_SIZE) {
this.flush();
} else if (!this.timer) {
this.timer = setTimeout(() => this.flush(), UPLOAD_INTERVAL);
}
}
public flush() {
if (this.timer) {
clearTimeout(this.timer);
this.timer = null;
}
if (this.queue.length === 0) {
return;
}
const batch = this.queue.slice();
this.queue = [];
// 使用 navigator.sendBeacon 可以保证在页面卸载时也能发送请求
// 但它有一些限制,比如只能发送 POST 请求且不能携带复杂的 headers
// 对于需要认证的场景,还是使用 fetch
try {
// 在真实项目中,这里需要处理 token 等认证信息
fetch(ENDPOINT, {
method: 'POST',
headers: {
'Content-Type': 'application/json',
},
body: JSON.stringify(batch),
keepalive: true, // 关键!允许请求在页面卸载后继续进行
}).catch(err => {
// 发送失败,可以考虑将数据暂存到 localStorage
console.error('Failed to send metrics:', err);
});
} catch (error) {
// ... 错误处理
}
}
}
export const beacon = new Beacon();
这里的关键是,我们通过 Sentry.getCurrentHub()
获取当前的事务,并从中提取 traceId
作为 tag 附加到我们的性能指标上。这是实现数据关联的核心纽带。
步骤三:后端数据接收与写入 InfluxDB
我们使用 Node.js 和 Fastify 构建一个轻量级的 API 服务来接收数据,并使用 official InfluxDB client 将其写入。
// server/ingestion/index.ts
import Fastify from 'fastify';
import { InfluxDB, Point } from '@influxdata/influxdb-client';
// 从环境变量读取配置
const INFLUX_URL = process.env.INFLUX_URL!;
const INFLUX_TOKEN = process.env.INFLUX_TOKEN!;
const INFLUX_ORG = process.env.INFLUX_ORG!;
const INFLUX_BUCKET = process.env.INFLUX_BUCKET!;
// 创建 InfluxDB 客户端实例
const influxDB = new InfluxDB({ url: INFLUX_URL, token: INFLUX_TOKEN });
const writeApi = influxDB.getWriteApi(INFLUX_ORG, INFLUX_BUCKET, 'ns');
const server = Fastify({ logger: true });
// 定义请求体的 schema 用于验证
const metricSchema = {
type: 'object',
properties: {
measurement: { type: 'string' },
tags: { type: 'object' },
fields: { type: 'object' },
timestamp: { type: 'number' },
},
required: ['measurement', 'tags', 'fields'],
};
const bodySchema = {
type: 'array',
items: metricSchema,
};
server.post('/api/metrics', { schema: { body: bodySchema } }, async (request, reply) => {
try {
const metrics = request.body as any[];
if (!metrics || metrics.length === 0) {
return reply.code(204).send();
}
const points = metrics.map(metric => {
const point = new Point(metric.measurement);
// 添加所有 tags
for (const key in metric.tags) {
point.tag(key, String(metric.tags[key]));
}
// 添加所有 fields
for (const key in metric.fields) {
const value = metric.fields[key];
// InfluxDB client 会自动处理类型
if (typeof value === 'number' && isFinite(value)) {
point.floatField(key, value);
} else if (typeof value === 'boolean') {
point.booleanField(key, value);
} else {
point.stringField(key, String(value));
}
}
// 如果客户端提供了时间戳,则使用它
if (metric.timestamp) {
point.timestamp(metric.timestamp);
}
return point;
});
writeApi.writePoints(points);
// 在生产环境中,应该考虑批量写入和错误处理
await writeApi.flush();
server.log.info(`Wrote ${points.length} points to InfluxDB.`);
return reply.code(202).send({ status: 'accepted' });
} catch (error) {
server.log.error(error);
// 避免将详细错误信息暴露给客户端
return reply.code(500).send({ error: 'Internal Server Error' });
}
});
// ... 启动服务器 ...
这段代码将接收到的 JSON 数据转换成 InfluxDB 的 Line Protocol 格式。Point
对象帮助我们构建这种格式。我们将 component_name
等元数据作为 tags
,将 actual_duration
等测量值作为 fields
。
步骤四:使用 GitHub OAuth 2.0 保护 Dashboard
我们的 Dashboard 是内部工具,必须进行身份验证。
// server/auth/github.ts
import Fastify from 'fastify';
import fastifyPassport from '@fastify/passport';
import fastifySecureSession from '@fastify/secure-session';
import { Strategy as GitHubStrategy } from 'passport-github2';
import fs from 'fs';
import path from 'path';
export function setupAuth(server: Fastify.FastifyInstance) {
// 1. 设置 Session
server.register(fastifySecureSession, {
key: fs.readFileSync(path.join(__dirname, 'secret-key')), // 生产环境使用更安全的密钥管理
cookie: {
path: '/',
httpOnly: true,
secure: process.env.NODE_ENV === 'production',
},
});
// 2. 注册 Passport
server.register(fastifyPassport.initialize());
server.register(fastifyPassport.secureSession());
// 3. 配置 GitHub 策略
fastifyPassport.use(new GitHubStrategy({
clientID: process.env.GITHUB_CLIENT_ID!,
clientSecret: process.env.GITHUB_CLIENT_SECRET!,
callbackURL: "http://localhost:3000/auth/github/callback",
scope: ['read:user', 'read:org'], // 请求获取用户和组织信息的权限
},
async (accessToken, refreshToken, profile, done) => {
// 在这里进行用户校验,例如检查用户是否属于某个 GitHub Organization
const userIsMember = await checkUserMembership(accessToken, 'your-github-org');
if (!userIsMember) {
return done(new Error("User is not a member of the required organization."), null);
}
// 用户信息可以存储在 session 中
done(null, { id: profile.id, username: profile.username, avatar: profile.photos?.[0].value });
}
));
// Passport 序列化和反序列化
fastifyPassport.registerUserSerializer(async (user: any) => user);
fastifyPassport.registerUserDeserializer(async (user: any) => user);
// 4. 定义认证路由
server.get('/auth/github', fastifyPassport.authenticate('github'));
server.get('/auth/github/callback',
fastifyPassport.authenticate('github', {
failureRedirect: '/login-failed',
successRedirect: '/',
})
);
server.get('/api/me', (req, reply) => {
if (req.isAuthenticated()) {
reply.send(req.user);
} else {
reply.code(401).send({ error: 'Unauthorized' });
}
});
}
// 保护 API 路由的钩子
export function isAuthenticated(req, reply, done) {
if (req.isAuthenticated()) {
done();
} else {
reply.code(401).send({ error: 'Unauthorized' });
}
}
// 在 Dashboard API 路由中使用
// server.get('/api/dashboard/data', { preHandler: [isAuthenticated] }, async (req, reply) => { ... });
checkUserMembership
是一个需要你自己实现的函数,它会使用 GitHub API 和用户的 accessToken
来验证用户是否属于指定的组织,从而实现访问控制。
步骤五:查询 InfluxDB 并在前端可视化
最后一步是构建 Dashboard API,使用 Flux 语言从 InfluxDB 查询数据。
// server/dashboard/api.ts
import { InfluxDB } from '@influxdata/influxdb-client';
const queryApi = new InfluxDB({ url: INFLUX_URL, token: INFLUX_TOKEN }).getQueryApi(INFLUX_ORG);
// 示例:查询 SuperGrid 组件在过去24小时内按版本聚合的 p95 渲染耗时
export async function getSuperGridP95Duration() {
const fluxQuery = `
from(bucket: "${INFLUX_BUCKET}")
|> range(start: -24h)
|> filter(fn: (r) => r._measurement == "component_performance")
|> filter(fn: (r) => r.component_name == "SuperGrid")
|> filter(fn: (r) => r._field == "actual_duration")
|> group(columns: ["component_version"])
|> quantile(q: 0.95, method: "exact_mean")
|> yield(name: "p95_duration")
`;
const results: any[] = [];
return new Promise((resolve, reject) => {
queryApi.queryRows(fluxQuery, {
next(row, tableMeta) {
results.push(tableMeta.toObject(row));
},
error(error) {
console.error('InfluxDB Query Error:', error);
reject(error);
},
complete() {
resolve(results);
},
});
});
}
前端拿到这些数据后,就可以用任何图表库(比如我们自己的组件库里的图表组件)来渲染了。当SRE在Sentry上发现一个Trace ID为abcde12345
的可疑慢事务时,他可以把这个ID输入我们的Dashboard。Dashboard会执行如下查询:
from(bucket: "my-bucket")
|> range(start: -7d) // 查询范围可以根据事务时间戳调整
|> filter(fn: (r) => r._measurement == "component_performance")
|> filter(fn: (r) => r.sentry_trace_id == "abcde12345")
|> group(columns: ["component_name", "phase"])
|> sort(columns: ["_time"])
这个查询会返回该事务期间所有被我们探针监控到的组件的渲染记录,按时间排序。工程师可以立刻看到是哪个组件在哪次更新中花费了异常长的时间,从而精准定位问题。
遗留问题与未来迭代
这个方案并非一劳永逸。
探针性能开销:
Profiler
本身有开销。对所有组件进行无差别监控在生产环境中是不现实的。下一步需要实现动态采样机制,比如只对 1% 的会话启用,或者只针对特定版本的组件、特定用户群开启,甚至可以由 Sentry 的错误率动态触发开启更详细的监控。数据维度与基数:
trackedProps
如果使用不当,很容易造成 InfluxDB 的高基数问题。比如将一个用户ID作为 tag,会导致 series 数量爆炸。必须建立严格的规范,只追踪低基数的、有分类意义的 props。自动化关联: 目前从 Sentry 到我们 Dashboard 的跳转还需要手动复制 Trace ID。未来的方向是利用 Sentry 的 Webhooks 或 API,在 Sentry Issue 页面自动创建一个标签或评论,直接链接到我们 Dashboard 上预设好查询参数的页面,实现一键下钻。
告警: InfluxDB 本身具备强大的告警能力 (Tasks & Checks)。我们可以设置规则,当某个组件新版本的 p99 渲染时间相比旧版本上涨超过 20% 时,自动触发告警到 Slack 或 PagerDuty,实现性能退化的主动发现。