更新日志¶
本项目遵循 Semantic Versioning 规范,版本号格式为 MAJOR.MINOR.PATCH。本页按版本倒序记录所有变更。
版本说明
- MAJOR:不兼容的 API 变更
- MINOR:向后兼容的功能新增
- PATCH:向后兼容的 Bug 修复
v0.4.0¶
发布日期:2026-07-03
主题:坐席辅助工作台 — 补齐人机协同闭环
新增功能¶
- 8 个
/api/v1/agent/*端点:补齐转接后坐席侧工作台 API 支撑 GET /sessions/pending:待接入会话列表(按EscalationPriority降序)GET /sessions/{session_id}:会话详情(含EscalationCard+ 完整history)POST /sessions/{session_id}/accept:坐席接手(CASpending → assigned)POST /sessions/{session_id}/messages:坐席发消息追加到historyPOST /sessions/{session_id}/knowledge-recommend:知识推荐辅助POST /sessions/{session_id}/business-assist:业务查询辅助(含脱敏)POST /sessions/{session_id}/resolve:标记已解决(CASassigned → resolved)-
POST /sessions/{session_id}/solution:录入方案沉淀回库 -
SessionManager 扩展:4 个新字段 + 4 个 CAS 方法
- 新增字段:
agent_status/assigned_agent_id/escalation_card/resolve_note - 新增方法:
list_pending_sessions()/assign_agent()/resolve_session()/mark_pending() -
全部采用 CAS(Compare-And-Swap)保证并发安全
-
escalate_node 联动:转接发生时自动调用
mark_pending写入agent_status="pending",缓存EscalationCard避免重复构建
测试¶
- 新增 28 个测试用例,覆盖 8 个端点的正常路径、边界场景(404/409/422)与并发接手 CAS
文档¶
完整端点清单
| 端点 | 方法 | 说明 |
|---|---|---|
/api/v1/agent/sessions/pending |
GET | 待接入列表 |
/api/v1/agent/sessions/{id} |
GET | 会话详情 |
/api/v1/agent/sessions/{id}/accept |
POST | 坐席接手 |
/api/v1/agent/sessions/{id}/messages |
POST | 坐席发消息 |
/api/v1/agent/sessions/{id}/knowledge-recommend |
POST | 知识推荐 |
/api/v1/agent/sessions/{id}/business-assist |
POST | 业务辅助 |
/api/v1/agent/sessions/{id}/resolve |
POST | 标记解决 |
/api/v1/agent/sessions/{id}/solution |
POST | 方案沉淀 |
v0.3.0¶
发布日期:2026-07-02
主题:Langfuse LLM 可观测性 — 全链路 trace 可视化
新增功能¶
- 11 个 LLM 调用点标记 prompt name/version:覆盖意图识别、查询改写、知识生成、对话润色等全部 LLM 调用
recognize_intent_v1:意图识别query_rewrite_v1:查询改写knowledge_generate_v1:知识问答生成dialog_polish_v1:对话润色-
等 11 个 prompt 标记
-
trace 与 monitor 双写:Langfuse trace 与本地
Monitor同时记录,互为兜底 - Langfuse:可视化全链路、token/cost/latency 自动上报
-
Monitor:本地 trace 摘要,通过
/api/v1/monitor/traces查询 -
未配置自动降级 no-op:
LANGFUSE_ENABLED=False或凭据为空时,所有 Langfuse 调用降级为空操作,不影响主链路性能
配置¶
新增 Langfuse 配置项(详见 .env.example):
LANGFUSE_ENABLED=False # 留空或 False 时全部降级 no-op
LANGFUSE_PUBLIC_KEY= # 在 Langfuse Project Settings → API Keys 获取
LANGFUSE_SECRET_KEY=
LANGFUSE_HOST=https://cloud.langfuse.com
测试¶
- 新增 Langfuse 集成测试,覆盖正常上报与降级场景
降级触发条件
LANGFUSE_ENABLED=FalseLANGFUSE_PUBLIC_KEY或LANGFUSE_SECRET_KEY为空- Langfuse 服务连接超时(默认 3 秒)
v0.2.0¶
发布日期:2026-07-02
主题:流式首 Token 优化 — 用户感知等待从 7-8s 降至 <1s
新增功能¶
- HotQueryCache / ModelRouter / IntentCache 三层组合优化:
HotQueryCache:高频查询缓存,命中后首 Token <100ms,跳过全部编排ModelRouter:意图识别等轻量任务走小模型(成本约 1/10),主 LLM 仅用于生成-
IntentCache:同意图复用,避免重复意图识别 -
千问 qwen-turbo 替代豆包 lite:小模型默认改为千问,中文理解更优
SMALL_LLM_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1-
SMALL_LLM_MODEL=qwen-turbo -
意图识别快通道:闲聊/转人工等高频意图通过关键词命中跳过 LLM 意图识别,首 Token <200ms
-
非知识问答意图流式化:chitchat / business_query 等意图按句末标点切片流式吐出,而非等完整生成后单 token 输出
-
首 Token 耗时监控:新增
stream_first_token埋点,通过/api/v1/performance/metrics查询 avg/p95
性能提升¶
| 指标 | 优化前 | 优化后 | 提升幅度 |
|---|---|---|---|
| 首 Token 时间(知识问答) | ~3s | <1s | 67% ↓ |
| 首 Token 时间(闲聊快通道) | ~3s | <200ms | 93% ↓ |
| 首 Token 时间(缓存命中) | ~3s | <100ms | 97% ↓ |
| 同步端点 P95 | 7.94s | 2.27s | 71% ↓ |
测试¶
- 新增首 Token 时间、快通道流式、缓存命中测试
三层缓存协同
flowchart TD
A[请求] --> B{HotQueryCache 命中?}
B -- 是 --> C[直接返回, 首 Token <100ms]
B -- 否 --> D{IntentCache 命中?}
D -- 是 --> E[跳过意图识别]
D -- 否 --> F[ModelRouter 路由到小模型]
F --> G[小模型意图识别]
E --> H[混合检索 + 生成]
G --> H
H --> I[写入 HotQueryCache]
I --> J[返回结果]
v0.1.0¶
发布日期:2026-06
主题:初始版本 — 多 Agent 协同 + RAG 知识增强的智能客服系统
核心功能¶
- 多 Agent 协同架构:基于 LangGraph 的「1+5」架构
- 1 个调度 Agent(OrchestratorAgent):意图识别、路由分发、兜底聚合
- 5 个专业 Agent:知识检索(KnowledgeAgent)/ 业务查询(BusinessAgent)/ 情感分析(EmotionAgent)/ 工单处理(TicketAgent)/ 对话润色(DialogAgent)
-
LangGraph 不可用时自动降级同步编排
-
混合检索 + RAG:
- Query 改写 → 向量检索 + BM25 双路召回 → RRF 融合 → Reranker 重排序 → LLM 生成
- 相似度低于阈值不强行回答,避免幻觉
-
Recall@5 = 1.0,Hit Rate = 0.9333,幻觉率 = 0.0
-
人工转接闭环:
- 情绪敏感 / 连续失败 / 用户主动要求触发转接
- 生成
EscalationCard含转接原因、优先级、上下文摘要 -
工作时间段约束(
WORKING_HOURS_START/WORKING_HOURS_END) -
知识库治理:
- 文档入库流水线(PDF/Word/Markdown/HTML 解析)
- 质量校验(去重、术语、敏感词)
- 版本管理与回滚
-
全量/增量/实时三种更新机制
-
业务系统集成:
- 订单/会员/退换货/账户 API 适配器框架
- 身份校验、手机号脱敏、写操作二次确认
- mock / http 双模式,开箱即用
端点清单(v0.1.0)¶
| 模块 | 端点数 | 说明 |
|---|---|---|
| 对话 | 2 | /chat + /chat/stream |
| 知识库 | 9 | 入库/统计/文档管理/质量/版本/灰度 |
| 人工转接 | 3 | 方案录入/审核/入库 |
| 文档更新 | 4 | 全量/增量/实时/状态 |
| 工单挖掘 | 2 | 触发/状态 |
| 检索调优 | 3 | 查询/更新/重置 |
| 检索评测 | 3 | 运行/列表/详情 |
| 性能监控 | 3 | 指标/缓存/失效 |
| 可观测性 | 5 | 熔断/告警/健康/Token |
| 监控 | 5 | 概览/trace/agent/会话 |
| 运营 | 6 | 实验/看板/检查清单 |
| 健康检查 | 1 | 探活 |
| 网关 | 1 | 多渠道接入 |
测试¶
- 初始测试用例 640+ 个,覆盖核心链路与边界场景
文档¶
- 初始文档体系:快速开始、安装指南、配置说明、架构设计、使用教程
v0.1.0 性能指标(真实 LLM 验证)
| 指标 | 目标 | 实测 | 达标 |
|---|---|---|---|
| Recall@5 | ≥ 0.85 | 1.0 | ✅ |
| Hit Rate | ≥ 0.90 | 0.9333 | ✅ |
| 幻觉率 | ≤ 0.10 | 0.0 | ✅ |
| 独立解决率 | ≥ 60% | 80% | ✅ |
| 平均响应时间 | ≤ 3s | 2.27s | ✅ |
版本规划¶
下一版本 v0.5.0 规划(草案)
- 前端坐席工作台界面(消费 8 个 agent 端点)
- 知识库管理后台 UI
- 多语言支持(英文)
- Elasticsearch 全文检索集成