RAG

「技术报告」- 基于LLM实现Rag重排序器——一份实用指南

1. 三种重排序策略的选择 Pointwise（评分制）：为每个段落独立打分（1-10分），输出{id:score}格式 Listwise（排序制）：直接输出排序结果，如 "id1>id3>id0" Pairwise（对比制）：两两比较，成本最高（O(K²)）决策：选择Pointwise，因其输出结构化、易优化、支持并行处理。 2. 生产环境面临的四大挑战延迟高：输出token过多，单次调用耗时久格式不稳定：LLM可能输出重复ID、缺失ID或格式错误输入量大：40段×200token≈8000token，上下文窗口压力大位置偏差：LLM对输入顺序敏感，易高估靠前段落的相关性 3. 优化策略一：减少输出Token（降延迟）移除空格：空格是昂贵的token，改用紧凑JSON格式，减少28% token 阈值过滤：只输出≥5分的内容，低分省略，再降50%延迟失败尝试：去掉"id"标记以进一步节省20% token，但导致模型混淆索引与分数，质量下降效果：输出token减少显著降低端到端延迟。 4. 优化策略二：并行重排序（核心创新）将K个候选段落分N批并行处理（如40段→4批×10段）：批次分配策略：问题：连续切分会加剧位置偏差（第一批全是高分段）解决方案：Round-robin轮询分配 B_j = {p_t | t mod N = j}

向量检索：服务、库、相关研究资源梳理

向量搜索系统

Jul 24, 2024 1 min read

Search Engine Web API

搜索引擎API

Last updated on Aug 17, 2024 1 min read

Qdrant+Ollama+LangChain 构建RAG应用简要Demo

基于向量数据库、Langchain构建RAG应用相关概念简介和代码实现Demo

Last updated on Apr 26, 2024 3 min read LLM, AI