NullSpace
NullSpace
博客
趣事
项目
论文
练习
联系
归档
Light
Dark
Automatic
RAG
「技术报告」- 基于LLM实现Rag重排序器——一份实用指南
1. 三种重排序策略的选择 Pointwise(评分制):为每个段落独立打分(1-10分),输出{id:score}格式 Listwise(排序制):直接输出排序结果,如 "id1>id3>id0" Pairwise(对比制):两两比较,成本最高(O(K²)) 决策:选择Pointwise,因其输出结构化、易优化、支持并行处理。 2. 生产环境面临的四大挑战 延迟高:输出token过多,单次调用耗时久 格式不稳定:LLM可能输出重复ID、缺失ID或格式错误 输入量大:40段×200token≈8000token,上下文窗口压力大 位置偏差:LLM对输入顺序敏感,易高估靠前段落的相关性 3. 优化策略一:减少输出Token(降延迟) 移除空格:空格是昂贵的token,改用紧凑JSON格式,减少28% token 阈值过滤:只输出≥5分的内容,低分省略,再降50%延迟 失败尝试:去掉"id"标记以进一步节省20% token,但导致模型混淆索引与分数,质量下降 效果:输出token减少显著降低端到端延迟。 4. 优化策略二:并行重排序(核心创新) 将K个候选段落分N批并行处理(如40段→4批×10段): 批次分配策略: 问题:连续切分会加剧位置偏差(第一批全是高分段) 解决方案:Round-robin轮询分配 B_j = {p_t | t mod N = j}
向量检索:服务、库、相关研究资源梳理
向量搜索系统
Jul 24, 2024
1 min read
Search Engine Web API
搜索引擎API
Last updated on Aug 17, 2024
1 min read
Qdrant+Ollama+LangChain 构建RAG应用简要Demo
基于向量数据库、Langchain构建RAG应用相关概念简介和代码实现Demo
Last updated on Apr 26, 2024
3 min read
LLM
,
AI
Cite
×