简历内容: AI Chatbot测试与优化:主导AI Chatbot测试流程设计,针对通用导购、单商品问答等主要场景设计测试问题集,制定并优化AI回答加权评分标准;分析不同版本模型测试得分及错误分布,与研发团队对接,反馈测试结果并商讨模型优化⽅向,显著提升相关性、可读性等核心指标准确率超5%
Resume content: AI chatbot testing and optimization: lead the design of AI chatbot testing process, design test question sets for major scenarios such as general shopping guide and single product Q&A, and formulate and optimize AI answer weighted scoring standards; Analyze the test scores and error distribution of different versions of the model, connect with the R&D team, feedback the test results and discuss the direction of model optimization, and significantly improve the accuracy of core indicators such as relevance and readability by more than 5%.
1. 现在用的数据都是seller chat的数据,上线之后用什么数据继续进行模型调试?如何获取这些数据?如何识别哪些数据是有用的?如何用这些数据进行调试? 2. 如何获取用户的反馈并利用这些反馈? 3. 在做这个chatbot的时候有没有看竞品的chatbot?有哪些竞品可以参考?(现在回过头去看怎么做会更好?)4. 也帮我看看现在的电商chatbot的设计,看看有没有什么启示
1. The data used now is the data of Seller Chat, what data will be used to continue model debugging after the launch? How do I get this data? How can I identify what data is useful? How can I debug with this data? 2. How do I get feedback from my users and leverage it? 3. Did you look at competing chatbots when making this chatbot? What are the competitors for reference? (Now going back and seeing how it would have been better?) )4. Also help me look at the design of the current e-commerce chatbot to see if there is any inspiration
📌 你做了什么?
📌 What did you do?
📌 面试回答示例
📌 Sample interview responses
“在 AI Chatbot 评测中,我负责维护测试问题集和评测文档,确保测试覆盖所有关键场景。我每周收集评测数据,并编写测试报告,以支持模型优化决策。”
"In AI Chatbot Reviews, I'm responsible for maintaining test question sets and evaluation documentation to ensure that the tests cover all key scenarios. I collect evaluation data on a weekly basis and write test reports to support model optimization decisions. ”
📌 你做了什么?
📌 What did you do?
📌 面试回答示例
📌 Sample interview responses
“我们建立了 AI 评测问题分类文档,涵盖意图理解错误、知识库召回问题、大模型幻觉等问题类型。我负责分析 Bad Case,结合 Prompt 设计和知识检索优化,为模型改进提供反馈。”
"We have built a triage document for AI evaluation questions, covering problem types such as intent misunderstanding, knowledge base recall issues, and large model hallucinations. I'm responsible for analyzing bad cases and providing feedback for model improvements, combined with prompt design and knowledge retrieval optimization. ”
[Weekly update] AI Shopping Assistant Tracker
📌 你做了什么?
📌 What did you do?
📌 面试回答示例
📌 Sample interview responses
“我负责 Bug 追踪与优化,每周对比前几轮评测数据,分析模型优化效果。我们建立了回溯机制,确保 AI 版本升级后,之前的 Bad Case 能够被修复。”
"I'm in charge of bug tracking and optimization, comparing the previous rounds of evaluation data every week to analyze the effectiveness of model optimization. We have established a backtracking mechanism to ensure that the previous bad cases can be fixed after the AI version is upgraded. ”
📌 你做了什么?
📌 What did you do?
📌 面试回答示例
📌 Sample interview responses
“我优化了 AI Chatbot 评测评分标准,涵盖信息准确性、意图匹配等多个维度。同时,我们迭代了人工评测机制,确保多轮评测结果的稳定性,减少标注误差。”
"I optimized the scoring criteria for the AI chatbot evaluation to cover multiple dimensions such as information accuracy and intent matching. At the same time, we have iterated the manual evaluation mechanism to ensure the stability of the results of multiple rounds of evaluation and reduce the labeling error. ”
在评测过程中,我们归类了 LLM 生成错误类型,并为每种错误提出优化方案:
During the evaluation, we categorized the LLM types of generating errors and proposed optimizations for each of them:
问题类别 Question category | 描述 description | 可能原因 Possible causes | 优化方案 Optimize the solution |
意图理解错误 Misunderstanding of intent | AI 误解用户需求,导致答非所问 AI misunderstands user needs and leads to incorrect answers | 语义解析失败,上下文建模不足 Semantic parsing fails, and context modeling is insufficient | 优化 Prompt 结构(添加示例,提高上下文关联) |
大模型推理能力不足 Insufficient inference ability of large models | AI 无法进行复杂逻辑推理 AI can't do complex logical reasoning | 训练数据不足,缺少思维链 Insufficient training data and lack of chain of thought | 引入 CoT(Chain of Thought) 增强推理能力 |
大模型幻觉 Large model hallucinations | AI 生成内容看似合理但完全错误 AI-generated content may seem plausible but completely wrong | LLM 置信度估计错误 LLM Confidence estimation error | 优化 RAG(知识检索增强),减少错误回答 |
缺失知识库召回 Missing knowledge base recall | AI 生成答案时缺少关键信息 Key information is missing when AI generates answers | 知识库索引问题 Knowledge base indexing issues | 优化向量搜索(FAISS),提高召回率 |
安全兜底问题 Safety is a problem | AI 生成不合规回答 AI-generated non-compliant responses | 缺乏拒答机制 Lack of a refusal mechanism | 设置 "我不知道" 兜底策略,避免幻觉 |
打标错误 Marking errors | 评测数据标注错误 The evaluation data is incorrectly labeled | 标注规则不明确 The labeling rules are not clear | 优化标注流程,提高一致性 Optimize the annotation process and improve consistency |
语言问题 Language issues | AI 语法错误,语言表达不通顺 AI has grammatical errors and incoherent language expressions | 训练数据问题 Training data issues | 多语言微调(Fine-tuning) Multilingual Fine-tuning |
📌 面试回答示例
📌 Sample interview responses
“在 AI 评测过程中,我们发现 LLM 主要存在意图理解错误、知识召回问题和大模型幻觉等问题。我参与构建 AI 评测分类体系,归类生成错误,并结合 Prompt 设计和知识检索优化,提升 LLM 生成质量。”
你的工作嵌入在 AI 评测全流程 中:
日期 | 任务 | 你的职责 |
周三 | 测试集准备 | 维护评测问题,确保测试覆盖关键场景 |
周四 | 运行 LLM 结果 | 记录 LLM 生成数据,发送给区域团队 |
周五 - 周一 | 本地团队标注 | 确保标注质量,降低人工误差 |
周二 | 回归测试 & 质量检查 | 评估 Bug 修复效果,分析 Bad Case |
周三 | 优化报告 & 反馈 | 编写评测报告,向开发团队反馈问题 |
📌 面试回答示例
“我负责 AI Chatbot 评测全流程,包括测试集管理、标注质量控制、回归测试、Bug 追踪等。我们每周对比 LLM 版本的优化效果,并迭代评测策略,确保 AI 生成质量持续提升。”
✅ 优化 AI 评测体系(建立问题分类,设定评分标准)。
✅ 推动模型优化(分析错误,提供改进建议)。
✅ Bug 追踪 & 解决方案落地(维护问题分类文档,与开发团队沟通)。
✅ 数据分析 & 回溯测试(每周评测 & 跟进新版本优化效果)。
📌 面试回答示例
“在 AI Chatbot 评测项目中,我主导 AI 评测体系优化,建立了标准化的评分体系,并对 Bad Case 进行分类归因。同时,我负责 Bug 追踪和回溯测试,确保模型优化后生成质量持续提升。”
✅ 回答要点:
“如果让我重新做一次这个项目,我会在几个方面做优化: 1️⃣ 在评测流程中引入 自动化评分 机制,减少人工误差,提高测试效率。 2️⃣ 在数据优化方面,引入 真实用户交互数据,构建更精准的评测集,提高泛化能力。 3️⃣ 在 Prompt 设计上,采用 A/B 测试框架,系统化评估不同 Prompt 对 AI 生成质量的影响。 4️⃣ 在知识检索优化(RAG)上,调整 向量搜索策略,提高知识召回的准确率。 5️⃣ 在 Bug 追踪上,推动 标准化的反馈流程,确保跨团队协作更加高效。
通过这些优化,我们可以让 AI Chatbot 的测试流程更加稳定,提高评测效率,并让 AI 在电商场景下的表现更加精准。”
根据你的描述,你的工作主要围绕以下几个方面:
任务 | 相关技术 |
评测 AI Chatbot 的回答质量 | Prompt Engineering、模型评测(Evaluation Metrics)、Fine-tuning 数据准备 |
设计 AI 评分标准(可读性、信息准确性等) | LLM 评测(LLM Evaluation)、自动化评测(Harness) |
发现 AI 低准确率的问题,并优化 | 数据质量管理、知识库优化(RAG)、Fine-tuning |
参与 SFT(监督微调,Supervised Fine-tuning)优化 | 任务微调(Fine-tuning)、数据清洗 |
研究 LLM 如何更好地进行商品导购 | RAG(知识检索增强)、Agent 设计 |
你的工作和华为的 提示词工程、知识存储(RAG)、任务微调(Fine-tuning)、智能体(Multi-Agent Systems) 方向高度相关,具体关联如下:
相似点:
华为的研究方向:
🟢 你的经验可以贡献的点:
“在我的 AI Assistant 评测项目中,我优化了 Prompt 结构,提高 LLM 在电商场景下的回答质量。例如,我们发现不同的 Prompt 结构(如直接问 vs 提供示例)会显著影响 AI 召回信息的准确性。我希望在华为的实习中深入研究 Prompt Engineering,探索如何优化 Prompt 设计,提升 LLM 在企业级应用中的表现。”
相似点:
华为的研究方向:
🟢 你的经验可以贡献的点:
“在 AI Assistant 评测项目中,我们发现 GPT 在知识库召回方面存在问题,尤其在 free gift 和 return 相关信息的检索上有偏差。因此,我们设计了两套知识库优化策略:一是改进知识检索召回率,二是自动补充缺失知识。我希望在华为的实习中深入研究 RAG,探索如何结合知识检索和大模型推理,提高 AI 在企业级应用中的知识利用能力。”
相似点:
华为的研究方向:
🟢 你的经验可以贡献的点:
“在 AI Assistant 评测项目中,我参与了 Fine-tuning 训练数据优化,我们建立了一个 800+ 高质量数据的训练集,并采用人工评测+自动评测相结合的方法改进 AI 生成效果。我希望在华为的实习中深入探索 Fine-tuning,特别是 LoRA 和 Active Learning 在优化 LLM 方面的应用。”
相似点:
华为的研究方向:
🟢 你的经验可以贡献的点:
“在 AI Assistant 评测项目中,我们研究了如何优化 AI Chatbot 的查询生成能力,提升 AI 在电商导购场景下的适配性。我认为这与 Multi-Agent Systems 的核心目标类似:如何让 AI 具备更好的自主决策能力。我希望在华为的实习中,探索 Multi-Agent 如何与 LLM 结合,提高 AI 在复杂任务中的决策能力。”
在会议中,你可以这样表达你的经验:
“在我的 AI Assistant 评测项目中,我主要负责 AI 回答质量的评测和优化,涉及 Prompt Engineering、知识存储(RAG)、Fine-tuning 训练数据优化等。我们发现大模型在知识召回、任务微调、查询优化等方面存在挑战,因此我们探索了如何通过 Prompt、知识检索和微调数据优化提升 LLM 性能。我希望在华为的实习中,能够结合我的经验,进一步研究 Prompt Engineering、RAG 和 Multi-Agent 技术的优化方法。”
这样,你的过往经验和华为的研究方向就能形成一个很好的匹配点!如果你需要更具体的面试准备或优化表达方式,我可以继续帮你完善!😊