This is a bilingual snapshot page saved by the user at 2025-4-14 22:06 for https://docs.google.com/document/u/0/d/1OVpjnZSrNpbnqYAOxEdgiUnTMrQUS7bV1z5WQ4qCAsw/mobilebasic?tab=..., provided with bilingual support by Immersive Translate. Learn how to save?
实习项目整理  Internship program collation

深圳虾皮 AI Chatbot 评测项目  Shenzhen Shopee AI Chatbot Evaluation Project


简历内容:  AI Chatbot测试与优化:主导AI Chatbot测试流程设计,针对通用导购、单商品问答等主要场景设计测试问题集,制定并优化AI回答加权评分标准;分析不同版本模型测试得分及错误分布,与研发团队对接,反馈测试结果并商讨模型优化⽅向,显著提升相关性、可读性等核心指标准确率超5%
Resume content:  AI chatbot testing and optimization: lead the design of AI chatbot testing process, design test question sets for major scenarios such as general shopping guide and single product Q&A, and formulate and optimize AI answer weighted scoring standards; Analyze the test scores and error distribution of different versions of the model, connect with the R&D team, feedback the test results and discuss the direction of model optimization, and significantly improve the accuracy of core indicators such as relevance and readability by more than 5%.

1. 现在用的数据都是seller chat的数据,上线之后用什么数据继续进行模型调试?如何获取这些数据?如何识别哪些数据是有用的?如何用这些数据进行调试? 2. 如何获取用户的反馈并利用这些反馈? 3. 在做这个chatbot的时候有没有看竞品的chatbot?有哪些竞品可以参考?(现在回过头去看怎么做会更好?)4. 也帮我看看现在的电商chatbot的设计,看看有没有什么启示
1. The data used now is the data of Seller Chat, what data will be used to continue model debugging after the launch? How do I get this data? How can I identify what data is useful? How can I debug with this data? 2. How do I get feedback from my users and leverage it? 3. Did you look at competing chatbots when making this chatbot? What are the competitors for reference? (Now going back and seeing how it would have been better?) )4. Also help me look at the design of the current e-commerce chatbot to see if there is any inspiration

1. 项目背景  1. Project Background

🔹 目标  🔹 Target.

  • 构建 AI Chatbot 评测体系,优化 大模型(LLM)在电商导购场景下的表现
    Build an AI chatbot evaluation system to optimize the performance of the large model (LLM) in the e-commerce shopping guide scenario.
  • 提升 LLM 生成质量,包括单商品问答、通用导购场景的准确性、可读性和相关性
    Improve LLM the quality of generation, including the accuracy, readability, and relevance of single-product Q&A and general shopping guide scenarios.
  • 系统化 AI 评测流程,为 大模型版本迭代提供数据支持和优化反馈
    Systematic AI evaluation process to provide data support and optimization feedback for large model version iteration.

🔹 主要挑战  🔹 Key challenges:

  • 大模型生成错误多样化(意图理解错误、知识库召回失败、推理能力不足等)。
    Diversification of large model generation errors (wrong understanding of intent, failure of knowledge base recall, lack of reasoning ability, etc.).
  • 高效管理大规模评测数据(每周处理数百条测试数据,确保标注质量)。
    Efficiently manage large-scale evaluation data (processing hundreds of test data per week to ensure quality annotation).
  • 跨团队沟通成本高(与开发、运营、标注团队协作,推动 Bug 解决和模型优化)。
    High cost of cross-team communication (collaboration with development, operations, annotation teams to drive bug resolution and model optimization).

2. 你的核心职责  2. Your core responsibilities

(1) 维护 AI 评测体系  (1) Maintain an AI evaluation system

📌 你做了什么?
📌 What did you do?

  • 设计并维护 AI Chatbot 评测文档,记录每周测试问题、人工评测结果和模型表现数据
    Design and maintain AI chatbot evaluation documentation that records weekly test questions, human evaluation results, and model performance data.
  • 定期更新测试问题集,确保覆盖 LLM 生成潜在错误(幻觉、召回错误等)
    Regularly update the test question set to ensure that LLM potential errors (hallucinations, recall errors, etc.) are covered.
  • 编写 测试报告,提供评测数据支持,为 产品决策和模型优化 提供依据。
    Write test reports and provide evaluation data support to provide a basis for product decisions and model optimization .

📌 面试回答示例
📌 Sample interview responses

“在 AI Chatbot 评测中,我负责维护测试问题集和评测文档,确保测试覆盖所有关键场景。我每周收集评测数据,并编写测试报告,以支持模型优化决策。”
"In AI Chatbot Reviews, I'm responsible for maintaining test question sets and evaluation documentation to ensure that the tests cover all key scenarios. I collect evaluation data on a weekly basis and write test reports to support model optimization decisions. ”


(2) 评测数据分析 & 问题分类  (2) Evaluation data analysis > problem classification

📌 你做了什么?
📌 What did you do?

  • 归纳 Bad Case,分析 LLM 主要错误模式(意图理解、推理能力、知识库匹配等)。
    Summarize the Bad Case and analyze LLM the main error patterns (intent understanding, reasoning ability, knowledge base matching, etc.).
  • 维护 AI 评测问题分类文档,系统化整理 AI 生成错误,并定义优化方向。
    Maintain a document on the classification of AI evaluation questions, systematically sort out AI-generated errors, and define the direction of optimization.
  • 结合 Prompt Engineering / 知识检索优化(RAG),提出改进 AI 生成质量的方案
    Combined with Prompt Engineering / Knowledge Retrieval Optimization (RAG), a scheme to improve the quality of AI generation is proposed.

📌 面试回答示例
📌 Sample interview responses

“我们建立了 AI 评测问题分类文档,涵盖意图理解错误、知识库召回问题、大模型幻觉等问题类型。我负责分析 Bad Case,结合 Prompt 设计和知识检索优化,为模型改进提供反馈。”
"We have built a triage document for AI evaluation questions, covering problem types such as intent misunderstanding, knowledge base recall issues, and large model hallucinations. I'm responsible for analyzing bad cases and providing feedback for model improvements, combined with prompt design and knowledge retrieval optimization. ”

[Weekly update] AI Shopping Assistant Tracker


(3) 追踪 Bug & 评测回溯
(3) Bug tracking & review traceback

📌 你做了什么?
📌 What did you do?

  • 与开发团队协作,讨论 AI 生成 Bug 及其优化方案。
    Collaborate with the development team to discuss AI-generated bugs and their optimizations.
  • 记录 优化方案,并在后续版本测试中回溯问题是否解决(Regression Analysis)。
    Document the optimization plan and track back whether the problem is solved in the subsequent version test (Regression Analysis).
  • 通过 回归测试 评估 AI 版本迭代效果,确保 Bug 修复。
    Evaluate the effect of AI version iteration through regression testing to ensure that bugs are fixed.

📌 面试回答示例
📌 Sample interview responses

“我负责 Bug 追踪与优化,每周对比前几轮评测数据,分析模型优化效果。我们建立了回溯机制,确保 AI 版本升级后,之前的 Bad Case 能够被修复。”
"I'm in charge of bug tracking and optimization, comparing the previous rounds of evaluation data every week to analyze the effectiveness of model optimization. We have established a backtracking mechanism to ensure that the previous bad cases can be fixed after the AI version is upgraded. ”


(4) 评分标准优化 & 评测一致性  (4) Optimization of scoring criteria & evaluation consistency

📌 你做了什么?
📌 What did you do?

  • 设定 AI 评分标准信息准确性、可读性、意图匹配)。
    Set AI scoring criteria (information accuracy, readability, intent matching).
  • 确保 人工评测标准一致性,降低误差,提高模型评测的稳定性。
    Ensure the consistency of manual evaluation standards, reduce errors, and improve the stability of model evaluation.
  • 设计 评分体系迭代机制,适应模型版本升级带来的评测需求变化。
    The iterative mechanism of the scoring system was designed to adapt to the changes in evaluation requirements brought about by the upgrade of the model version.

📌 面试回答示例
📌 Sample interview responses

“我优化了 AI Chatbot 评测评分标准,涵盖信息准确性、意图匹配等多个维度。同时,我们迭代了人工评测机制,确保多轮评测结果的稳定性,减少标注误差。”
"I optimized the scoring criteria for the AI chatbot evaluation to cover multiple dimensions such as information accuracy and intent matching. At the same time, we have iterated the manual evaluation mechanism to ensure the stability of the results of multiple rounds of evaluation and reduce the labeling error. ”


3. AI 评测问题分类  3. Classification of AI assessment questions

在评测过程中,我们归类了 LLM 生成错误类型,并为每种错误提出优化方案:
During the evaluation, we categorized the LLM types of generating errors and proposed optimizations for each of them:

问题类别  Question category

描述  description

可能原因  Possible causes

优化方案  Optimize the solution

意图理解错误  Misunderstanding of intent

AI 误解用户需求,导致答非所问  AI misunderstands user needs and leads to incorrect answers

语义解析失败,上下文建模不足  Semantic parsing fails, and context modeling is insufficient

优化 Prompt 结构(添加示例,提高上下文关联)
Optimize the Prompt structure (add examples, improve contextuality).

大模型推理能力不足  Insufficient inference ability of large models

AI 无法进行复杂逻辑推理  AI can't do complex logical reasoning

训练数据不足,缺少思维链  Insufficient training data and lack of chain of thought

引入 CoT(Chain of Thought) 增强推理能力
Introduce CoT (Chain of Thought) to enhance reasoning ability

大模型幻觉  Large model hallucinations

AI 生成内容看似合理但完全错误  AI-generated content may seem plausible but completely wrong

LLM 置信度估计错误  LLM Confidence estimation error

优化 RAG(知识检索增强),减少错误回答
Optimize RAG (Knowledge Retrieval Enhancement) to reduce incorrect answers

缺失知识库召回  Missing knowledge base recall

AI 生成答案时缺少关键信息  Key information is missing when AI generates answers

知识库索引问题  Knowledge base indexing issues

优化向量搜索(FAISS),提高召回率
Optimized Vector Search (FAISS) to improve recall

安全兜底问题  Safety is a problem

AI 生成不合规回答  AI-generated non-compliant responses

缺乏拒答机制  Lack of a refusal mechanism

设置 "我不知道" 兜底策略,避免幻觉
Set up a "I don't know" strategy to avoid illusions

打标错误  Marking errors

评测数据标注错误  The evaluation data is incorrectly labeled

标注规则不明确  The labeling rules are not clear

优化标注流程,提高一致性  Optimize the annotation process and improve consistency

语言问题  Language issues

AI 语法错误,语言表达不通顺  AI has grammatical errors and incoherent language expressions

训练数据问题  Training data issues

多语言微调(Fine-tuning)  Multilingual Fine-tuning

📌 面试回答示例
📌 Sample interview responses

“在 AI 评测过程中,我们发现 LLM 主要存在意图理解错误、知识召回问题和大模型幻觉等问题。我参与构建 AI 评测分类体系,归类生成错误,并结合 Prompt 设计和知识检索优化,提升 LLM 生成质量。”


4. AI 评测工作流程

你的工作嵌入在 AI 评测全流程 中:

日期

任务

你的职责

周三

测试集准备

维护评测问题,确保测试覆盖关键场景

周四

运行 LLM 结果

记录 LLM 生成数据,发送给区域团队

周五 - 周一

本地团队标注

确保标注质量,降低人工误差

周二

回归测试 & 质量检查

评估 Bug 修复效果,分析 Bad Case

周三

优化报告 & 反馈

编写评测报告,向开发团队反馈问题

📌 面试回答示例

“我负责 AI Chatbot 评测全流程,包括测试集管理、标注质量控制、回归测试、Bug 追踪等。我们每周对比 LLM 版本的优化效果,并迭代评测策略,确保 AI 生成质量持续提升。”


5. 你的贡献总结

优化 AI 评测体系(建立问题分类,设定评分标准)。
推动模型优化(分析错误,提供改进建议)。
Bug 追踪 & 解决方案落地(维护问题分类文档,与开发团队沟通)。
数据分析 & 回溯测试(每周评测 & 跟进新版本优化效果)。

📌 面试回答示例

“在 AI Chatbot 评测项目中,我主导 AI 评测体系优化,建立了标准化的评分体系,并对 Bad Case 进行分类归因。同时,我负责 Bug 追踪和回溯测试,确保模型优化后生成质量持续提升。”


6. 面试应对策略

Q1: 你如何评测 AI Chatbot 质量?

✅ 回答要点:

  1. 设定 评分标准(准确性、可读性、意图理解等)。
  2. 人工测试 + 自动化评测 相结合,确保评测效率。
  3. 进行 Bug 追踪 & 回溯测试,推动 AI 质量提升。

“如果让我重新做一次这个项目,我会在几个方面做优化: 1️⃣ 在评测流程中引入 自动化评分 机制,减少人工误差,提高测试效率。 2️⃣ 在数据优化方面,引入 真实用户交互数据,构建更精准的评测集,提高泛化能力。 3️⃣ 在 Prompt 设计上,采用 A/B 测试框架,系统化评估不同 Prompt 对 AI 生成质量的影响。 4️⃣ 在知识检索优化(RAG)上,调整 向量搜索策略,提高知识召回的准确率。 5️⃣ 在 Bug 追踪上,推动 标准化的反馈流程,确保跨团队协作更加高效。

通过这些优化,我们可以让 AI Chatbot 的测试流程更加稳定,提高评测效率,并让 AI 在电商场景下的表现更加精准。”

1. 你的实习项目涉及的关键技术

根据你的描述,你的工作主要围绕以下几个方面:

任务

相关技术

评测 AI Chatbot 的回答质量

Prompt Engineering、模型评测(Evaluation Metrics)、Fine-tuning 数据准备

设计 AI 评分标准(可读性、信息准确性等)

LLM 评测(LLM Evaluation)、自动化评测(Harness)

发现 AI 低准确率的问题,并优化

数据质量管理、知识库优化(RAG)、Fine-tuning

参与 SFT(监督微调,Supervised Fine-tuning)优化

任务微调(Fine-tuning)、数据清洗

研究 LLM 如何更好地进行商品导购

RAG(知识检索增强)、Agent 设计


2. 你的项目与华为2012实验室应用技术研究(实习)的关联

你的工作和华为的 提示词工程、知识存储(RAG)、任务微调(Fine-tuning)、智能体(Multi-Agent Systems) 方向高度相关,具体关联如下:

(1) 你的项目 vs 提示词工程(Prompt Engineering)

相似点:

  • 你曾优化 AI 评测标准,分析不同 Prompt 对 AI 回答质量的影响
  • 你观察到 GPT 在 free gift 和 return 相关问题上的错误,这表明不同 Prompt 会影响 LLM 的召回和生成质量
  • 你曾手动优化 Prompt(比如修改 AI 回答的结构),这和 Prompt Engineering 目标一致

华为的研究方向:

  • 研究 Prompt 关键要素(指令、角色、知识、示例)
  • 设计优化 Prompt 结构,提高 LLM 生成质量

🟢 你的经验可以贡献的点

“在我的 AI Assistant 评测项目中,我优化了 Prompt 结构,提高 LLM 在电商场景下的回答质量。例如,我们发现不同的 Prompt 结构(如直接问 vs 提供示例)会显著影响 AI 召回信息的准确性。我希望在华为的实习中深入研究 Prompt Engineering,探索如何优化 Prompt 设计,提升 LLM 在企业级应用中的表现。”


(2) 你的项目 vs 知识存储(RAG, Retrieval-Augmented Generation)

相似点:

  • 你们发现 GPT 无法正确回答一些问题,比如 free gift、return,这说明知识库检索能力不足
  • 你们提出两套知识库优化流程
  1. 知识库召回问题(某些内容无法被检索到)
  2. 知识库扩展(没有存储相关知识)
  • 你们在 AI 评测中也涉及到如何让 GPT 知道哪些信息在知识库里,哪些不在,这和 RAG 技术方向一致。

华为的研究方向:

  • 研究 RAG 在大模型中的优化策略,提升 LLM 的知识存储和召回能力
  • 探索向量数据库(FAISS, Milvus)优化检索

🟢 你的经验可以贡献的点

“在 AI Assistant 评测项目中,我们发现 GPT 在知识库召回方面存在问题,尤其在 free gift 和 return 相关信息的检索上有偏差。因此,我们设计了两套知识库优化策略:一是改进知识检索召回率,二是自动补充缺失知识。我希望在华为的实习中深入研究 RAG,探索如何结合知识检索和大模型推理,提高 AI 在企业级应用中的知识利用能力。”


(3) 你的项目 vs 任务微调(Fine-tuning)

相似点:

  • 你的工作涉及 SFT(监督微调)优化,你参与:
  • 数据标注 & 质量评测
  • 训练数据优化(标注 800 个高质量问题)
  • 发现 Bad Case,并改进训练数据
  • 你们采用的方法和 Fine-tuning 数据处理流程 非常类似:
  • 发现 AI 在某些类型问题上的错误
  • 重新生成高质量训练数据
  • 使用人工标注+自动评测来优化数据质量

华为的研究方向:

  • 研究微调算法(如 LoRA、Adapter Tuning)优化 LLM
  • 结合 Active Learning,优化训练数据选择策略

🟢 你的经验可以贡献的点

“在 AI Assistant 评测项目中,我参与了 Fine-tuning 训练数据优化,我们建立了一个 800+ 高质量数据的训练集,并采用人工评测+自动评测相结合的方法改进 AI 生成效果。我希望在华为的实习中深入探索 Fine-tuning,特别是 LoRA 和 Active Learning 在优化 LLM 方面的应用。”


(4) 你的项目 vs 智能体(Multi-Agent Systems, MAS)

相似点:

  • 你的工作涉及 Chatbot 评测,其中LLM 需要结合多个信息源(知识库+PDP 数据+API)进行回答,这类似于 Multi-Agent 的工作方式。
  • 你们在 AI 评测中涉及智能搜索 Query 生成,这类似于AI Agent 规划问题(如何生成更优 Query 以优化检索)。
  • 你们设计了 多轮质检流程(人工标注+机器评测),这与多智能体系统协作的思想相似

华为的研究方向:

  • 研究 Multi-Agent 结构(如规划、记忆、反思、行动等关键要素)
  • 研究智能体如何与 LLM 结合,提高推理和决策能力

🟢 你的经验可以贡献的点

“在 AI Assistant 评测项目中,我们研究了如何优化 AI Chatbot 的查询生成能力,提升 AI 在电商导购场景下的适配性。我认为这与 Multi-Agent Systems 的核心目标类似:如何让 AI 具备更好的自主决策能力。我希望在华为的实习中,探索 Multi-Agent 如何与 LLM 结合,提高 AI 在复杂任务中的决策能力。”


3. 你的经验如何帮助你在华为实习中更快上手?

  1. 你熟悉 Prompt Engineering,知道如何优化 LLM 生成质量。
  2. 你有 知识检索(RAG)优化经验,理解 LLM 如何结合知识库进行回答。
  3. 你参与过 Fine-tuning 数据构建,理解数据质量对 LLM 训练的重要性。
  4. 你的 AI 评测经验 可以用于优化 LLM 评测流程(例如基于 Harness 进行自动评测)。
  5. 你了解 智能体与 LLM 的结合,可以探索 Multi-Agent Systems 在 AI 任务中的应用。

4. 你的面试/交流策略

在会议中,你可以这样表达你的经验:

“在我的 AI Assistant 评测项目中,我主要负责 AI 回答质量的评测和优化,涉及 Prompt Engineering、知识存储(RAG)、Fine-tuning 训练数据优化等。我们发现大模型在知识召回、任务微调、查询优化等方面存在挑战,因此我们探索了如何通过 Prompt、知识检索和微调数据优化提升 LLM 性能。我希望在华为的实习中,能够结合我的经验,进一步研究 Prompt Engineering、RAG 和 Multi-Agent 技术的优化方法。”

这样,你的过往经验和华为的研究方向就能形成一个很好的匹配点!如果你需要更具体的面试准备或优化表达方式,我可以继续帮你完善!😊