Elsevier

  《网络语义学杂志》


第 85 卷,2025 年 5 月,100853
Journal of Web Semantics


通过知识图谱进行实验:迈向改进的管理、可重复性和验证

https://doi.org/10.1016/j.websem.2024.100853  获取权利和内容

在创意共享许可下
  开放获取

  摘要


生成式大型语言模型(LLMs)通过实现快速、类似人类的文本生成而改变了人工智能,但它们面临着挑战,包括管理不准确信息生成。诸如提示工程、检索增强生成(RAG)以及结合特定领域的知识图谱(KGs)等策略旨在解决其问题。然而,在实现实验的管理、可重复性和验证的期望水平方面仍存在挑战,尤其是对于使用通过 Web API 的封闭访问LLMs的开发者来说,这使外部工具的集成变得复杂。为了应对这一挑战,我们正在探索一种软件架构,通过优先考虑灵活性和可追溯性来增强LLM工作流程,同时促进更准确和可解释的输出。我们描述了我们的方法,并提供了一个营养案例研究,展示了其将LLMs与 RAG 和 KGs 集成以实现更稳健人工智能解决方案的能力。

  关键词


生成式大型语言模型 知识图谱 检索增强生成 AI 中的可解释性和治理

  1. 引言


生成式大型语言模型(LLMs)近年来变得无处不在[1],几乎任何网络用户都可以自由访问。它们在以前所未有的规模和速度生成类似人类的文本方面具有革命性。将LLMs应用于看似所有知识领域和计算领域,让众人了解了当今新兴人工智能的能力和局限性。通过可访问的 Web API、沙盒或开源工具包等方式,轻松且经济高效地访问LLMs,使得一代开发者和研究人员能够将现代LLM-基于的人工智能集成到日常应用中。

尽管它们取得了成功,LLMs经常生成不准确或误导性的信息[2],当它们在没有适当治理的情况下大规模使用时,这尤其令人担忧。通常,这些与现实和逻辑推理的偏差发生,因为LLMs尽管对语言进行了大规模采样,但无法取代领域专家的知识和经验或人类的常识[3]。为了减轻这些“幻觉”,已经提出了各种提示工程技术和框架,包括思维链(CoT)[4];自洽性(SC)[5];验证链(CoVe)[6];思维树(ToT)[7]。补充这些提示策略,检索增强生成(RAG)[8]、[9]框架旨在通过提供更多来自语料库或领域知识库的任务特定信息来控制响应。另一方面,由于它们固有的语义结构,基于权威领域本体的知识图谱(KGs)是增强基于LLM解决方案的可靠性和可解释性的有希望的方法[10]。

本文提出两种互补途径。首先,我们认为迫切需要强大的工具和测试平台来探索和增强实验治理,以实现灵活性、可追溯性和可重复性。在本文的背景下,灵活性指的是支持一系列用例、模型配置和交互场景的能力,包括支持多样化的提示策略、不同的LLM架构、不同的数据输入和实验设置,同时保持易于修改。可追溯性指的是记录、监控和追踪使用LLMs从提供的数据(如提示、文件或结构化数据)进行的所有交互和实验的能力,包括在发送到模型之前应用的预处理步骤,如温度、重复惩罚和最大令牌计数等配置和参数;以及输出数据,如LLMs生成的响应,包括元数据如时间戳、交互上下文和使用的特定模型版本,使每个步骤都可以被追踪。 最后,可重复性的控制指的是在相同实验条件下重现相同结果的能力。在科学、技术和计算系统中,它指的是在重复使用相同方法、工具、配置和数据时,实验或交互的结果一致性。因此,LLM实验需要工具来重现给定实验的精确条件,并评估LLMs通过日志数据和重复执行改变其响应的程度,突出那些响应无法可靠重复的情况。

在第二种方式中,我们强调需要支持提供更多具有可追溯性、准确性、验证性和可解释性响应的工具。我们认为,将权威知识图谱(KGs)和本体论相结合可以显著提高验证响应、识别来源和改进解释能力。通过利用结构化、语义丰富的知识表示,这些资源为交叉验证语言模型的输出提供了一个稳健的框架。[11]

作为我们探索的一部分,我们描述了一种旨在促进LLMs的探索及其与 RAG 系统和知识图谱等外部组件集成的有前景的架构。我们通过一个营养案例研究来展示该架构的有前景的功能,该架构建立在 ChatBS [12]之上,它是LLMs的探索性工具。

  2. 相关工作


本文强调为LLM实验量身定制的工具和测试平台环境的必要性。这些环境应包含基本的功能和特性,以确保增强的灵活性、强大的可追溯性和对可重复性的有效控制。此外,我们主张整合机制以优化和验证LLMs:检索增强生成(RAG)和知识图谱(KG)生成的响应。

几个检索增强生成(RAG)框架旨在减轻LLM的幻觉以及存在过时知识或缺失信息的情况。[8]、[9]。知识图谱(KGs)被提出作为结构化的外部信息源来丰富LLMs。在这方面,Pons 等人[13]使用 KGs 来增强LLMs以实现零样本实体消歧(ED),利用 KG 中实体类别的层次表示来逐步修剪候选空间以及实体的描述,以丰富输入提示并添加额外的知识。Clay 和 Jiménez-Ruiz[14]断言,KGs 通常用作外部知识,可能为这些挑战提供解决方案。这项工作提出了三个建议,利用知识图谱来增强LLM生成。首先,动态知识图谱嵌入和推荐可以允许整合新信息并选择与响应生成相关的知识。其次,将具有情感值的实体作为附加特征存储可能提供与用户输入更情感上对齐的知识。 第三,通过叙事气泡整合角色信息将保持角色一致性,并引入易于融入新信息的结构。

关于使用知识图谱(KG)来验证LLM的响应,GraphEval [15]是一个基于知识图谱(KG)结构表示信息的幻觉评估框架。GraphEval 的方法识别出 KG 中易发生幻觉的具体三元组,从而为LLM的响应中幻觉发生的位置提供更多见解。Kau 等人[11]认为,通过结合知识图谱(KG),可以有效地缓解幻觉、错误信息或信息缺失问题,因为知识图谱以结构化格式组织信息,并以灵活和可解释的方式捕捉实体之间的关系。为了支持这一论点,介绍了几个通过联合使用 KG 和LLMs实现性能提升的研究,特别是在知识驱动领域。结合 KG 和LLMs的模型通常显示出更好的知识语义理解,从而使其能够更好地执行实体类型等任务。

  1. 下载:下载高分辨率图片(562KB)

  2. 下载:下载全尺寸图片


图 1. ChatBS-NexGen 的一个有前景的系统流程架构。


3. 一种重新设计LLM实验景观的架构


ChatBS [12] 是由伦斯勒理工学院的无边界世界联盟在 2022 年引入的一种架构和系统。最初设想为 LLMs 的事实核查器,ChatBS 迅速演变为一个探索性沙盒,加速实验并促进最终用户对 LLMs 的整体使用。ChatBS-NexGen(图 1)是我们提出的增强型架构,使用 LLMs 进行受控实验时,它允许用户优先考虑灵活性、可追溯性和可重复性方面,同时提供使用 RAG 系统和知识图谱(KGs)改进、验证和分析 LLM 响应的机制。根据我们的经验,我们认为我们作为 ChatBS-NexGen 展示的核心功能对于未来基于 LLM 的 AI 系统的稳健管理是基本的。


3.1. 提高对LLM实验的管理


ChatBS-NexGen 架构允许用户无需编程知识即可交互式地自定义和组合高级提示策略。通过直观的界面,用户可以轻松配置提示策略(少样本、思维链(CoT)、验证链(CoVE));可以动态分配槽位来告知系统和用户提示;并输入分配给这些槽位的值。还包括设置模型温度、提示重提交次数以及从不同的LLMs中选择等附加选项,这些功能共同促进了 ChatBS-NexGen 环境在LLM实验中推广的灵活性特征。这种灵活性是该平台的基础,使其能够适应各种实验需求和用例。

提示设计器和控制器模块通过结合系统提示、用户提示和输入数据集,根据所选提示策略生成提示实例。它还管理这些实例化提示的提交和重新提交到各种LLMs,协调与每个模型的交互。一旦从LLMs收到响应,该模块将组织并准备它们进入下一阶段,确保整个过程中的工作流程顺畅高效。

整个过程被记录下来以确保实验的可追溯性。对于每个LLM响应,日志与关键元数据相关联,包括(1)时间戳 - 记录响应生成的确切时间;(2)提示数据 - 捕获触发响应的输入提示或查询;(3)模型版本 - 记录使用的LLM的具体版本或配置;(4)响应元数据 - 提交次数、延迟、响应长度;(5)实验参数,如温度、最大令牌数和其他超参数;以及(6)外部集成:跟踪与外部工具(如检索增强生成(RAG)或知识图谱(KG))的交互,如果适用。

这两个模块增强了我们探索沙盒的灵活性和可追溯性,同时为建立可重复性控制奠定了基础。


3.2. 适应 RAG 和 KG 增强的LLM实验


总体而言,评估模块旨在通过将LLM的响应中的主要实体与领域知识图谱或开放网络连接起来,以适应验证、基准测试和专家分析。我们的实验知识图谱平台是 Whyis [16],这是一个具有动态代理交互的下一代溯源感知黑板架构。评估模块包括实体识别子模块和利用 Whyis 的高级功能构建标记实体图的子模块,从而能够比较多个LLMs之间的响应以及来自不同重提交和响应验证的单个LLM生成的响应。这些子模块旨在确保LLM响应可追溯,提高透明度和对解释的支持,并为用户提供一致且可验证的与知识图谱链接的LLM响应。最后,ChatBS-NexGen 可以以 RDF 格式生成验证和比较结果。


3.3. 营养案例研究


我们使用包含 100 个医疗项目患者数据的集合并在一个食品和营养领域的使用场景中,对我们的架构进行了实验。在我们的测试场景中,一个营养研究小组对LLM生成的健康项目参与者的饮食建议进行了评估。目标是评估LLM生成的建议的适用性,考虑到个人因素,如性别、年龄、性别、体重、健康指标、慢性疾病诊断,以及饮食限制和偏好。

1) 在此场景的典型测试运行中,用户(营养研究组成员)通过 ChatBS-NexGen 用户界面输入以下信息并选择了数据源:

  • 提示策略:用户在“思维链(CoT)”、其他策略(如“少样本学习”、“验证链(CoVe)”中选择了“思维链(CoT)”

  • LLMs:实验中使用的LLMs - 例如,GPT-4o mini 和 Llama 3.1-8B

  • 提示重提交次数:例如,对同一 LLMs 进行 10 次重提交;

  • 知识图谱链接:此链接可以是端点或 Whyis 链接。在本例中,我们使用了公共 FoodKG 端点。 1

  • 系统提示:您是一名医疗助手,将回应用户{name},{age}岁,{gender},该用户是医疗项目的受益人。根据{diagnosis}的诊断,考虑以下近期数据:身高:{height},体重:{weight},体质指数:{bodyMassIndex},糖化血红蛋白:glycatedH,血压:{bloodPressure},高密度脂蛋白:{hdl},低密度脂蛋白:{ldl},弗明翰评分:{scoreF},腰围:{waistC}。同时考虑食物偏好:{preferences};以及过敏:{allergies}。

  • 用户提示:我需要一些建议,在健身房锻炼前吃哪些食物可以提神和补充能量。

  • 数据文件,其中包含根据上述 System_Prompt 和 User_prompt 中的槽位值。

2) 提示设计器和控制器:根据提交的用户信息,ChatBS-NexGen 执行提示设计器子模块,并实例化 100 个提示以提交给选定的 GPT-4o mini 和 Llama 3 API。例如,为特定患者 ANONYMOUS098(一位 53 岁的糖尿病患者,素食主义者,无过敏史)生成了一个提示实例:

您是一名医疗保健助理,将回复用户 ANONYMOUS098,53 岁,女性,是医疗保健计划的受益者。根据糖尿病的诊断,考虑以下饮食指南:近期身高:170.4 厘米,体重:103.7 公斤,体质指数:35.7,糖化血红蛋白:8.4,血压:120/80 毫米汞柱,高密度脂蛋白:58.9,低密度脂蛋白:109.0,弗明翰评分:12.0,腰围:88 厘米。同时考虑食物偏好:纯素食;以及过敏原:无。

接下来,提交控制器子模块将每个实例化的提示提交(并重新提交 10 次)到所有选定的LLMs,接收它们的响应,并将它们传递到评估步骤。例如,对于上述描述的患者 ANONYMOUS098,Llama 3.1-8B 在第一次提交中给出了以下建议:

结果 1:[MetaLlama3.18BInstruct] 根据您的饮食偏好和限制,我建议一些轻盈且能提升能量的食物,非常适合运动前补充能量:1. 香蕉加杏仁奶:这是一款易于消化且能提供持续能量的经典组合。选择成熟的香蕉和未加糖且富含维生素 D 的杏仁奶。2. 鳄梨吐司:全麦吐司上铺有捣碎的鳄梨、盐和胡椒,是一种令人满意且饱腹感强的选择。寻找素食友好的面包选项。3. 水果燕麦粥:钢切燕麦或燕麦片与植物奶一起煮,上面撒上您喜欢的水果(如浆果、切片香蕉或切碎的苹果),提供持久的复杂碳水化合物。4. 能量球:混合燕麦片、坚果酱(如花生酱或杏仁酱)和蜂蜜或枫糖浆,制作成一口大小的能量球。这些无需烘焙的小吃易于制作和携带。5. 混合水果碗:将您喜欢的果实、菠菜和植物奶搅拌,然后撒上格兰诺拉麦片、坚果或种子以增加口感。选择含糖量低且富含纤维的碗。6. 全麦饼干配鹰嘴豆泥:将鹰嘴豆泥涂抹在全麦饼干上,享受一份高蛋白、高纤维的满足小吃。7. 椰子水:这种天然电解质饮料有助于补充体液,提供提神醒脑的效果。8. 黑巧克力:享用一小块黑巧克力(至少含 70%可可),提升心情并增加能量。只需注意分量大小!9. 野餐混合果仁:坚果、种子和干果的混合零食,方便携带,易于随时随地享用。寻找无糖、素食友好的选项。10. 绿色果汁:用柠檬汁和苹果醋汁榨新鲜绿叶蔬菜,如羽衣甘蓝、菠菜或羽衣甘蓝,制成营养丰富、易于消化的饮料。记得在锻炼前后和锻炼期间多喝水,保持水分。目标是在锻炼前 30-60 分钟吃零食,以便消化并达到最佳能量水平。享受你的锻炼

3) 响应评估:ChatBS-NexGen 工作流程可以采用 RAG 风格的增强,使用数据源和知识图谱来验证响应。首先,ChatBS-NexGen 识别 Llama-3.1 响应中提到的食品名称。接下来,ChatBS-NextGen 将每个食品名称链接到 FoodKG [17] 和我们的 WhatToMake 本体。表 1 展示了在 Llama3.1 响应对 ANONYMOUS098 的识别中,34 个食品名称的列表,以及哪些食品被链接到 FoodKG(24 种食品)和相应的血糖指数(GI)。例如,“HONEY”在 FoodKG 中被发现,其血糖指数为 GI = 60。

ChatBS-NexGen 可以利用与 FoodKG 和本体之间的这种关联,便于领域专家对LLMs的响应进行验证、分析和比较。


表 1. Llama3.1-8B 推荐的与 FoodKG 中相应成分和血糖指数(GI)相关的 ANONYMOUS098 患者的食物。

  推荐食品  食品知识图谱.成分名称GI
  杏仁奶  杏仁奶30
  苹果醋  苹果醋5
  苹果  苹果
  鳄梨  鳄梨10
  香蕉  香蕉48
  浆果
  椰子水  椰子水
  黑巧克力  黑巧克力23
  干果  干果
  能量球
  水果  水果
  格兰诺拉
  绿色果汁
  蜂蜜  蜂蜜60
  鹰嘴豆泥  鹰嘴豆泥25
  羽衣甘蓝  羽衣甘蓝
  柠檬汁  柠檬汁20
  枫糖浆  枫糖浆65
  坚果黄油  坚果黄油
  坚果
  燕麦  燕麦40
  花生酱  花生酱
  胡椒  胡椒
  植物奶
  即食燕麦  即食燕麦
    0
  种子
  冰沙碗  冰沙碗
  菠菜  菠菜5
  钢切燕麦
  混合坚果  混合坚果
    
  全麦饼干
  全麦吐司

突出分析,由 ChatBS-NexGen 和 FoodKG 利用包括:

  1. 下载:下载高清图片(372KB)

  2. 下载:下载全尺寸图片


图 2. 由LLMs推荐的具有高血糖指数的食物图(GI 50):Llama3.1-8B vs. GPT-4o Mini。


  • 验证推荐使用知识图谱和本体:由于 FoodKG 和 WhatToMake 本体编码食谱和营养信息,因此可以根据其血糖指数(GI)验证任何食物,从而提供有助于营养专业人员评估LLM推荐是否适合特定健康状况(例如糖尿病)的信息。在这个包含 100 个患者数据的实验中,我们将 100 个系统提示实例提交给LLMs GPT-4o mini 和 Llama,并获得了 200 个响应(每个各 100 个LLM)。表 2 展示了分析响应后提取的一些统计数据。总的来说,LLMs向 100 名患者推荐了 483 种不同的食物,其中 178 种(36.8%)可以通过 FoodKG 进行验证。考虑到 30 名糖尿病患者的总体情况,LLMs向患者推荐了 260 种不同的食物,其中 123 种(47.3%)可以通过 FoodKG 进行验证。 此外,我们还遇到了向糖尿病患者推荐 10 种高 GI 食物的建议:糙米(GI 50)、饼干(GI 80)、蜂蜜(GI 60)、奇异果(GI 50)、芒果(GI 56)、枫糖浆(GI 65)、菠萝(GI 66)、爆米花(GI 55)、米饼(GI 85)和西瓜(GI 75)。

  • 比较 KG 链接的响应 - ChatBS-NexGen 能够比较由不同的LLMs生成的响应,例如 Llama-3.1 和 GPT-4o mini。在本案例研究中,观察到 Llama-3.1 推荐的特定食品的 FoodKG 覆盖率高于 GPT4o-mini 推荐的食品覆盖率(对所有患者而言,42%比 39%,对糖尿病患者而言,56%比 48%)。关于推荐给糖尿病患者的血糖指数高的食品,两个LLMs都建议了六个不同的项目。图 2 以图表形式展示了每个LLM(-Llama3.1 和 GPT4o mini)推荐的血糖指数(GI)高的食品( 50)。边注释了分别推荐该食品的糖尿病患者的数量。例如,Llama-3.1 向 10 名糖尿病患者推荐了“蜂蜜”,对应于 33%的糖尿病患者,而 GPT4o-mini 向 9 名糖尿病患者推荐了“菠萝”,对应于 30%的糖尿病患者。

  • 比较 KG 链接的内部LLM响应 - ChatBS-NexGen 还可以比较来自同一LLM的多个响应,例如通过重复提交提示生成的十个 GPT-4o mini 响应。此功能可以计算 GPT-4o 的忠诚度指数,通过分析响应的一致性,例如在十个响应中提到的食物的变化。在本案例研究中,我们通过计算 Jaccard 系数,分析了 GPT-4o mini 为每位 100 位患者提供的十个响应,该系数衡量了所有响应对之间推荐食物列表的相似性。例如,以下显示了两个推荐食物列表,分别来自 GPT-4o mini 对 ANONYMOUS098 患者的响应,具体来自提示重新提交 1 和 3。 提交 1-匿名 098-GPT4o-mini = [“杏仁黄油”,“杏仁奶”,“苹果”,“鳄梨”,“香蕉”,“浆果”,“胡萝卜”,“奇亚籽布丁”,“奇亚籽”,“椰子酸奶”,“黄瓜”,“毛豆”,“能量球”,“水果沙拉”,“水果”,“格兰诺拉麦片”,“鹰嘴豆泥”,“枫糖浆”,“燕麦”,“燕麦粥”,“花生酱”,“梨”,“植物蛋白粉”,“米饼”,“切片香蕉”,“冰沙”,“菠菜”,“香草提取物”,“蔬菜条”,“核桃”,“水”,“全麦面包”,“全麦吐司”] 提交 3-匿名 098-GPT4o-mini = [“杏仁黄油”,“杏仁”,“苹果”,“鳄梨”,“香蕉冰沙”,“香蕉”,“彩椒条”,“浆果”,“胡萝卜条”,“奇亚籽布丁”,“奇亚籽”,“黄瓜片”,“自制能量球”,“鹰嘴豆泥”,“混合坚果和种子”,“坚果黄油”,“燕麦”,“燕麦粥”,“南瓜籽”,“菠菜”,“甜叶菊”,“向日葵籽”,“无糖杏仁奶”,“核桃”,“全麦米饼”] 对于这两组食物列表,雅可比系数为 0.2608,表明两个响应中 26%的推荐食物是相同的。 我们扩展了此分析,计算了 GPT-4o mini 和 Llama3.1-8B 的所有 10 个响应的相似系数。GPT-4o mini 的全局 Jaccard 相似性指数为 0.05,意味着只有 5%的食物在所有针对同一患者的响应中共享。对于 Llama3.1-8B,全局 Jaccard 相似性指数略低至 0.044,表明建议的变异性相似。图 3、图 4 分别展示了从 GPT-4o mini 和 Llama3.1-8B 的每一对响应计算出的 Jaccard 系数的热图。在两个LLMs中,结果显示相似度低或变异性高,表明在响应之间一致地重复建议存在重大挑战。


表 2. 所有患者及 30 例糖尿病患者特定案例的食品推荐分析。

  描述Llama3.1-8B  GPT-4o 迷你  总计%
  所有患者(100)

独特的食物推荐
315308483
  食品知识图谱的覆盖范围13512217836.8%
  糖尿病患者(30)

独特的食物推荐
172164260
  食品知识图谱的覆盖范围978012347.3%

食物的 GI 值为 0#50
6. 6108.3%

  1. 下载:下载高清图片(325KB)

  2. 下载:下载全尺寸图片


图 3. 表示 GPT-4o mini 中每对响应之间相似度水平(Jaccard 系数)的热图


  1. 下载:下载高清图片(334KB)

  2. 下载:下载全尺寸图片


图 4. 表示 Llama3.1-8B 每个响应对之间的相似度水平(Jaccard 系数)的热图。


4. 探索知识图谱:局限性、研究挑战和提出的解决方案


知识图谱在应用领域的观察局限性:在指定应用领域内使用知识图谱(KG)揭示了局限性。一个重大问题是数据的完整性不足。例如,虽然 KG 包含某些食品项目,但许多项目完全缺失或缺乏关键属性,如血糖指数(GI)值。这种数据覆盖范围的差距限制了 KG 在全面分析中的应用。另一个局限性是针对特定领域的查询制定。虽然在这方面当前用例没有直接挑战,但在更通用或结构较松散的场景中,设计查询以从 KG 中提取相关数据可能会遇到重大困难。这些局限性强调了在数据全面性和用户友好的、基于本体的 KG 查询生成机制方面取得进步的必要性。

研究知识图谱中的研究问题和挑战:从观察到的局限性中产生了几个研究问题。首先,“如何丰富 KG 以包括跨多个领域的全面和权威数据?”因为许多 KG 缺乏关键属性或是不完整,这限制了它们在详细和可靠分析中的应用。其次,采用标准化和权威的本体对于增强跨不同系统的互操作性至关重要。遵循标准化框架的本体可以弥合数据兼容性方面的差距,并促进各种数据集和领域之间的无缝集成。另一个关键挑战是解决 KG 中有限的来源,这使数据来源的验证变得复杂。来源对于确保 KG 中信息的可靠性至关重要,尤其是在准确性和可追溯性至关重要的领域。未来的研究必须专注于开发将详细来源元数据嵌入 KG 的方法,并展示来源元数据在提高可靠性和实用性方面的应用。 最后,第四个问题是如何改进知识图谱的查询机制,以简化用户对特定领域数据的检索。

主张与支持证据:案例研究支持一个关键主张:扩展架构对基于知识图谱的LLMs实验的实用性。这一主张通过在医疗保健项目中的实际场景中使用 ChatBS-NexGen 原型来评估LLM饮食建议在应对患者健康状况方面的充分性而得到证实。在医疗专家进行的LLMs即席实验中,观察到饮食建议包括不适合糖尿病患者的食物。原型展示了将 KG 集成到结构化框架中以管理LLM实验工作流程的潜在益处。通过向两个LLMs提交了 10 次重提的 100 个提示,可以识别出不适当的建议和响应中的高变异性。所提出的架构旨在从当前的手动实验状态过渡到更健壮的LLM实验测试平台。通过利用基于 KG 的方法,该架构承诺在处理LLM响应方面实现增强的自动化和一致性。


5. 结论与未来方向


我们相信在不断发展的 AI 领域中,知识图谱有着广泛的应用机会,探索架构和框架对于新兴领域至关重要。我们的 ChatBS-NexGen 架构通过提供模块化和参数化、多模型支持、与结构化知识的集成以及一个用于自动评估LLMs之间和内部的专用模块,在交互、管理和评估LLM响应方面提出了改进。所提出的架构通过广泛的日志记录确保实验可追溯性和可重复性控制。

我们看到了许多实现这一愿景的方向,包括支持多模态,通过更复杂输入和输出丰富实验;整合自动提示策略;通过集成外部工具(如具有高级解释能力(多级和因果)的可解释人工智能(XAI)框架)来演进评估支持;整合逻辑一致性验证器和对抗性场景模拟器;动态集成用于上下文评估的多样化指标(例如,事实性、相关性、连贯性);整合专注于安全验证和偏差缓解的组件。


CRediT 作者贡献声明


约翰·S·埃里克森:写作 - 审稿与编辑,写作 - 原创草稿,软件,构思。恩里克·桑托斯:写作 - 审稿与编辑,软件,构思。弗拉迪亚·皮涅罗:写作 - 审稿与编辑,写作 - 原创草稿,方法论,数据整理,构思。杰米·P·麦库斯科:软件,构思。黛博拉·L·麦圭尼斯:写作 - 审稿与编辑,项目管理,资金获取,构思。


利益冲突声明


作者声明,他们没有已知可能影响本文所报告工作的任何潜在财务利益或个人关系。

  致谢


这项工作部分由美国国立精神健康研究所“RCADS 数据收集措施支持”项目资助,项目编号 75N95022C00018-0-9999-1,DARPA 环境驱动概念学习(ECOLE)计划,项目编号 HR00112390059,以及伦斯勒的 Tetherless World Constellation 资助。第三作者得到 FUNCAP-CE-Brazil 的支持。

  数据可用性


使用的数据公开可用,并在手稿中引用。

References

Cited by (0)

1
2
3
This lower limit for the GI was an arbitrary choice to illustrate validations to be performed on the LLMs’ responses.