tcb@breakable
提示调优作为用户固有特征推断机制
摘要
大型语言模型(LLMs)在推荐系统中展现出显著潜力,通过其广泛的世界知识和卓越的推理能力赋能用户画像。然而,LLMs面临诸如指令遵守不稳定、模态差距和高推理延迟等挑战,导致文本噪声,限制了其在推荐系统中的有效性。为应对这些挑战,我们提出 UserIP-Tuning,利用提示调优推断用户画像。它将用户画像与行为序列之间的因果关系整合到LLMs的提示中,并采用期望最大化推断嵌入的潜在画像,通过固定提示模板最小化文本噪声。此外,一个画像量化码本通过将画像嵌入分类为协作 ID 来弥合模态差距,这些 ID 预先存储以供在线部署,从而提高时间效率并减少内存使用。在四个公开数据集上的实验表明,UserIP-Tuning 优于现有最先进的推荐算法。额外的测试和案例研究证实了其有效性、鲁棒性和可迁移性。
因果推断;推荐系统;大型语言模型;用户画像建模
2024††
版权:acmcopyright††
会议:确保从您的权利确认电子邮件中输入正确的会议标题(会议缩写‘XX’)。; printacmref=true††
信息系统 推荐系统
1. 引言
推荐系统根据用户的历史记录和偏好提供建议(罗等人, 2023; 李等人, 2023b; 侯等人, 2023; 罗等人, 2023),帮助管理信息过载并提升平台性能。然而,由于隐私问题或这些档案的抽象性质,这些系统通常缺乏用户的潜在档案——即用户行为背后的潜在动机(周等人, 2022; 吴等人, 2020)。例如,家庭背景和职业信息经常缺失或难以量化。例如,一项调查(周等人, 2022)显示,只有 40%的 Facebook 用户公开职业细节。没有这些档案,推荐功能无法完全代表用户。而准确推断潜在档案可以显著提高推荐精度。
凭借卓越的推理能力和广泛的世界知识(Touvron 等,2023a,b;Izacard 等,2023;De Santis 等,2024),大型语言模型(LLMs)为基于可观察行为推断用户潜在特征提供了一种有前景的解决方案。例如,通过分析用户购买的奢侈品(图 1),LLMs 可以推断出“职业成功”和“社会地位”等可量化的潜在特征,这些特征可用作用户特征,以提高推荐系统的性能。
已经做出了显著的努力来利用LLMs的推理能力增强推荐系统(周等人,2022;谢等人,2022;闵等人,2022;王等人,2023)。例如,KAR(席等人,2023)策略性地设计提示以激活LLMs的剖面推理能力。推理出的文本随后使用 BERT(肯顿和图特诺娃,2019)进行嵌入并在线部署。同样,LFM(王等人,2023)采用LLMs从互动历史中生成基于文本的用户剖面,进而为LLM基础的推荐任务提供上下文。然而,这些方法遇到了不容忽视的理论和实践挑战:
-
1)扭曲的因果关系:LLMs是自回归的,其中先前的词语是后续词语的原因(Lester 等人,2021 年;谢等人,2022 年)。由于推荐任务传统上将用户画像视为互动的原因(见图 2)。当转换为自回归序列时,潜在画像应该先于并影响互动。然而,现有方法颠倒了这一顺序。 -
2)文本噪声:LLM的不稳定指令跟随问题(Taori 等,2023;Touvron 等,2023b;Dubois 等,2024)及其链式思维(CoT)推理(Wei 等,2022)通常会使推断的潜在剖面充满文本噪声(Cai 等,2023;Tan 等,2023),(见图 1)。将目标剖面定位在可调提示中可以帮助聚焦和精炼推断的剖面信息。 -
3)模态差距:语言模型输出中嵌入的复杂语法和语义往往过于繁琐,以至于推荐系统难以有效学习,这可能损害性能(张等人,2023;包等人,2023)。设计模块以过滤和提取这些嵌入中的有用协作信号至关重要。 -
4)推理效率低下:数十亿参数的LLMs挑战在线推荐系统的低延迟需求。大型文本嵌入也增加了计算负载。探索将这些嵌入转换为更简单、稀疏的特征,如“性别”或“种族”,可能会有所帮助。
受到所概述挑战的驱动以及受近期软提示调优技术进展的启发(Lester 等人., 2021; Li 等人., 2023d),我们提出了用户固有档案推理与提示调优(UserIP-Tuning)框架。该框架轻量、可控且易于与任何推荐模型集成。它由三个关键子模块组成:UserIP 推理、UserIP 量化以及预存储的 UserIP 特征库。
为应对前两个挑战,用户潜在特征推断模块将用户潜在画像视为提示模板内的可训练软标记。该提示旨在从LLMs中提取准确的用户行为序列。软标记通过期望最大化(EM)算法进行推断,该算法基于冻结的LLM的分布,最大化这些序列的似然度。对于剩余的两个挑战,用户潜在特征量化模块通过可训练的码本将训练后的软标记转换为稀疏特征 ID。这些 ID 共享相似的语义信息,功能类似于传统的稀疏特征,并存储在潜在特征库中以便在线部署。在四个数据集上的实验证实了 UserIP-Tuning 框架的有效性。主要贡献总结如下:
-
• UserIP-inference 模块是首个基于LLM软提示的用户画像推断算法,能够提升画像推断的因果性并避免文本噪声。 -
• 所提出的用户 IP 调优框架高效且模型无关。它可以在保证推理效率的前提下提升推荐模型的性能。 -
• 在公共数据集和工业数据集上进行了大量实验,以验证 UserIP-Tuning 在有效性、效率、泛化性和可解释性方面的优势。
2. 框架
本节介绍了 UserIP-Tuning 框架的技术细节。首先,描述了问题设定和预备知识。
2.1. 初步准备与设置
学习推荐模型可以被视为学习一个映射函数 ,该函数将一组描述性特征集 映射到推荐目标 ,如下公式所示:
(1) |
通常,描述性特征集 ,包括可观察特征如性别或年龄( ),是从日志系统信息中提取的。然而,由于隐私问题或其抽象性质,不可观察的用户潜在特征( ),如家庭背景或个人特质,往往是缺失的。
与 相同, 是用户行为的原因。这种因果关系在图2中展示。一个富裕家庭(潜在剖面)通常更愿意购买奢侈品,而一个音乐爱好者(潜在剖面)可能会收藏许多乐器。从数学上讲,我们将 表示为一组可训练的软标记 ,其中每个标记代表一个独特的潜在剖面变量。然后,这个问题就变成了一个推理问题,即寻找最佳的潜在变量集以最大化观察到的用户行为的似然性。
(2) |
在这个公式中, 是一个将用户的潜在特征映射到观察到的用户行为概率的函数。不幸的是,在推荐领域,并没有现成的 可以在未确切看到 的情况下使用。然而,LLMs 可以作为 的替代模型,这得益于其丰富的世界知识和卓越的推理能力。我们设计了 UserIP-Tuning 框架,以在语义空间中执行这一潜在特征推断任务,同时解决引言中提到的四个挑战。
2.2. 框架概述
用户 IP 调优过程如图3所示。它包括一个用户 IP 推理模块、一个用户 IP 量化模块和一个预存储的用户 IP 特征库。推理模块将用户的潜在画像视为软提示,并通过最大化真实用户交互序列的似然度来推断它们。然后,这些潜在画像通过一个可训练的量化模块被哈希成离散的协同 ID,该模块由推荐损失监督。最后,这些 ID 被存储在离线特征库中,用于下游推荐任务。
2.3. 用户 IP 推断模块
为解决引言部分提到的扭曲的因果关系和文本噪声问题,我们设计了用户 IP 推断模块。该模块在LLMs的语义空间中,利用任务特定的软提示和因果掩码,对图2中描述的潜在特征推断问题进行建模。
首先,图2中展示的概率图被重新组织,以适应图4(上)所示的LLMs的自回归结构,其中左部分被视为提示,右部分被视为真实输出。为了减少文本噪声,只有紧邻目标潜在轮廓名称( )的标记( )被视为软提示。此外,这些软提示只能受其各自潜在轮廓名称的影响。
文本提示被设计用来满足上述因果关系,包含三个组成部分:(1)上下文标记 ,用于指示我们感兴趣的潜在特征;(2)可调节的软潜在特征标记 ,以便最大化用户互动行为的可能性;(3)特定任务描述 ,例如目标项目的用户点击历史预测或评论预测。提示的模板以公式形式呈现:
(3) |
其中 通常表示连接的潜在剖面名称 和软潜在剖面标记 。例如,图3及以下提示模板展示了提示,其中 是“这位用户的爱好是”, 是“他的背景是”。通过将每个剖面名称放在其对应的潜在剖面标记之前,LLMs被迫更加可控地推断潜在剖面,因为LLMs在 NLP 任务中训练考虑语言上下文。
此外,为确保软提示只能受其各自潜在剖面名称的影响,在模型训练中使用了特定的因果掩码,如图4(下)所示。通过这种因果掩码,潜在剖面变量 和 只能关注其各自的剖面名称和交互,而对其他无关词汇视而不见。
基于上述的提示和因果掩码,LLMs将生成用户交互序列的概率分布。
然后我们计算在该分布下我们真实用户交互序列的可能性。通过使用梯度下降算法最大化可能性,反向推断第 个用户潜在轮廓 的软标记嵌入,同时冻结剩余的LLMs参数。每个推断出的嵌入代表一种相应的轮廓类型,例如收入背景轮廓中的高收入,这对于捕捉用户偏好非常重要。
LLMs旨在预测用户 的交互历史,同时更新潜在配置文件变量 。我们构建语言建模损失(交叉熵损失),利用真实的用户交互历史 和生成的结果 。具体来说,在推断多个潜在配置文件变量后,微调的目标是最小化 :
(4) | ||||
为从理论上证明我们框架的有效性,我们首先假设LLMs的预训练数据分布 能够适当地近似真实数据分布 。
假设 2.1。
假设 ,以及 ( — , ,…, , , ,…, ) 对于关系 ,其中用户潜在特征变量 是独立同分布的。
这个假设在现有的LLMs文献中是常见的,这表明LLMs识别了语言的真实分布。此外,还得到了以下命题,
命题 2.2。
随着用户潜在特征类别数 的增加,预测器 ( — , ,…, , , ,…, )是最佳预测器,生成的交互历史 更接近真实交互历史,推断的用户潜在特征变量更准确,有利于推荐任务。证明。见附录A.1
从命题来看,随着用户潜在特征类别的增加,所推断的用户潜在特征变量被选为令人满意的推理结果。
然后,将学习到的潜在剖面变量输入到用户 IP 量化模块中,以消除超出范围的噪声。
2.4. 用户 IP 量化模块
上一节中推断的潜在轮廓嵌入的一个问题是,它们位于LLMs的语义空间内。这些嵌入包含丰富的语义信息,适用于 NLP 任务,但对于推荐任务来说可能过于详细。因为后一项任务只需要协同信号来训练轮廓表示。此外,LLMs的嵌入维度对于推荐任务来说过于庞大,难以进行高效的在线推理。
为了弥合 NLP 任务与推荐任务之间的模态差距,并进一步提高模型效率,设计了用户 IP 量化模块,用于从潜在剖面嵌入中提取轻量级协同 ID。
我们为每个推断的潜在剖面分配一个协作量化码本 。对于每个码本,我们将码的大小设置为 。 码的嵌入表示为 。
码本学习过程与传统的 CV/NLP 模型有所不同(van den Oord 等., 2017; Rajput 等., 2023; 郑等., 2023),其中仅使用语义距离作为量化的监督。在 UserIP 中,嵌入用于在线推荐,其中建模协作是关键目标。因此,UserIP 的嵌入相似性也应基于协作信号(例如,参见啤酒与尿布案例,即使它们在语义空间中不同,在协作空间中却是接近的)。
为了整合协作目标,我们设计了以下损失函数(公式5)。损失函数的第一项将码本拉近潜在轮廓空间。 表示停止梯度运算符, 是损失权重参数。第一部分最小化簇中心向量 与潜在轮廓变量 之间的距离。第二部分约束轮廓嵌入的更新速度。第二项使用代理推荐模型损失训练潜在轮廓嵌入。 表示选定的码本嵌入(公式6), 代表物品嵌入, 代表其他用户轮廓。它直接使用码本嵌入作为推荐任务的输入,并通过直通梯度估计使用推荐损失更新潜在轮廓嵌入(与 一起)。
(5) | ||||
训练后,通过查找与上一节推断出的潜在用户画像最接近的码本嵌入的索引,来推断用户的潜在画像 ID。
(6) |
潜在剖面训练的总损失定义如下,其中 是损失权重。
(7) |
2.5. 用户 IP 特征库与下游推荐模型
训练大型文本嵌入和软标记显著增加了计算负载,导致在线推荐器的推理效率低下。
为解决推理效率低下的问题,在训练 UserIP-Tuning 后,将使用特征库来存储每个用户的潜在特征索引 ,…, 。在在线推理阶段,下游推荐模型可以直接在预存储的特征库中搜索用户的潜在特征索引,并添加到用户的特征字段中,而无需重新训练 UserIP-Tuning: 。这显著减少了训练时间,大幅提高了在线推理效率,并实现了低延迟。
为加强特征场信息,将用户的潜在特征指标添加到传统的推荐模型中,例如 DCN (王等., 2017)、DeepFM (郭等., 2017),以增强用户建模特征并提升协同信号,如图3所示。本模块中使用推荐模型 DCN (王等., 2017)来输出推荐预测结果 。在此,对于给定的用户-物品对,用户的潜在特征指标与用户 ID 和物品 ID 相连接,作为推荐模型的输入特征场,单一目标损失函数定义如下:
(8) |
(9) |
其中 代表传统推荐模型, 表示用户 是否与物品 互动的真实二进制标签, 是来自 UserIP-Tuning 的互动预测概率, 是用户-物品样本的数量。值得注意的是, 由用户评论评分决定:当物品 的评论评分大于 3 时, 等于 1,否则 为 0。
2.6. 优化过程
优化过程在算法1中进行了描述。具体而言,在每次迭代中,随机抽取一小批用户-物品交互记录和配置文件名称(第 1-2 行);然后,对于每个数据点,根据语言损失 更新配置文件嵌入的梯度(第 3-4 行);接下来,计算每个推断出的配置文件嵌入的最近索引 ,并根据量化损失 更新码本的梯度并累积配置文件嵌入梯度(第 5 行);最后,更新配置文件嵌入和码本(第 6-7 行)。
3. 实验
在本节中,使用多个数据集进行了广泛的实验,以检验 UserIP-Tuning 的有效性。我们首先将 UserIP-Tuning 与先进基准进行比较,然后进行模型组件、超参数的研究。解决了以下研究问题:
-
• RQ1:UserIP-Tuning 在推荐任务中的表现与先进基线相比如何? -
• RQ2:UserIP-Tuning 在不同下游推荐系统中的性能如何? -
• RQ3:不同配置文件中矢量量化的码本大小是否会影响 UserIP-Tuning 的性能?量化模块如何影响 UserIP-Tuning? -
• RQ4:UserIP-Tuning 的潜在剖面变量在实践中是否可解释和可控? -
• RQ5:UserIP-Tuning 在工业应用场景中的表现如何?UserIP-Tuning 在推理上的效率如何?
3.1. 数据集
我们的模型在四个真实世界的开放数据集上进行评估,包括亚马逊服装鞋类和珠宝、电影和电视、视频游戏以及 Yelp。为简便起见,我们使用服装、电影和游戏来表示前三个数据集。下表介绍了这些数据集的概览信息(见表1)。
表 1. 数据集统计。
数据 | 服装 | 电影 | 游戏 | Yelp |
---|---|---|---|---|
# 交互作用 | 179,223 | 441,783 | 19,927 | 1,293,247 |
# 用户 | 38,764 | 7,506 | 2,490 | 27,147 |
# 项目 | 22,919 | 7,360 | 8,912 | 20,266 |
# 稀疏性( ) |
99.98 | 99.20 | 99.91 | 99.76 |
亚马逊服装、电影和游戏 1
这是一个真实世界的产品评论数据集,包含各种子集类别。我们使用服装、电影和游戏子数据集,这些数据集记录了用户在 1 到 5 的评分范围内的评论和评分。数据集中的每个用户都与爱好和背景信息相关联,即用户的服装品牌偏好、电影、游戏类别偏好以及物品消费水平。
Yelp222https://www.yelp.com/dataset/documentation/main
这是一个餐厅评价数据集,记录了餐厅属性和用户的评价以及 5 星评分。每位用户都有爱好和背景信息,即用户对餐厅类别的偏好和餐厅消费水平。
3.2. 评估指标
为验证 UserIP-Tuning 推荐效果的有效性,我们在四个数据集上进行了二分类(即点击率预测)。分类实验通过 AUC 和 Logloss 进行评估,其中 AUC 略有提高或 Logloss 略有降低(例如,0.001)可以代表我们模型性能的显著改进(郭等人., 2017)。此外,我们过滤了交互次数少于四次的冷启动用户和物品,并使用 3 作为阈值将评论分数转换为二进制标签。评论分数大于 3 的标记为“正面”( = 1),其余的标记为“负面”( = 0)。此外,根据(李等人., 2023a)和(阎等人., 2014),UserIP-Tuning 的 AUC 和 Logloss 相对于最佳基线的相对改进计算如下:
(10) |
(11) |
3.3. 基线
本小节介绍了推荐任务的基线方法。UserIP-Tuning 的模型性能与三种类型的推荐基线进行了比较:浅层算法、先进的深度学习算法以及基于LLMs的推荐方法。首先,浅层算法主要包括二阶和高阶特征交互以及注意力方法,包括 FFM (胡安等., 2016)、AFM (肖等., 2017)。先进的深度学习算法基于深度交叉特征和因子分解机网络,包括 FiBiNet (黄等., 2019)、DIFM (卢等., 2021)、AFN (程等., 2020)、DeepFM (郭等., 2017)、AutoInt (宋等., 2019)、ONN (杨等., 2020)、PNN (曲等., 2016)、DCN (王等., 2017)、DCNv2 (王等., 2021)。我们还比较了我们的模型与基于LLMs的方法,如 KAR (席等.).,2023),PEPLER(李等。,2023d),和 ReLLa(林等。,2024),事实和推理知识增强推荐方法。
3.4. 实施细节
我们从 Huggingface3 选择了 Llama2-7B
作为 UserIP-Tuning 中LLMs的骨干。我们使用 Python 3.9 和 PyTorch 2.1.0 实现了所有比较方法。遵循前人工作(李等., 2023d; 廖等., 2023),实验中将训练集、验证集和测试集按 8:1:1 划分。基准测试的超参数默认设置以获得其最佳性能,并使用 Adam 优化器。Llama2-7B 中的嵌入大小为 4096,批量大小为 8。我们使用 AdamW 优化 UserIP-Tuning,并将批量大小设置为 128。在训练过程中,我们冻结LLMs的权重。学习率设置为 0.001,潜在配置文件嵌入大小为 4096。此外,爱好码本的数量设置为 4,背景码本的数量为 3。在下游推荐器 DCN 中,网络层数为 3,嵌入维度为 8,dropout 率为 0.2,MLP 嵌入维度为(16,16),我们使用物品 ID 和用户 ID 作为显式特征字段。损失权重为 =0.001, =0.001, =0.001。我们使用一块 NVIDIA H800 80GB GPU。
3.5. 整体性能比较(RQ1)
为回答研究问题 1,将 UserIP-Tuning 与其他先进推荐算法进行了比较。总体性能如表2所示,其中最佳结果以粗体显示,次佳结果以下划线标出。
从表中我们可以观察到:1) 所提出的方法 UserIP-Tuning 显著超越了所有基线方法。在 Clothing、Movies、Games 和 Yelp 上,AUC 相对于最佳基准方法的相对改进值分别约为 4.55%、0.53%、3.28%和 1.19%;Logloss 相对于最佳基线的相对改进值分别约为 3.82%、0.35%、6.30%和 0.29%。UserIP-Tuning 的模型性能表明,推断出的用户潜在特征变量捕捉了用户画像。AUC 的相对性能改进基本上大于 Logloss,这意味着 UserIP-Tuning 增强了推荐精度并捕捉了用户偏好。2) 浅层传统基准方法 FFM、AFM 在四个真实数据集上取得了最差的预测结果。它们的预测基于训练阶段的用户-id 和物品-id 特征。这一评估结果说明,利用浅层特征交互可能会损害推荐效率。3) 深度学习基线方法如 PNN、DCN 表现优于传统算法,因为它们捕捉了更多多样性和协同信息。 然而,先进的深度学习方法仍然不如 UserIP-Tuning,因为 UserIP-Tuning 集成了用户画像变量和协同指数信号,有效提升了其捕捉用户偏好和互动信息的能力。4)基于LLMs的方法,如 KAR、PEPLER、Rella,取得了比大多数深度学习基准更高的结果,因为它们利用了用户偏好的推理知识和物品的事实知识。但是,UserIP-Tuning 可以学习用户的内在画像并捕捉用户偏好,因此,UserIP-Tuning 更为优越。
表 3. 用户爱好与背景潜在特征检索
模型组件 | 服装 | 电影 | ||
AUC | 对数损失 | AUC | 对数损失 | |
用户 IP-调优无 VQ | 0.6201 | 0.5577 | 0.7966 | 0.4636 |
用户 IP 调优 | 0.6269 | 0.5126 | 0.8184 | 0.4566 |
模型组件 | 游戏 | Yelp | ||
AUC | 对数损失 | AUC | 对数损失 | |
用户 IP 调优(不含 VQ) | 0.7340 | 0.8429 | 0.7277 | 0.5511 |
用户 IP 调优 | 0.7393 | 0.7285 | 0.7314 | 0.5558 |
表 4. 从 DCN 到其他推荐模型的迁移性研究
功能性 | 模型 | 服装 | 电影 | 游戏 | Yelp | ||||
AUC | 对数损失 | AUC | 对数损失 | AUC | 对数损失 | AUC | 对数损失 | ||
训练代理 | 用户 IP-DCN | 0.6269 | 0.5126 | 0.8184 | 0.4566 | 0.7393 | 0.7285 | 0.7314 | 0.5558 |
传输至 PNN | PNN | 0.6088 | 0.5874 | 0.8154 | 0.4570 | 0.7178 | 0.7874 | 0.7287 | 0.5574 |
用户 IP-PNN | 0.6137 | 0.5383 | 0.8159 | 0.4566 | 0.7208 | 0.8076 | 0.7284 | 0.5578 | |
转移至 ONN | ONN | 0.6094 | 0.5903 | 0.8121 | 0.4598 | 0.7223 | 0.8658 | 0.7253 | 0.5598 |
用户 IP-ONN | 0.6140 | 0.5021 | 0.8098 | 0.4626 | 0.7289 | 0.8395 | 0.7246 | 0.5613 | |
转移到 DCNv2 | DCNv2 | 0.6148 | 0.5848 | 0.8134 | 0.4643 | 0.7263 | 0.7991 | 0.7237 | 0.5704 |
用户 IP-DCNv2 | 0.6263 | 0.5125 | 0.8180 | 0.4544 | 0.7324 | 0.8625 | 0.7308 | 0.5569 |
3.6. 可迁移性研究(RQ2)
这部分研究 UserIP-Tuning 的可迁移性。具体而言,我们探讨使用 UserIP-Tuning 训练的用户画像指标是否可以应用于其他下游模型 [ ],并进一步检验我们模型的一般化迁移能力。
用户 IP-Tuning 中的用户画像指标被用于训练如 PNN(Qu 等., 2016)、ONN(Yang 等., 2020)和 DCNv2(Wang 等., 2021)等推荐器,并在四个数据集上进行实验。结果展示在表4中,其中“UserIP-Tuning-PNN”表示将 UserIP-Tuning 中的相应指标特征添加到“PNN”推荐器中,类似地,也评估了“UserIP-Tuning-ONN”和“UserIP-Tuning-DCNv2”的性能。从表中可以看出,结合 PNN(或 ONN、DCNv2)的 UserIP-Tuning 性能优于原始推荐器 PNN(或 ONN、DCNv2)。这一现象表明,用户潜在画像变量及相应指标可以增强多个推荐器的性能。此外,UserIP-Tuning 的泛化迁移能力在不同下游推荐器中得到了验证。
3.7. 超参数与消融研究(RQ3)
在本小节中,为了检验 UserIP-Tuning 的重要超参数,我们在四个数据集上系统地改变了 VQ 模块中的配置码本大小 。
结果证明,随着配置文件码本大小的增加,模型性能变差。如图5所示,随着爱好配置文件码本大小的扩展,AUC 降低,Logloss 增加。被划分到过度冗余簇的用户配置文件指标变得分散,无法捕捉到准确的用户配置文件特征。
此外,我们将用户背景配置文件码本大小 从 3 变化到 81,实验结果如图6所示。值得注意的是,当 等于 3 时,AUC 达到 73.931%,Logloss 降低至 0.72851。这些发现表明,当 较小时,UserIP-Tuning 能实现更优的性能。拥有较少的索引簇对学习用户画像和提高推荐准确性是有益的。此外,VQ 模块的有效性得到了验证,表3展示了消融研究的结果。当从 UserIP-Tuning 中移除 VQ 模块时,潜在画像变量 直接输入到下游推荐模型中,模型性能劣于 UserIP-Tuning。
图 6. 亚马逊视频游戏背景配置文件码本大小超参数。
3.8. 案例研究(RQ4)
3.8.1. 可解释性案例分析
本小节对用户潜在特征变量进行案例分析。我们随机选择一个用户的潜在特征变量,以检索在LLMs的语义空间中的聚类词及其相应的嵌入向量,结果总结于表5中。
表 5. 用户爱好与背景潜在特征检索
用户 ID | 业余潜在变量检索 |
---|---|
255 | [哥谭市;蝙蝠侠;光谱;毒蛇] |
136 | [凡人,魔法,峡谷,扩展包] |
用户标识 | 背景潜在变量检索 |
255 | [XBOX; 英雄联盟;_WR; 射击] |
136 | [创世纪,荷马,僵尸,无论如何] |
我们可以观察到,用户“255”喜欢如“蝙蝠侠”、“光谱”英雄和“哥谭”城市的超级英雄视频游戏。他的背景检索与凡人和魔法游戏背景相关。用户“136”喜欢 LOL: WR(英雄联盟:激斗峡谷)和射击游戏。此外,他的背景检索词显示,他使用由 Genesis 游戏系统制造的家庭视频游戏机,并玩僵尸或 AnyWay 冒险游戏。该现象考察了相应的推断用户画像在实践中是可解释和有用的。在附录3.8中,对用户潜在画像变量的案例研究进行了探讨,并显示我们的方法解决了文本噪声问题。
3.8.2. 文本噪声案例分析
我们在亚马逊视频游戏数据集中随机选择七名用户,以调查用户爱好档案变量与推断文本之间的文本噪声关系。在训练 UserIP-Tuning 之前,我们获取了随机生成的用户爱好档案向量。计算用户爱好档案向量与推断句子“该用户喜欢哥谭潜行射击动作游戏”中每个标记之间的注意力权重值。我们将这些权重归一化,范围从 0 到 1。在图7(a)中,我们观察到文本噪声“该用户”具有更高的权重值。相比之下,在左图中,由于软嵌入是随机初始化的,推断的用户档案在训练前的权重值较低。用户爱好档案与相应文本(“哥谭”、“潜行”、“射击”、“动作”)之间的关系不明显。经过软提示调优训练后,我们看到权重显著增加,如图7(b)中深蓝色所示,表明关系增强。训练后,文本噪声“该用户”的权重明显降低,呈现为浅蓝色。
此外,我们检查了用户背景资料中的文本噪声存在情况。同样地,我们从亚马逊视频游戏数据集中随机选取了六名用户,并计算了他们用户爱好资料变量与推断文本之间的注意力权重。在训练 UserIP-Tuning 之前,用户的背景资料变量是随机生成的。图7(c)所示的注意力权重主要集中在文本噪声上,尤其是像“该用户的消费水平是”这样的短语。然而,经过训练后,与文本噪声相关的权重减少,而与关键信息对应的权重显著增加,在可视化中呈现深蓝色。因此,文本噪声问题得到了极大缓解。
(a)训练前业余爱好配置文件的文本噪声关系
(b)训练后的业余爱好配置文件的文本噪声关系
(c)训练前背景剖面的文本噪声关系
(d) 训练后背景轮廓的文本噪声关系
图 7. 用户爱好和背景资料变量与游戏数据集中推理文本之间的文本噪音关系。
3.9. 工业应用研究(RQ5)
在本小节中,我们考察了 UserIP-Tuning 在从华为平台收集的大规模工业数据集上的模型性能和推理时间。该数据集记录了七天内的用户行为数据,包括用户交互行为(例如,用户点击的物品列表)、物品原始属性(例如,物品标题)和上下文特征(例如,时间)等。
表 6. 华为平台上的推理时间
Model | 推理时间(秒) | AUC |
---|---|---|
DCN | 0.93 | 0.76394 |
KAR + DCN | 4.78 | 0.78663 |
用户 IP-调优 + DCN | 1.21 | 0.79972 |
4. 相关工作
本节简要介绍了关于基于LLMs的用户画像推断在推荐系统中的先前研究。近年来,LLMs在上下文学习能力方面取得了显著成就。现有研究集中于利用LLMs隐式推断与任务相关的用户画像信息。
在情境学习领域,谢等人(2022)首先通过预训练的大语言模型(LLMs)设计了一个潜在的文档级用户配置文件变量,以预测连贯的下一个标记。大语言模型(LLMs)在预训练数据分布和任务特定数据分布为隐马尔可夫模型时隐式执行推理。闵等人(2022)设计了一种新的少样本学习方法,其中大语言模型(LLMs)经过元训练,并依赖于训练示例来恢复相关任务并进行预测推理。王等人(2023)提出了一种在大语言模型(LLMs)中估计潜在用户配置文件并从训练数据中选择最优示范的算法。研究人员构建了贝叶斯最优分类器来推断任务相关主题。陈等人(2022)研究了大语言模型(LLMs)中具有高突发性的偏斜 Zipfian 数据分布,以推断涌现的情境学习行为。李等人(2023c)证明大语言模型(LLMs)可以在具有独立同分布动态数据的传统线性回归任务上应用近最优算法。据我们所知,我们是第一个研究大语言模型(LLMs)在深度推荐系统中的推理的。
5. 结论
我们提出了一种基于LLMs的新型潜在剖面推断模型,UserIP-Tuning,通过寻找用户潜在剖面变量和轻量级索引来增强推荐性能和训练效率。考虑了潜在剖面与互动历史之间的因果关系,并设计了一种新颖的 UserIP 量化模块,对用户潜在剖面嵌入进行分类,输出用户最近的剖面索引,从而从这些嵌入中提取有用的协作信号。该方法解决了基于LLMs的推荐协作问题,消除了文本噪声和超出范围的结果。重要的是,UserIP-Tuning 的训练和推理能力得到了显著提升。我们在四个真实数据集上实证验证了 UserIP-Tuning 的有效性。未来,我们将探索更多的工业应用。
参考文献
- (1)
-
鲍等人(2023)
鲍克勤,张机制,张洋,王文杰,冯福利,何向楠。2023。TALLRec:一种有效且高效的调优框架,用于对齐大型语言模型与推荐系统。在第 17 届 ACM 推荐系统会议(RecSys ’23)论文集中。美国纽约州纽约市,1007–1014。https://doi.org/10.1145/3604915.3608857 -
蔡等人(2023)
蔡宇哲,毛绍光,吴文山,王泽华,梁耀波,葛涛,吴晨飞,尤王,宋婷,夏艳,等 2023。低代码llm:基于llms的可视化编程。arXiv 预印本 arXiv:2304.08103 (2023)。 -
陈等(2022)
陈斯迪芬妮,亚当·桑托罗,安德鲁·兰皮恩,王简,阿迪蒂亚·辛格,皮埃尔·里士满,詹姆斯·麦克莱兰,和菲利克斯·希尔。2022。数据分布特性驱动变换器中的涌现性上下文学习。《神经信息处理系统进展》35(2022),18878–18891。 -
程等人(2020)
程伟宇,沈艳艳,黄麟鹏。2020。自适应分解网络:学习自适应阶特征交互。在 AAAI 人工智能会议论文集,第 34 卷。3609–3616。 -
德桑蒂斯等(2024)
恩里科·德·桑蒂斯,亚历西奥·马蒂诺,安东内洛·里齐. 2024. 人类与机器智能:通过复杂系统理论评估自然语言生成模型. IEEE 模式分析与机器智能汇刊 (2024), 1–18. https://doi.org/10.1109/TPAMI.2024.3358168 -
杜布瓦等人(2024)
Yann Dubois, 陈雪晨李, Rohan Taori, 张天一, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy S Liang, 和 Tatsunori B Hashimoto. 2024. Alpacafarm: 一个用于从人类反馈中学习方法模拟框架. 神经信息处理系统进展 36 (2024). -
郭等人(2017)
郭慧锋,唐瑞明,叶云明,李正国,何修强。2017。DeepFM:一种基于因子分解机的神经网络用于 CTR 预测(IJCAI’17)。AAAI 出版社,1725–1731。 -
侯等(2023)
侯宇鹏,张俊杰,林子涵,卢宏宇,谢若冰,Julian McAuley,赵 Wayne Xin。2023。大型语言模型是推荐系统的零样本排序器。arXiv 预印本 arXiv:2305.08845(2023)。 -
黄等(2019)
佟文黄,志奇张,俊林张. 2019. FiBiNET:结合特征重要性和双线性特征交互的点击率预测. 在第 13 届 ACM 推荐系统会议论文集中. 169–177. -
伊扎卡德等(2023)
Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, and Edouard Grave. 2023. Atlas:基于检索增强语言模型的少样本学习。 机器学习研究杂志 24, 251 (2023), 1–43. http://jmlr.org/papers/v24/23-0037.html -
胡安等人(2016)
袁宇钦,庄勇,陈伟圣,和林智仁。2016。面向点击率预测的场感知分解机(RecSys '16)。纽约,NY,美国,43–50。 https://doi.org/10.1145/2959100.2959134 -
肯顿和图塔诺娃(2019)
雅各布·德夫林 明伟·张 肯顿和李 克里斯蒂娜·图特诺娃。2019 年。BERT:用于语言理解的深度双向变换器预训练。在 NAACL-HLT 会议录中。4171–4186。 -
莱斯特等人(2021)
布莱恩·莱斯特,拉米·阿尔-尔福,和诺亚·康斯坦特。2021 年。《规模之力:参数高效的提示调优》。载于《2021 年自然语言处理实证方法会议论文集》。第 3045-3059 页。 -
李等(2023d)
雷磊,张永锋,陈丽。2023d。个性化提示学习用于可解释推荐。《ACM 信息系统汇刊》41,4,文章 103(2023 年 3 月),26 页。https://doi.org/10.1145/3580488 -
李等(2023a)
李向阳,陈波,侯璐,唐瑞明。2023a。CTRL:连接表格和语言模型用于 CTR 预测。arXiv 预印本 arXiv:2306.02841(2023)。 -
李等(2023b)
李新航,陈崇,赵翔宇,张勇,邢春晓. 2023b. E4SRec:用于序列推荐的大型语言模型的优雅、有效、高效、可扩展解决方案. arXiv 预印本 arXiv:2312.02443 (2023). -
李等(2023c)
李颖聪,M·埃姆鲁拉·伊尔迪兹,迪米特里斯·帕帕伊利奥普洛斯,萨梅特·奥伊马克。2023c。Transformers 作为算法:情境学习中的泛化与隐式模型选择。arXiv 预印本 arXiv:2301.07067(2023)。 -
廖等人(2023)
廖嘉怡,李思航,杨正一,吴健灿,袁彦成,王翔,何翔南。2023。LLaRA:将大型语言模型与序列推荐器对齐。arXiv 预印本 arXiv:2312.02445(2023)。 -
林等 (2024)
林江豪,单融,朱晨旭,杜蔻年花,陈波,全世刚,唐瑞明,于勇,和张伟男。2024。ReLLa:用于推荐中终身序列行为理解的检索增强大型语言模型。(2024)。 -
卢等人(2021)
陆万通,于艳涛,常永哲,王震,李晨辉,袁博。2021。一种双输入感知因子分解机用于点击率预测。在第 29 届国际人工智能联合会议论文集中。3139–3145。 -
罗等(2023)
罗思淳,何博伟,赵昊瀚,黄尹娜,周傲骏,李宗鹏,肖远章,詹明杰,宋林奇。2023。RecRanker:将指令调优的大语言模型作为 Top-k 推荐的排序器。arXiv 预印本 arXiv:2312.16018(2023)。 -
Min 等人(2022)
Sewon Min, Mike Lewis, Luke Zettlemoyer, 和 Hannaneh Hajishirzi. 2022. MetaICL: 在上下文中学习的学习. 在2022 年北美计算语言学协会会议: 人类语言技术论文集中, Marine Carpuat, Marie-Catherine de Marneffe, 和 Ivan Vladimir Meza Ruiz (编). 计算语言学协会, 美国 Seattle, 2791–2809. https://doi.org/10.18653/v1/2022.naacl-main.201 -
曲等人(2016)
曲艳如,蔡瀚,任侃,张 Weinan,于勇,温颖,王军。2016。基于产品的神经网络用于用户响应预测。在 2016 IEEE 第 16 届国际数据挖掘会议(ICDM)。IEEE,1149–1154。 -
拉杰普特等(2023)
沙尚克·拉杰普特,尼基尔·梅塔,阿尼玛·辛格,拉古南丹·H·凯沙万,特鲁恩·武,卢卡斯·赫尔特,洪立禅,易泰,范文·Q·陈,乔纳·萨莫斯特,马切伊·库拉,埃德·H·奇,和马赫斯瓦尔南·萨蒂亚莫 orthy。2023 年。生成检索推荐系统。(2023 年)。arXiv:2305.05065 [cs.IR] -
宋等人(2019)
宋伟平,石晨策,肖志平,段志坚,徐叶文,张明,唐健。2019。Autoint:通过自注意力神经网络自动特征交互学习。在第 28 届 ACM 国际信息与知识管理会议论文集中。1161–1170。 -
谭等人(2023)
谭一鸣,闵德海,李宇,李文博,胡楠,陈永瑞,齐桂林。2023。评估 ChatGPT 作为回答复杂问题问答系统的性能。arXiv 预印本 arXiv:2303.07992(2023)。 -
田 orii 等人(2023)
罗翰·陶里,伊山·古尔拉吉尼,张天一,扬·杜布瓦,李学晨,卡洛斯·盖斯汀,珀西·梁,和田 tsunami B 哈希莫托。2023。斯坦福羊驼:一个遵循指令的羊驼模型(2023)。网址 https://github. com/tatsu-lab/stanford_alpaca (2023)。 -
图尔万等人(2023a)
雨果·图夫龙,蒂博·拉夫里尔,高蒂尔·伊扎卡德,格扎维埃·马蒂内,玛丽-安娜·拉绍,蒂莫泰·拉克鲁瓦,巴普蒂斯特·罗齐埃,纳曼·戈亚尔,埃里克·汉布罗,费萨尔·阿扎尔等,2023a。Llama:开放且高效的基础语言模型。arXiv 预印本 arXiv:2302.13971(2023)。 -
图尔万等人(2023b)
雨果·图尔冯,路易斯·马丁,凯文·斯通,彼得·阿尔伯特,阿姆贾德·阿尔马希里,亚斯明·巴巴伊,尼古拉伊·巴什利科夫,苏米亚·巴特拉,普拉吉瓦尔·巴尔加瓦,舒蒂·博萨莱,等 2023b。Llama 2:开放基础和微调聊天模型。arXiv 预印本 arXiv:2307.09288 (2023)。 -
范登奥尔德等(2017)
Aaron van den Oord, Oriol Vinyals, 和 Koray Kavukcuoglu. 2017. 神经离散表示学习. 在第 31 届国际神经网络信息处理系统会议(NIPS’17)论文集中. 纽约州红钩市, 美国, 6309–6318. -
王等(2017)
王若曦,傅斌,傅刚,王明亮。2017。深度与交叉网络用于广告点击预测。在《ADKDD’17 会议录》(ADKDD’17)中。美国纽约州纽约市,第 12 篇文章,7 页。https://doi.org/10.1145/3124749.3124754 -
王等(2021)
王若溪,拉凯什·希瓦纳,德里克·程,萨加尔·贾因,林东,洪立展,和艾德·奇。2021。DCN v2:改进的深度与交叉网络及面向网络规模学习排序系统的实用经验。在 2021 年网络会议论文集中。1785–1797。 -
王等(2023)
王新义,朱万荣,和王威廉。2023。大型语言模型隐含主题模型:解释并寻找上下文学习中的良好示范。arXiv 预印本 arXiv:2301.11916(2023)。 -
魏等(2022)
魏 Jason,王 学志,Dale Schuurmans,Maarten Bosma,夏 非,Ed Chi,Quoc V Le,周 Denny,等 2022。思维链提示激发大型语言模型中的推理。神经信息处理系统进展 35(2022),24824–24837。 -
吴等(2020)
吴乐,杨永辉,张坤,洪日昌,傅延杰,王猛. 2020. 联合物品推荐与属性推理:一种自适应图卷积网络方法. 在第 43 届国际 ACM SIGIR 信息检索研究与发展会议论文集中. 679–688. -
习等(2023)
许云佳,刘伟文,林江豪,朱杰明,陈波,唐瑞明,张伟南,张锐,余勇。2023。迈向知识增强的开放世界推荐:基于大型语言模型。arXiv 预印本 arXiv:2306.10933(2023)。 -
肖等人(2017)
肖骏,叶昊,何向南,张汉旺,吴飞,蔡达森。2017。注意力分解机:通过注意力网络学习特征交互的权重。在第 26 届国际人工智能联合会议(IJCAI’17)论文集中。3119–3125。 -
谢等人(2022)
桑·迈克尔·谢,阿迪蒂·拉古纳坦,珀西·梁,和马腾宇。2022 年。《将情境内学习解释为隐式贝叶斯推理》。在国际学习表征会议上发表。 -
颜等人(2014)
凌雁,李吴军,薛贵荣,韩丁毅。2014。用于展示广告中网络规模点击率预测的耦合组套索方法。在国际机器学习会议上。PMLR,802–810。 -
杨等(2020)
易扬,白乐徐,沈少峰,沈福荣,赵健。2020。面向用户响应预测的运维感知神经网络。《神经网络》121(2020),161–168。 -
张等(2023)
杨张, 冯福利, 张极致, 鲍克勤, 王启凡, 何湘南. 2023. CoLLM: 将协作嵌入集成到大型语言模型中以用于推荐. arXiv 预印本 arXiv:2310.19488 (2023). -
郑等(2023)
郑博文,侯宇鹏,卢宏宇,陈宇,赵 Wayne Xin,温继荣。2023。通过整合协作语义适应大型语言模型以用于推荐。arXiv 预印本 arXiv:2311.09049(2023)。 -
周等(2022)
周亚东,丁志豪,刘小明,沈超,童玲玲,和管小红。2022。Infer-AVAE:基于对抗变分自编码器的属性推理模型。《神经计算》483(2022),105–115。
附录 A 附录
在本节中,我们详细阐述了关于贝叶斯LLMs对概念潜在变量的理论分析。
A.1. 理论分析
我们首先假设预训练的LLMs数据分布 适当地近似了假设的数据分布 。在添加概念标记后,提示变成了用户信息 、概念标记 和任务描述 的序列。具体来说,我们在用户信息 之后连接概念标记 。
命题 2.2。随着概念类别数 的增加,预测器 是贝叶斯最优预测器。
证明。 | |||
在 。根据(谢等., 2022),对于所有概念 ,除了最优提示概念 ,其中 。因此,积分中唯一非零的可能性是当 ,从而提示概念作为贝叶斯推理的结果被“选择”。