这是用户在 2025-4-9 11:30 为 https://app.immersivetranslate.com/pdf-pro/7ea2d34b-452b-4977-b2f0-9813406ac5d4/ 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

湍流壁面模型的多智能体强化学习科学研究

H. Jane Bae © 1 , 2 & 1 , 2 & ^(1,2凶)&{ }^{1,2 凶} \& Petros Koumoutsakos © 1 , 3 1 , 3 ^(1,3凶){ }^{1,3 凶}

湍流模拟的预测能力对气动设计和天气预报至关重要,其核心在于湍流模型的选择。实验与模拟数据的丰富及机器学习的兴起为湍流建模注入了新动力。然而,启发式方法和监督学习在近壁面动力学建模上的不足仍制约着湍流模拟的发展。为此,我们提出科学多智能体强化学习(SciMARL),用于大涡模拟(LES)壁面模型的发现。在 SciMARL 中,离散化点同时作为协作智能体,学习提供 LES 闭合模型。这些智能体利用有限数据自我学习,并能泛化至极高雷诺数和未见过的几何构型。当前模拟在保持关键流动量准确性的同时,将计算成本较全解析模拟降低了数个数量级。我们相信,SciMARL 为湍流模拟开创了前所未有的能力。
壁面湍流模拟已成为风电场 1 1 ^(1){ }^{1} 和飞机 2 2 ^(2){ }^{2} 设计周期中的关键环节,也是大气流动模拟预测能力的主要影响因素 3 3 ^(3){ }^{3} 。由于这些流动涉及高雷诺数,直接数值模拟(DNS)需解析所有运动尺度,在当前计算能力下难以实现。大涡模拟(LES)通过仅解析含能涡旋并模拟小尺度运动,旨在降低网格需求。然而,近壁区域因产生应力的涡旋随壁面距离线性减小而仍难以满足要求。多项研究 4 6 4 6 ^(4-6){ }^{4-6} 估算,壁面解析 LES 所需的网格点数与流动特征雷诺数 R e R e ReR e O ( R e 13 / 7 ) O R e 13 / 7 O(Re^(13//7))\mathcal{O}\left(R e^{13 / 7}\right) 次方成正比。虽然此计算量比 DNS 低数个数量级,但仍具挑战性。 反过来,对近壁流动进行建模,使得仅解析边界层外区的大尺度运动,壁模型大涡模拟(WMLES)的网格点需求最多按 O ( R e ) O ( R e ) O(Re)\mathcal{O}(R e) 比例缩放。通过 WMLES,仅依靠数值模拟对工程应用中关注的空气动力学量进行预测分析认证可能很快成为现实。分析认证有望减少风洞实验的数量,从而缩短设计周期的时间并降低成本。
针对近壁区建模已探索了多种策略 7 10 7 10 ^(7-10){ }^{7-10} 。WMLES 方法的分类可大致划分为混合 LES/RANS 方法与壁面通量建模。混合 LES/RANS 及其变体 8 8 ^(8){ }^{8} 在近壁区采用雷诺平均 Navier-Stokes(RANS)方程,外层采用 LES,通过湍流模型的隐式切换实现 RANS 与 LES 区域的界面耦合。壁面通量建模则用壁模型提供的应力与热通量边界条件替代传统的无滑移与热壁边界条件,典型方法包括基于壁面律 11 13 11 13 ^(11-13){ }^{11-13} 或 RANS 方程 14 20 14 20 ^(14-20){ }^{14-20} 计算壁面应力。部分模型通过求解非定常三维 RANS 方程 15 , 17 15 , 17 ^(15,17){ }^{15,17} 考虑非线性对流与压力梯度效应,另一些仅考虑壁面法向扩散,将计算需求简化为求解常微分方程组 19 , 20 19 , 20 ^(19,20){ }^{19,20}
上述模型的主要障碍在于它们依赖于 RANS 参数化方法,该方法需要使用针对特定流动状态(通常是平板上的充分发展平衡湍流)预先校准的经验系数。这类壁面模型在实际应用中无法按预期工作,因为实际流动中存在多种状态共存的情况(例如分离流、粗糙壁面流动、转捩预测等) ) 7 ) 7 )^(7))^{7} 。针对 RANS 参数化在壁面建模中的应用,研究者提出了一种动态壁面模型进行挑战,该模型无需预先指定系数且附加计算成本可忽略 21 , 22 21 , 22 ^(21,22){ }^{21,22} 。两种方法均通过要求壁面处滤波速度场与微分滤波核之间的一致性来构建。
动态壁面模型提供了令人鼓舞的结果,但也面临重大挑战。它们对雷诺数和网格分辨率的变化具有鲁棒性,但对流动求解器中采用的数值方法和亚格子尺度(SGS)模型的选择敏感。这归因于近壁区域数值误差的主导作用,进而影响了必要壁面模型常数 23 23 ^(23){ }^{23} 的评估。此外,该方法目前仅专门用于结构化、不可压缩流动求解器,在可压缩流动或复杂几何形状中的应用有限。
成功的动态壁模型的基本要求是:(i) 能够适应多样化的流动求解器和 SGS 模型,(ii) 在其标定流场之外具有泛化能力。机器学习和数据科学的最新进展旨在解决这些问题,并补充现有的湍流建模方法。迄今为止,大多数工作集中在将监督学习应用于 SGS 建模 24 30 24 30 ^(24-30){ }^{24-30} 和壁建模 31 33 31 33 ^(31-33){ }^{31-33} 。然而,尽管已展现出潜力,这些方法在训练数据分布之外的泛化上仍面临困难。在监督学习中,神经网络参数通常通过最小化模型预测误差来获取,而该误差常基于单步目标值以限制计算挑战。因此,有必要区分先验测试与后验测试:前者通过参考模拟数据库(通常由 DNS 获得)评估监督学习模型预测目标值的准确性。 后验测试在训练后进行,通过时间积分纳维-斯托克斯方程与训练好的监督学习闭合项,并将获得的统计量与 DNS 或其他参考数据进行比较。由于单步成本函数的作用,所得神经网络模型未针对补偿 DNS 与 LES(或 WMLES)之间的系统差异及累积误差进行训练。数据驱动 SGS 模型的病态问题已通过执行后验测试的研究 27 , 34 36 27 , 34 36 ^(27,34-36){ }^{27,34-36} 暴露出来。壁面模型比 SGS 模型 22 22 ^(22){ }^{22} 更为敏感,我们预期误差累积在 WMLES 中会产生更不利的影响。
在此,我们提出 SciMARL 用于大涡模拟(LES)中壁面模型的开发。强化学习(RL)通过代理执行与环境信息相关的动作来识别最优策略,并通过标量奖励函数衡量其表现。本研究中,代理对应于计算单元,其动作既补偿了闭合项,也弥补了流动求解器数值方法相关的误差。RL 是一种基于动态编程 37 37 ^(37){ }^{37} 的半监督学习框架,应用广泛,涵盖机器人 38 , 39 38 , 39 ^(38,39){ }^{38,39} 、游戏 40 , 41 40 , 41 ^(40,41){ }^{40,41} 及近年来的流动控制 39 , 42 45 39 , 42 45 ^(39,42-45){ }^{39,42-45} 等领域。值得注意的是,SciMARL 近期才被应用于流体力学,用于均匀湍流 LES 中亚格子尺度(SGS)模型的开发 46 46 ^(46){ }^{46}
在壁模型大涡模拟(WMLES)中,可通过将模拟的统计特性与参考数据(如壁面剪切应力)进行对比来衡量科学多智能体强化学习(SciMARL)的性能。SciMARL 是一种半监督学习算法,它需要以奖励形式表达的流动信息,而非监督学习中所需的详细时空数据。在壁面建模方面,SciMARL 不依赖于对数律系数的先验知识,而是旨在根据滤波方程捕捉到的流动物理模式,自主发现主动闭合策略。相应的壁模型对数值离散化具有鲁棒性,因为这些误差已在训练过程中被纳入考量。此外,该模型发现方法可轻松扩展至复杂几何结构和不同流动配置,如粗糙表面流动、分层边界层及可压缩边界层等。

结果

面向壁面建模的多智能体强化学习。在 RL 中,智能体通过采样环境状态( s s ss )、执行动作(a)及接收奖励 ( r ) ( r ) (r)(r) 与环境交互。每个时间步,智能体执行动作后系统时间推进,随后智能体可观测新状态、获取标量奖励并选择新动作。智能体由此推断策略 π ( s , a ) π ( s , a ) pi(s,a)\pi(s, a)
图 1 SciMARL 系统示意图。智能体沿壁面均匀分布,每个智能体获取距壁面法向高度 h m h m h^(m)h^{m} 处的状态信息,在壁面计算奖励并输入策略 π π pi\pi 以获取下一时间步的动作 a a aa
通过与环境的反复交互来最大化其长期奖励。最优策略 π ( s , a ) π ( s , a ) pi^(**)(s,a)\pi^{*}(s, a) 通过最大化期望效用(即期望累积奖励)获得。全文采用 x , y x , y x,yx, y z z zz 分别表示流向、壁面法向和展向方向,对应速度分量为 u u uu v v vv w w ww 。强化学习智能体均匀分布于各通道壁面,每个位于 ( x , z ) ( x , z ) (x,z)(x, z) 的智能体接收局部状态 s n ( x , z ) s n ( x , z ) s_(n)(x,z)s_{n}(x, z) 与奖励 r n ( x , z ) r n ( x , z ) r_(n)(x,z)r_{n}(x, z) ,并在每个时间步 t n t n t_(n)t_{n} 提供局部动作 a n ( x , z ) a n ( x , z ) a_(n)(x,z)a_{n}(x, z) 。域内多个智能体共享并持续更新同一策略(见图1)。
为使强化学习能广泛应用于多种流动参数场景,状态量采用粘度 v v vv 和模拟的瞬时摩擦速度进行无量纲化处理。
u τ m ( x , z , t ) = ( τ w m ( x , z , t ) ρ ) 1 / 2 u τ m ( x , z , t ) = τ w m ( x , z , t ) ρ 1 / 2 u_(tau)^(m)(x,z,t)=((tau_(w)^(m)(x,z,t))/(rho))^(1//2)u_{\tau}^{m}(x, z, t)=\left(\frac{\tau_{w}^{m}(x, z, t)}{\rho}\right)^{1 / 2}
其中 τ w m τ w m tau_(w)^(m)\tau_{w}^{m} 为模拟的壁面剪应力, ρ ρ rho\rho 为密度。这些量仅依赖于壁面模型的输出,无需任何流动的先验知识即可获得。此无量纲化由星号上标*表示,与由真实摩擦速度 u τ u τ u_(tau)u_{\tau} (上标+表示)进行的无量纲化不同,后者将用于评估模型性能。壁面模型的目标是预测正确的壁面剪应力 τ w τ w tau_(w)\tau_{w} ,从而得到 u τ u τ u_(tau)u_{\tau} ,这将有助于对平均速度剖面和湍流强度 47 47 ^(47){ }^{47} 等量进行良好预测。
基于速度的壁面模型。我们首先训练模型以适应速度随壁面法向高度的变化,这种变化在对数区域具有普适性。我们将状态设为采样点的瞬时速度 u ( x , h m , z , t n ) u x , h m , z , t n u^(**)(x,h^(m),z,t_(n))u^{*}\left(x, h^{m}, z, t_{n}\right) 、壁面法向导数 u / y ( x , h m , z , t n ) u / y x , h m , z , t n delu^(**)//dely^(**)(x,h^(m),z,t_(n))\partial u^{*} / \partial y^{*}\left(x, h^{m}, z, t_{n}\right) 以及壁面法向位置 y = y = y^(**)=y^{*}= ( h m ) h m (h^(m))^(**)\left(h^{m}\right)^{*} 。智能体通过乘法因子 a n ( x , z ) [ 0.9 , 1.1 ] a n ( x , z ) [ 0.9 , 1.1 ] a_(n)(x,z)in[0.9,1.1]a_{n}(x, z) \in[0.9,1.1] 调整壁面剪切应力,使得 τ w m ( x , z , t n + 1 ) = a n ( x , z ) τ w m ( x , z , t n ) τ w m x , z , t n + 1 = a n ( x , z ) τ w m x , z , t n tau_(w)^(m)(x,z,t_(n+1))=a_(n)(x,z)tau_(w)^(m)(x,z,t_(n))\tau_{w}^{m}\left(x, z, t_{n+1}\right)=a_{n}(x, z) \tau_{w}^{m}\left(x, z, t_{n}\right) 。这一选择不要求模型精确输出壁面剪切应力(该值取决于雷诺数),而是提出一个调整壁面剪切应力的动作。奖励(定义见“方法”部分)也是增量式的,与当前时间步预测壁面剪切应力的改进程度成正比。若预测的壁面剪切应力与真实值偏差在 1 % 1 % 1%1 \% 以内,则提供额外奖励以确保智能体行为稳定。
基于对数律的壁面模型。第二个模型基于湍流近壁区存在对数层的特性,该特性在所有具有内-外尺度分离的流动中普遍存在。
分离 48 48 ^(48){ }^{48} 。在对数层中,速度剖面表达式为:
u + = 1 κ log y + + B u + = 1 κ log y + + B u^(+)=(1)/(kappa)log y^(+)+Bu^{+}=\frac{1}{\kappa} \log y^{+}+B
其中 κ κ kappa\kappa 是冯·卡门常数, B B BB 是截距常数。 κ κ kappa\kappa B B BB 的具体值取决于流动配置和壁面粗糙度;然而,在当前研究中,我们采用了经典光滑零压力梯度边界层所对应的数值。第二个模型的状态变量是 log log log\log 定律 κ m κ m kappa^(m)\kappa^{m} B m B m B^(m)B^{m} 的局部瞬时系数,这些系数由瞬时速度、速度梯度及壁面法向位置信息计算得出。需要强调的是,该模型并非以对数律中已知的 κ κ kappa\kappa B B BB 值作为输入,而是基于瞬时流动推导出的物理量。相较于第一个模型,其优势在于这些数值不依赖于 y y y^(**)y^{*} 的取值,因此模型能够学习训练数据范围之外的 y y y^(**)y^{*} 对数律行为。这使得模型能更便捷地扩展到更高雷诺数或更粗网格的情况。动作设置与奖励机制与第一个模型相同。
状态-动作映射。我们通过考察在摩擦雷诺数 R e τ = 2000 , 4200 , 8000 R e τ = 2000 , 4200 , 8000 Re_(tau)=2000,4200,8000R e_{\tau}=2000,4200,8000 下针对正向奖励条件化的通道流学习模型,探究其状态-动作映射关系。如图 2a 所示,基于速度的壁面模型(VWM)能清晰区分不同状态 ( y , u ) y , u (y^(**),u^(**))\left(y^{*}, u^{*}\right) ,并对应产生与正向奖励相关的特定动作。该模型能根据 ( y , u ) y , u (y^(**),u^(**))\left(y^{*}, u^{*}\right) 对位于对数律剖面之上或之下的位置,动态上调或下调壁面剪切应力。尽管模型最初并不具备对数律系数的先验知识,但通过强化学习过程成功掌握了壁面剪切应力的调节策略。然而,由于模型仅在训练集中有限范围的 ( h m ) + h m + (h^(m))^(+)\left(h^{m}\right)^{+} 值上进行训练,将其行为外推至更大 ( h m ) + h m + (h^(m))^(+)\left(h^{m}\right)^{+} 值时可能面临挑战。这一问题可通过采用 N y R e 4 6 N y R e 4 6 N_(y)∼Re^(4-6)N_{y} \sim R e^{4-6} 方法细化壁面法向网格来缓解。
基于对数定律的壁面模型(LLWM)同样具有对应于正奖励的不同状态和相应动作(见图 2b)。控制壁面剪切应力的主要机制与 VWM 类似,即根据斜率与截距 1 / κ m 1 / κ m 1//kappa^(m)1 / \kappa^{m} B m B m B^(m)B^{m} 对应的点是低估还是高估了对数定律,来上调或下调壁面剪切应力。根据 h m h m h^(m)h^{m} 的壁面法向位置,判断该点位于对数定律上方或下方的分类可能有所不同,特别是对于远离原点的点。然而,大多数状态集中在 1 / κ 1 / κ 1//kappa1 / \kappa B B BB 的真实值附近,该机制将按预期工作。
测试:湍流通道流动。我们考察模型在雷诺数 5200 至 10 6 10 6 10^(6)10^{6} 范围内对湍流通道流动的预测(图 3)。对于 VWM 模型,我们预期
图 2 VWM 与 LLWM 的状态-动作映射。a) 对于 VWM,在给定 y y y^(***)y^{\star} 条件下状态 u u u^(***)u^{\star} 的概率密度函数,限定事件为 r > 0.1 r > 0.1 r > 0.1r>0.1 a < 0.95 a < 0.95 a < 0.95a<0.95 (蓝色)或 a > 1.05 a > 1.05 a > 1.05a>1.05 (红色)。等高线为最大值的 30 , 50 , 70 % 30 , 50 , 70 % 30,50,70%30,50,70 \% 。实线表示对数律 u + = 1 / κ log y + + B u + = 1 / κ log y + + B u^(+)=1//kappa log y^(+)+Bu^{+}=1 / \kappa \log y^{+}+B ,其中 κ = 0.41 , B = 5.2 κ = 0.41 , B = 5.2 kappa=0.41,B=5.2\kappa=0.41, B=5.2 b b b\mathbf{b} 对于 LLWM,状态 1 / κ m 1 / κ m 1//kappa^(m)1 / \kappa^{m} B m B m B^(m)B^{m} 的联合概率密度函数,限定事件为 r > 0.1 r > 0.1 r > 0.1r>0.1 a < 0.95 a < 0.95 a < 0.95a<0.95 (蓝色)或 a > 1.05 a > 1.05 a > 1.05a>1.05 (红色)。等高线为最大值的 30 , 50 , 70 % 30 , 50 , 70 % 30,50,70%30,50,70 \% 。虚线表示 κ = 0.41 , B = 5.2 κ = 0.41 , B = 5.2 kappa=0.41,B=5.2\kappa=0.41, B=5.2 ;实线、虚线与点划线分别对应 ( h m ) + = 500 , 100 h m + = 500 , 100 (h^(m))^(+)=500,100\left(h^{m}\right)^{+}=500,100 10 4 10 4 10^(4)10^{4} 时的 ( 1 / κ m 1 / κ ) log ( y + ) + ( B m B ) = 0 1 / κ m 1 / κ log y + + B m B = 0 (1//kappa^(m)-1//kappa)log(y^(+))+(B^(m)-B)=0\left(1 / \kappa^{m}-1 / \kappa\right) \log \left(y^{+}\right)+\left(B^{m}-B\right)=0
图 3 摩擦速度误差。a) VWM(空心符号)与 LLWM(实心符号)在不同雷诺数下时间平均壁面剪切应力的误差。圆形表示标准网格 Δ y = 0.05 Δ y = 0.05 Delta_(y)=0.05\Delta_{y}=0.05 ,三角形表示细化网格案例。 b b b\mathbf{b} LLWM 的局部放大图,显示三个雷诺数下 EQMW 的误差(十字符号)。
只要 ( h m ) + h m + (h^(m))^(+)\left(h^{m}\right)^{+} 在训练过程 ( 150 < ( h m ) + < 1200 ) 150 < h m + < 1200 (150 < (h^(m))^(+) < 1200)\left(150<\left(h^{m}\right)^{+}<1200\right) 中观察到的范围内,模型就会按预期表现。 R e τ = 2 × 10 4 R e τ = 2 × 10 4 Re_(tau)=2xx10^(4)R e_{\tau}=2 \times 10^{4} 5 × 10 4 5 × 10 4 5xx10^(4)5 \times 10^{4} 的情况会产生高误差,因为 ( h m ) + h m + (h^(m))^(+)\left(h^{m}\right)^{+} 不在训练范围内。一旦通过细化网格将 ( h m ) + h m + (h^(m))^(+)\left(h^{m}\right)^{+} 的值调整到范围内,误差就会显著降低。这意味着需要为更高的雷诺数细化网格,使靠近壁面的第一个网格点处于 ( h m ) + h m + (h^(m))^(+)\left(h^{m}\right)^{+} 的训练范围内。对于 LLWM,我们观察到摩擦速度的预测误差小于 4 % 4 % 4%4 \% ,同时平均速度剖面与 log log log\log 定律吻合良好,无论 ( h m ) + h m + (h^(m))^(+)\left(h^{m}\right)^{+} 的值如何。误差随雷诺数增加而增大,很可能是由于流向壁面法向梯度随雷诺数增加而高度变化,以及 ( h m ) + h m + (h^(m))^(+)\left(h^{m}\right)^{+} 偏离训练值范围所致。尽管如此,结果与广泛使用的平衡壁模型(EQWM)在高达 R e τ 10 5 R e τ 10 5 Re_(tau)~~10^(5)R e_{\tau} \approx 10^{5} 时的结果相当,后者使用了针对此特定流动配置调整的经验系数。这一雷诺数范围足以适用于各种外部空气动力学和地球物理流动。 两种模型的预测平均速度剖面如图4所示。
测试:空间演化的湍流边界层。LLWM 模型的预测性能在零压力梯度平板湍流边界层中进行评估。该模拟
范围从 R e θ = 1000 7000 R e θ = 1000 7000 Re_(theta)=1000-7000R e_{\theta}=1000-7000 开始,其中 R e θ R e θ Re_(theta)R e_{\theta} 是基于动量厚度的雷诺数。
整个模拟域内模拟的皮肤摩擦系数 C f m = τ w m / ( ρ U 2 / 2 ) C f m = τ w m / ρ U 2 / 2 C_(f)^(m)=tau_(w)^(m)//(rhoU_(oo)^(2)//2)C_{f}^{m}=\tau_{w}^{m} /\left(\rho U_{\infty}^{2} / 2\right) 与经验值 C f C f C_(f)C_{f} (图 5a)中的 49 49 ^(49){ }^{49} 相当。这表明该模型能够适应流向方向壁面剪切应力的变化,即使其仅基于通道流模拟进行训练。
壁面剪切应力的分布。壁面边界湍流中越来越多的研究表明,壁面剪切应力波动的产生与外层大尺度运动直接相关 50 , 51 50 , 51 ^(50,51){ }^{50,51} 。这一观察支持了这样一种观点,即对数层流动不仅包含预测平均壁面剪切应力所需的信息,还包含预测波动的信息。然而,在确定性壁面模型(如 EQWM)中,壁面剪切应力与采样位置的流速完全相关 52 , 53 52 , 53 ^(52,53){ }^{52,53} ,这与文献 DNS 50 DNS 50 DNS^(50)\mathrm{DNS}^{50} 中观察到的 0.3 相关系数形成对比。这一点可以从图 6a 和图 7 中看出,EQWM 预测的壁面剪切应力与采样位置的流速波动完全相关 h w m h w m h_(wm)h_{w m} 。另一方面,LLWM 导致离壁位置流速与壁面剪切应力之间的相关性较小(图 6b 和图 7),最大相关性为 0.3 0.3 ∼0.3\sim 0.3 ,这与 DNS 预期的相关性相符。
SciMARL 壁面模型的潜力。我们证明 SciMARL 壁面模型的性能与基于 RANS 的 EQWM 相当。
图 4 湍流通道流动的预测平均速度剖面。(a)VWM 工况与(b)LLWM 工况的平均速度剖面如图 3 所示。虚线表示 u + = 1 / κ log ( y + ) + B u + = 1 / κ log y + + B u^(+)=1//kappa log(y^(+))+Bu^{+}=1 / \kappa \log \left(y^{+}\right)+B κ = 0.41 κ = 0.41 kappa=0.41\kappa=0.41 B = 5.2 B = 5.2 B=5.2B=5.2 条件下的情况。由于速度剖面超出绘图范围,VWM 的两个最大雷诺数工况未予显示。
图 5 湍流边界层摩擦系数预测结果。摩擦系数 C f C f C_(f)C_{f} R e θ R e θ Re_(theta)R e_{\theta} 变化的关系曲线。符号代表 LLWM 数据,实线为经验公式 C f 49 C f 49 C_(f)^(49)C_{f}{ }^{49}
图 6 瞬时壁面外流向速度与壁面剪切应力的对比。瞬时流向速度脉动 u u u^('**)u^{\prime *} h m h m h^(m)h^{m} (顶部)和 τ w m / τ w τ w m / τ w tau_(w)^(m)//tau_(w)\tau_{w}^{m} / \tau_{w} (底部)的 x z x z x-zx-z 平面快照:(a)EQWM 与(b)LLWM 工况对比。
该模型已针对这一特定流动配置进行了调优。SciMARL 壁面模型能够通过在中高雷诺数流动条件下训练,仅基于平均壁面剪应力的奖励函数达成这些成果。此外,强化学习模型是与壁面模化大涡模拟(WMLES)同步进行原位训练的,无需任何直接数值模拟(DNS)数据。这与监督学习方法形成鲜明对比,后者需要利用高保真的 DNS 模拟生成海量数据以推进学习进程。例如,在中高雷诺数槽道流动案例中
R e τ = 4200 R e τ = 4200 Re_(tau)=4200R e_{\tau}=4200 ),LLWM 模型仅需消耗 O ( 10 3 ) O 10 3 O(10^(3))O\left(10^{3}\right) 个 CPU 小时和不足 1GB 存储空间即可完成训练。而监督学习方法生成 DNS 数据则需要耗费 O ( 10 7 ) O 10 7 O(10^(7))O\left(10^{7}\right) 个 CPU 小时和超过 100TB 的存储空间。虽然对于槽道流动等标准案例可能已有现成的 DNS 数据库,但在涉及壁面粗糙度或逆压力梯度等更需壁面模型发挥作用的场景中,获取此类数据将更为困难。生成监督学习所需数据的额外开销,使得该方法在壁面建模的实际应用中显得不够实用。
图 7 瞬时壁面外流向速度与壁面剪切应力的相关性。LLWM(红色实线)和 EQWM(黑色虚线)在采样位置 h m = 0.1 δ h m = 0.1 δ h^(m)=0.1 deltah^{m}=0.1 \delta 处壁面剪切应力 τ w m τ w m tau_(w)^(m^(')**)\tau_{w}^{m^{\prime} *} 与流向速度 u u u^(****)u^{* *} 的互相关系数。
LLWM 易于扩展到复杂几何和采用不同数值方法或 SGS 模型的流动模拟,因为它仅需要瞬时流向(或壁面平行)速度、其壁面法向梯度以及距壁面的距离作为状态。这些量不像动态模型 22 22 ^(22){ }^{22} 中所需的滤波速度或涡粘性值那样严重依赖于数值方法或 SGS 模型。因此,该模型可广泛应用于各种模拟,类似于 EQWM,但无需预设可调参数。此外,通过向状态向量添加额外维度,RL 框架可扩展到各种流动配置。由于所有具有内外尺度分离的流动在重叠区域都表现出 log law 48 log law 48 log law^(48)\log \operatorname{law}{ }^{48} ,当前壁模型开发配置可扩展到粗糙壁面流动、分层流动、可压缩流动等多种情况。这些流动通常具有不同的对数律系数 κ κ kappa\kappa B B BB ,现有壁模型需手动调整这些值。然而,在本工作中,这些值通过基于 SciMARL 的模型自动调整,这使 LLWM 相比现有模型具有显著优势。 例如,在模拟域内存在不同压力梯度的情况下,传统方法需为每个具有不同压力梯度的位置分配不同的模型参数。相比之下,当将压力和速度梯度等参数作为状态输入时,SciMARL 模型能够通过单一策略(该策略由多种典型案例训练而成)在不同压力梯度效应间平滑过渡。类似论点也适用于模拟域内存在变化的分层或可压缩效应水平的模拟场景。此外,评估 LLWM 涉及计算训练神经网络的权重,其速度比需在每个时间步求解 ODE 的 EQWM 快一个数量级。

讨论

我们提出了一种强大的方法,用于在壁面限制湍流模拟中自动发现闭合模型,该方法通过融合科学计算与多智能体强化学习(SciMARL),利用有限数据实现。在此方法中,我们使用大涡模拟(LES)求解滤波后的 Navier-Stokes 方程,并通过合作智能体执行控制策略开发壁面模型,以恢复正确的平均壁面剪应力作为奖励。与监督学习方法相比,SciMARL 所需数据量更少。训练过程采用了中等雷诺数( R e τ = 2000 R e τ = 2000 Re_(tau)=2000R e_{\tau}=2000 、4200 和 8000)下的湍流通道流 LES 模拟。值得注意的是,该方法在极高雷诺数下的湍流边界层和湍流通道流 LES 模拟中展现出良好的泛化能力。
我们通过研究具有不同状态空间的两种模型(VWM 和 LLWM)来检验该方法的鲁棒性。在 VWM 中,状态空间包含流向速度及其壁面法向导数。该模型根据速度剖面与对数律的偏差调整壁面剪应力。当采样点的壁面法向位置位于训练集范围内时,该模型能捕捉宽雷诺数范围内的平均速度剖面。而在 LLWM 中,状态空间基于瞬时对数律系数。相比 VWM,该模型能泛化至更广泛的网格分辨率和雷诺数范围。此外,尽管训练数据来自湍流槽道流动,我们发现 LLWM 可泛化至空间发展的湍流边界层,并以远低于高保真模拟的成本恢复正确的壁面摩擦系数。
我们注意到,LLWM 模型预测的壁面剪切应力与离壁速度剖面之间的相关性,与全解析流动的结果相似。这与经典 RANS 模型获得的相关性形成鲜明对比。这表明 LLWM 的策略复制了迄今为止只能通过高分辨率模拟才能获得的壁面剪切应力控制的自然机制。此外,由于该模型仅需单点离壁位置的瞬时流动信息,无需额外修改即可扩展到更复杂几何构型和不同数值方法中。
我们预期该模型可通过内-外尺度分离 48 48 ^(48){ }^{48} 轻松推广至所有呈现对数律的壁面流动。设想当 SciMARL 在广泛流动范围内训练时,该模型还将获取复杂构型流动基础物理中普遍存在的关键流型经验。这一进展将为工业空气动力学和环境流动预测与控制中的 LES 壁面模型发展带来范式转变。

方法

强化学习。学习通过开源 RL 库 smarties 54 54 ^(54){ }^{54} 实现。该库通过将策略参数更新任务与交互数据收集任务分离,高效利用计算资源。流动模拟分布在多个工作节点上,每个节点为各智能体收集按回合组织的交互经验,
E i = { s n ( i ) , r n ( i ) , μ n ( i ) , σ n ( i ) , a n ( i ) } n = 0 , , N E i = s n ( i ) , r n ( i ) , μ n ( i ) , σ n ( i ) , a n ( i ) n = 0 , , N E_(i)={s_(n)^((i)),r_(n)^((i)),mu_(n)^((i)),sigma_(n)^((i)),a_(n)^((i))}_(n=0,dots,N)E_{i}=\left\{s_{n}^{(i)}, r_{n}^{(i)}, \mu_{n}^{(i)}, \sigma_{n}^{(i)}, a_{n}^{(i)}\right\}_{n=0, \ldots, N}
其中 n n nn 跟踪回合内 RL 步骤, μ μ mu\mu σ σ sigma\sigma 是用于采样 a a aa 的高斯策略统计量, t N t N t_(N)t_{N} 是每个回合的最终时间步。当模拟结束时,工作节点将每个智能体的一个回合发送至中央学习进程(主节点),并接收更新后的策略参数。主节点将回合存储至回放记忆(RM),随后根据"记住与遗忘经验回放"算法(ReF-ER) 54 54 ^(54){ }^{54} 进行采样以更新策略参数。ReF-ER 与支持连续状态和动作空间的离策略演员-评论家算法 V-RACER 结合使用。
V-RACER 通过权重 w w ww 定义的神经网络进行训练,该网络在给定输入状态 s s ss 时,输出策略 π W π W pi^(W)\pi^{\mathrm{W}} 的均值 μ W ( s ) μ W ( s ) mu^(W)(s)\mu^{\mathrm{W}}(s) 和标准差 σ W ( s ) σ W ( s ) sigma^(W)(s)\sigma^{\mathrm{W}}(s) 以及状态价值估计 v W ( s ) v W ( s ) v^(W)(s)v^{W}(s) 。统计量 μ W μ W mu^(W)\mu^{\mathrm{W}} σ W σ W sigma^(W)\sigma^{\mathrm{W}} 通过策略梯度估计器得到优化。
g π ( w ) = E [ g π , n ( w ) π w ( a n s n ) P ( a n μ n , σ n ) ( q ^ n v w ( s n ) ) w log π w ( a n s n ) | { s n , r n , μ n , σ n , a n } RM ] g π ( w ) = E g π , n ( w ) π w a n s n P a n μ n , σ n q ^ n v w s n w log π w a n s n s n , r n , μ n , σ n , a n RM {:[g_(pi)(w)=E[g_(pi,n)(w)-=(pi^(w)(a_(n)∣s_(n)))/(P(a_(n)∣mu_(n),sigma_(n)))( hat(q)_(n)-v^(w)(s_(n)))grad_(w)log pi^(w)(a_(n)∣s_(n))|:}],[{:{s_(n),r_(n),mu_(n),sigma_(n),a_(n)}∼RM]]:}\begin{aligned} g_{\pi}(\mathrm{w})= & \mathbb{E}\left[\left.g_{\pi, n}(\mathrm{w}) \equiv \frac{\pi^{\mathrm{w}}\left(a_{n} \mid s_{n}\right)}{\mathcal{P}\left(a_{n} \mid \mu_{n}, \sigma_{n}\right)}\left(\hat{q}_{n}-v^{\mathrm{w}}\left(s_{n}\right)\right) \nabla_{\mathrm{w}} \log \pi^{\mathrm{w}}\left(a_{n} \mid s_{n}\right) \right\rvert\,\right. \\ & \left.\left\{s_{n}, r_{n}, \mu_{n}, \sigma_{n}, a_{n}\right\} \sim \mathrm{RM}\right] \end{aligned}
其中 P ( a n μ n , σ n ) P a n μ n , σ n P(a_(n)∣mu_(n),sigma_(n))\mathcal{P}\left(a_{n} \mid \mu_{n}, \sigma_{n}\right) 表示从 N ( μ n , σ n ) N μ n , σ n N(mu_(n),sigma_(n))\mathcal{N}\left(\mu_{n}, \sigma_{n}\right) 中采样 a n a n a_(n)a_{n} 的概率, q ^ n q ^ n hat(q)_(n)\hat{q}_{n} 是对动作价值的估计值,该值通过 Retrace 算法 55 55 ^(55){ }^{55} 递归计算得出,公式为
q ^ n = r n + 1 + γ v W ( s n + 1 ) + γ min { 1 , π W ( a n s n ) P ( a n μ n , σ n ) } ( q ^ n + 1 v W ( s n + 1 ) ) q ^ n = r n + 1 + γ v W s n + 1 + γ min 1 , π W a n s n P a n μ n , σ n q ^ n + 1 v W s n + 1 hat(q)_(n)=r_(n+1)+gammav^(W)(s_(n+1))+gamma min{1,(pi^(W)(a_(n)∣s_(n)))/(P(a_(n)∣mu_(n),sigma_(n)))}( hat(q)_(n+1)-v^(W)(s_(n+1)))\hat{q}_{n}=r_{n+1}+\gamma v^{\mathrm{W}}\left(s_{n+1}\right)+\gamma \min \left\{1, \frac{\pi^{\mathrm{W}}\left(a_{n} \mid s_{n}\right)}{\mathcal{P}\left(a_{n} \mid \mu_{n}, \sigma_{n}\right)}\right\}\left(\hat{q}_{n+1}-v^{\mathrm{W}}\left(s_{n+1}\right)\right)
其中 γ = 0.995 γ = 0.995 gamma=0.995\gamma=0.995 为未来奖励的折扣因子。Retrace 算法同样
用于推导状态价值估计的梯度。
g v ( w ) = E [ g v , n ( w ) min { 1 , π w ( a n s n ) P ( a n μ n , σ n ) } ( q ^ n v W ( s n ) ) | { s n , r n , μ n , σ n , a n } RM ] . g v ( w ) = E g v , n ( w ) min 1 , π w a n s n P a n μ n , σ n q ^ n v W s n s n , r n , μ n , σ n , a n RM . {:[g_(v)(w)=E[g_(v,n)(w)-=min{1,(pi_(w)(a_(n)∣s_(n)))/(P(a_(n)∣mu_(n),sigma_(n)))}( hat(q)_(n)-v^(W)(s_(n)))|:}],[{:{s_(n),r_(n),mu_(n),sigma_(n),a_(n)}∼RM].]:}\begin{aligned} & g_{v}(\mathrm{w})=\mathbb{E} {\left[\left.g_{v, n}(\mathrm{w}) \equiv \min \left\{1, \frac{\pi_{\mathrm{w}}\left(a_{n} \mid s_{n}\right)}{\mathcal{P}\left(a_{n} \mid \mu_{n}, \sigma_{n}\right)}\right\}\left(\hat{q}_{n}-v^{\mathrm{W}}\left(s_{n}\right)\right) \right\rvert\,\right.} \\ &\left.\left\{s_{n}, r_{n}, \mu_{n}, \sigma_{n}, a_{n}\right\} \sim \mathrm{RM}\right] . \end{aligned}
方程(3)和(5)中的期望值通过从 RM 中抽取 B B BB 个观测样本进行蒙特卡洛近似。
由于使用经验回放机制,当策略偏离 RM 中的经验分布时,V-RACER 及类似算法会变得不稳定。我们通过引入重要性权重 ρ t ρ t rho_(t)\rho_{t} 来区分经验属于"近策略"还是"远策略",并将远策略样本的梯度裁剪为零 54 54 ^(54){ }^{54} ,从而规避该问题。在 ReF-ER 中,梯度计算方式为
g ^ n ( w ) = { β g n ( w ) ( 1 β ) g n D ( w ) , if 1 / C < ρ t < C ( 1 β ) g n D ( w ) , otherwise , g ^ n ( w ) = β g n ( w ) ( 1 β ) g n D ( w ) ,  if  1 / C < ρ t < C ( 1 β ) g n D ( w ) ,  otherwise  , hat(g)_(n)(w)={[betag_(n)(w)-(1-beta)g_(n)^(D)(w)","," if "1//C < rho_(t) < C],[-(1-beta)g_(n)^(D)(w)","," otherwise "","]:}\hat{g}_{n}(\mathrm{w})=\left\{\begin{array}{cc} \beta g_{n}(\mathrm{w})-(1-\beta) g_{n}^{D}(\mathrm{w}), & \text { if } 1 / C<\rho_{t}<C \\ -(1-\beta) g_{n}^{D}(\mathrm{w}), & \text { otherwise }, \end{array}\right.
其中 ρ t = π w ( a t s t ) / P ( a t μ t , σ t ) ρ t = π w a t s t / P a t μ t , σ t rho_(t)=pi_(w)(a_(t)∣s_(t))//P(a_(t)∣mu_(t),sigma_(t))\rho_{t}=\pi_{\mathrm{w}}\left(a_{t} \mid s_{t}\right) / \mathcal{P}\left(a_{t} \mid \mu_{t}, \sigma_{t}\right) 。此处 g D = w D K L ( π w ( s t ) ) P ( μ t , σ t ) g D = w D K L π w s t P μ t , σ t g^(D)=grad_(w)D_(KL)(pi_(w)(*∣s_(t)))||P(*∣mu_(t),sigma_(t))g^{D}=\nabla_{\mathrm{w}} D_{K L}\left(\pi_{\mathrm{w}}\left(\cdot \mid s_{t}\right)\right) \| \mathcal{P}\left(\cdot \mid \mu_{t}, \sigma_{t}\right) D K L ( P Q ) D K L ( P Q ) D_(KL)(P||Q)D_{K L}(P \| Q) 表示分布 P P PP Q Q QQ 之间的 Kullback-Leibler 散度度量。系数 β β beta\beta 通过以下方式迭代更新,以保持 RM 中恒定比例的样本位于信任区域内:
β { ( 1 η ) β , if r R M > D β + ( 1 η ) β , otherwise β ( 1 η ) β ,  if  r R M > D β + ( 1 η ) β ,  otherwise  beta larr{[(1-eta)beta","," if "r_(RM) > D],[beta+(1-eta)beta","," otherwise "]:}\beta \leftarrow\left\{\begin{array}{cc} (1-\eta) \beta, & \text { if } r_{R M}>D \\ \beta+(1-\eta) \beta, & \text { otherwise } \end{array}\right.
其中 r R M r R M r_(RM)r_{R M} 表示 RM 中重要性权重超出信任区域 [ 1 / C , C ] [ 1 / C , C ] [1//C,C][1 / C, C] 的比例, D D DD 为调节参数。
我们描述的 MARL 设置中最显著的超参数包括动作插值到网格的空间分辨率(由 Δ x m / Δ x Δ x m / Δ x Delta_(x)^(m)//Delta_(x)\Delta_{x}^{m} / \Delta_{x} Δ z m / Δ z Δ z m / Δ z Delta_(z)^(m)//Delta_(z)\Delta_{z}^{m} / \Delta_{z} 决定)。默认值 Δ x m / Δ x Δ x m / Δ x Delta_(x)^(m)//Delta_(x)\Delta_{x}^{m} / \Delta_{x} Δ z m / Δ z Δ z m / Δ z Delta_(z)^(m)//Delta_(z)\Delta_{z}^{m} / \Delta_{z} 将每次模拟生成的经验数量减少至 O ( 10 5 ) O 10 5 O(10^(5))O\left(10^{5}\right) 。该数值与用于 SGS 模型开发的 SciMARL 每次模拟生成的经验数量相近 46 46 ^(46){ }^{46} 。与先前研究一致,我们发现进一步减少每次模拟的智能体数量会降低模型的适应性,从而表现出略低的性能。由于我们在多智能体环境中采用传统强化学习更新规则,单一参数更新不够精确。我们发现,使用超参数 C = 1.5 C = 1.5 C=1.5C=1.5 D = 0.05 D = 0.05 D=0.05D=0.05 的 ReF-ER(见公式(6)和(7))能稳定训练过程。我们对每个奖励函数进行了多次训练运行,并在调整超参数时观察到,无论初始随机种子如何,训练进度均保持一致。
该算法的更多实现细节可参见 Novati 等人的研究 54 54 ^(54){ }^{54}
训练设置概述。模型在湍流通道流模拟 R e τ = u τ δ / v 2000 , 4200 R e τ = u τ δ / v 2000 , 4200 Re_(tau)=u_(tau)delta//v~~2000,4200R e_{\tau}=u_{\tau} \delta / v \approx 2000,4200 和 8000 上进行训练,其中 δ δ delta\delta 为通道半高度,网格分辨率为 Δ x , y , z 0.05 δ Δ x , y , z 0.05 δ Delta_(x,y,z)≃0.05 delta\Delta_{x, y, z} \simeq 0.05 \delta 。每个 WMLES 初始化时均匀采样 R e τ { 2000 , 4200 , 8000 } R e τ { 2000 , 4200 , 8000 } Re_(tau)in{2000,4200,8000}R e_{\tau} \in\{2000,4200,8000\} ,训练用初始速度场通过在给定 R e τ R e τ Re_(tau)R e_{\tau} 下从先前获得的 WMLES 流场叠加来自 N ( 0 , 0.5 u τ ) N 0 , 0.5 u τ N(0,0.5u_(tau))\mathcal{N}\left(0,0.5 u_{\tau}\right) 的白噪声采样获得,并运行短时间以消除数值伪影。初始壁面剪切应力设置为在 ± 20 % ± 20 % +-20%\pm 20 \% 范围内高估或低估正确壁面剪切应力。在 WMLES 的每个时间步,位置 h m h m h^(m)h^{m} 0.075 δ 0.075 δ 0.075 delta0.075 \delta 0.15 δ 0.15 δ 0.15 delta0.15 \delta 之间随机选择,以在 log 层内平滑范围 ( h m ) + h m + (h^(m))^(+)\left(h^{m}\right)^{+} 上进行训练。随后将速度及其壁面法向梯度插值到选定的壁面法向位置 h m h m h_(m)h_{m} 以形成状态向量。智能体以间距 Δ x m = 4 Δ x Δ x m = 4 Δ x Delta_(x)^(m)=4Delta_(x)\Delta_{x}^{m}=4 \Delta_{x} Δ z m = 4 Δ z Δ z m = 4 Δ z Delta_(z)^(m)=4Delta_(z)\Delta_{z}^{m}=4 \Delta_{z} 布置。学习算法的每次迭代运行模拟 2 δ / u τ 2 δ / u τ 2delta//u_(tau)2 \delta / u_{\tau} ,并在每个时间步更新模型。
该策略通过一个具有两个隐藏层(每层 128 个单元)的神经网络进行参数化,采用软符号激活函数和跳跃连接。神经网络初始化时外权重较小,并通过偏置调整使得初始策略近似于 N ( 1 , 10 4 ) 56 N 1 , 10 4 56 N(1,10^(-4))^(56)\mathcal{N}\left(1,10^{-4}\right)^{56} 。梯度计算采用蒙特卡洛估计,样本量为 B = 512 B = 512 B=512B=512 ,来自大小为 10 6 10 6 10^(6)10^{6} 的 RM。参数更新使用 Adam 优化算法 57 57 ^(57){ }^{57} ,学习率为 η = 10 5 η = 10 5 eta=10^(-5)\eta=10^{-5} 。为稳定训练,采用 ReF-ER 超参数 C = 1.5 C = 1.5 C=1.5C=1.5 D = 0.05 D = 0.05 D=0.05D=0.05 。每次训练运行推进 10 7 10 7 10^(7)10^{7} 次策略梯度步骤。
对于 VWM 和 LLWM,动作由乘法因子 a n ( x , z ) [ 0.9 , 1.1 ] a n ( x , z ) [ 0.9 , 1.1 ] a_(n)(x,z)in[0.9,1.1]a_{n}(x, z) \in[0.9,1.1] 给出,使得 τ w m ( x , z , t n + 1 ) = a n ( x , z ) τ w m ( x , z , t n ) τ w m x , z , t n + 1 = a n ( x , z ) τ w m x , z , t n tau_(w)^(m)(x,z,t_(n+1))=a_(n)(x,z)tau_(w)^(m)(x,z,t_(n))\tau_{w}^{m}\left(x, z, t_{n+1}\right)=a_{n}(x, z) \tau_{w}^{m}\left(x, z, t_{n}\right) 。奖励由以下公式给出
r n ( x , z ) = ( | τ w τ w m ( x , z , t n ) | | τ w τ w m ( x , z , t n 1 ) | τ w ) + 1 ( | τ w τ w m ( x , z , t n ) | τ w < 0.01 ) , r n ( x , z ) = τ w τ w m x , z , t n τ w τ w m x , z , t n 1 τ w + 1 τ w τ w m x , z , t n τ w < 0.01 , {:[r_(n)(x","z)=((|tau_(w)-tau_(w)^(m)(x,z,t_(n))|-|tau_(w)-tau_(w)^(m)(x,z,t_(n-1))|)/(tau_(w)))],[+1((|tau_(w)-tau_(w)^(m)(x,z,t_(n))|)/(tau_(w)) < 0.01)","]:}\begin{aligned} r_{n}(x, z)= & \left(\frac{\left|\tau_{w}-\tau_{w}^{m}\left(x, z, t_{n}\right)\right|-\left|\tau_{w}-\tau_{w}^{m}\left(x, z, t_{n-1}\right)\right|}{\tau_{w}}\right) \\ & +\mathbb{1}\left(\frac{\left|\tau_{w}-\tau_{w}^{m}\left(x, z, t_{n}\right)\right|}{\tau_{w}}<0.01\right), \end{aligned}𝟙
其中 1 1 1\mathbb{1}𝟙 为指示函数, τ w τ w tau_(w)\tau_{w} 为真实的壁面剪切应力平均值。该奖励与壁面剪切应力预测相比前一步的改进程度成正比,若预测值在真实值的 1 % 1 % 1%1 \% 范围内则额外给予奖励。VWM 的状态变量包括瞬时速度 u ( x , h m , z , t n ) u x , h m , z , t n u^(**)(x,h^(m),z,t_(n))u^{*}\left(x, h^{m}, z, t_{n}\right) 、壁面法向导数 u / y ( x , h m , z , t n ) u / y x , h m , z , t n delu^(**)//dely^(**)(x,h^(m),z,t_(n))\partial u^{*} / \partial y^{*}\left(x, h^{m}, z, t_{n}\right) 以及采样点的壁面法向位置 y = ( h m ) y = h m y^(**)=(h^(m))^(**)y^{*}=\left(h^{m}\right)^{*}
采样点的状态。LLWM 的状态变量包括
1 κ m ( x , z , t n ) = ( u y y ) ( x , h m , z , t n ) , and B m ( x , z , t n ) = u ( x , h m , z , t n ) 1 κ m ( x , z , t n ) log ( h m ) 1 κ m x , z , t n = u y y x , h m , z , t n ,  and  B m x , z , t n = u x , h m , z , t n 1 κ m x , z , t n log h m {:[(1)/(kappa^(m))(x,z,t_(n))=((delu^(**))/(dely^(**))y^(**))(x,h^(m),z,t_(n))","" and "B^(m)(x,z,t_(n))],[=u^(**)(x,h^(m),z,t_(n))-(1)/(kappa^(m))(x,z,t_(n))log (h^(m))^(**)]:}\begin{aligned} \frac{1}{\kappa^{m}}\left(x, z, t_{n}\right) & =\left(\frac{\partial u^{*}}{\partial y^{*}} y^{*}\right)\left(x, h^{m}, z, t_{n}\right), \text { and } B^{m}\left(x, z, t_{n}\right) \\ & =u^{*}\left(x, h^{m}, z, t_{n}\right)-\frac{1}{\kappa^{m}}\left(x, z, t_{n}\right) \log \left(h^{m}\right)^{*} \end{aligned}
流动模拟细节。我们采用大涡模拟(LES)在通道中求解滤波后的不可压缩 Navier-Stokes 方程,空间离散采用交错二阶有限差分法 58 58 ^(58){ }^{58} ,时间推进采用分数步法 59 59 ^(59){ }^{59} 结合三阶 Runge-Kutta 格式 60 60 ^(60){ }^{60} 。亚格子尺度(SGS)模型采用各向异性最小耗散(AMD)模型 61 61 ^(61){ }^{61} ,该模型在高各向异性网格中表现良好 62 62 ^(62){ }^{62}
对于槽道流动,在流向和展向施加周期性边界条件,顶部与底部壁面采用无滑移和无渗透边界条件。通过壁面处的涡粘性将建模的壁面应力 τ w m τ w m tau_(w)^(m)\tau_{w}^{m} 应用于大涡模拟域 63 63 ^(63){ }^{63}
ν t | w = ( u y ) | w 1 τ w m ρ ν ν t w = u y w 1 τ w m ρ ν nu_(t)|_(w)=((del u)/(del y))|_(w)^(-1)(tau_(w)^(m))/(rho)-nu\left.\nu_{t}\right|_{w}=\left.\left(\frac{\partial u}{\partial y}\right)\right|_{w} ^{-1} \frac{\tau_{w}^{m}}{\rho}-\nu
其中 v t v t v_(t)v_{t} 表示涡粘性系数,下标 w w ww 代表壁面处的计算值。与更广泛使用的诺伊曼边界条件相比,该边界条件能更好地解决壁模型大涡模拟中的对数层失配问题 63 63 ^(63){ }^{63} 。测试工况中槽道由恒定压力梯度驱动;训练工况中则通过根据槽道流动平均速度剖面计算的恒定质量流量驱动。计算域尺寸由 L x = 2 π δ , L y = 2 δ L x = 2 π δ , L y = 2 δ L_(x)=2pi delta,L_(y)=2deltaL_{x}=2 \pi \delta, L_{y}=2 \delta L z = π δ L z = π δ L_(z)=pi deltaL_{z}=\pi \delta 给出,其中 δ δ delta\delta 为槽道半高度。
对于空间发展的边界层,在展向施加周期性边界条件。壁面采用无滑移、无穿透边界条件并辅以黏度增强(式(9))。在顶部平面,我们施加 u = U u = U u=U_(oo)u=U_{\infty} (自由来流速度)、 w = 0 w = 0 w=0w=0 以及根据已知位移厚度实验增长数据针对相应雷诺数范围 49 49 ^(49){ }^{49} 估算的 v v vv 。这用于控制平均流向压力梯度,其标称值设为零。湍流入口通过循环方案 64 64 ^(64){ }^{64} 生成,其中参考下游平面 x ref x ref  x_("ref ")x_{\text {ref }} 的速度场用于合成入流湍流。参考平面位于流入区域末端足够远处以避免虚假反馈 65 , 66 65 , 66 ^(65,66){ }^{65,66} 。出口采用对流边界条件,对流速度为 U 67 U 67 U_(oo)^(67)U_{\infty}{ }^{67} ,并施加微小修正以确保全局质量守恒 66 66 ^(66){ }^{66} 。展向为周期性条件。
该代码已在先前关于湍流槽道流动 22 , 68 70 22 , 68 70 ^(22,68-70){ }^{22,68-70} 和平板边界层 22 , 71 22 , 71 ^(22,71){ }^{22,71} 的研究中得到验证。
测试:通道流动。VWM 和 LLWM 模型预测在雷诺数范围从 5200 至 10 6 10 6 10^(6)10^{6} (见表 1)的湍流通道流动中进行了测试,时间跨度为 300 δ / u τ 300 δ / u τ 300 delta//u_(tau)300 \delta / u_{\tau} ,显著长于训练周期 2 δ / u τ 2 δ / u τ 2delta//u_(tau)2 \delta / u_{\tau} 。虽然此处仅报告使用 Δ x Δ z 0.05 δ Δ x Δ z 0.05 δ Delta_(x)~~Delta_(z)~~0.05 delta\Delta_{x} \approx \Delta_{z} \approx 0.05 \delta 的结果,但采用代表 WMLES 的不同网格分辨率也产生了类似结果。
需注意,对于 LLWM 模型,其中一个状态变量 1 / κ m = ( u / y ) y 1 / κ m = u / y y 1//kappa^(m)=(delu^(**)//dely^(**))y^(**)1 / \kappa^{m}=\left(\partial u^{*} / \partial y^{*}\right) y^{*} 取决于 y y yy 相对于模拟离散点的选择。例如,若 y y yy 位于两个计算网格点的中点,可采用中心有限差分计算壁面法向导数 u / y u / y delu^(**)//dely^(**)\partial u^{*} / \partial y^{*} ;反之,若 y y yy 位于计算网格点上,则使用左或右有限差分。本研究中,我们选择 y y yy 值为两计算网格点的中点。改变 y y yy 的位置对结果影响较小,当 y y yy 位置选定为计算网格点时,壁面剪应力仅变化 5 % 5 % ∼5%\sim 5 \%
表1 通道流动测试案例列表及对应的雷诺数、壁面法向网格分辨率和匹配位置 h m h m h^(m)\boldsymbol{h}^{\boldsymbol{m}}
R e τ R e τ Re_(tau)\boldsymbol{\boldsymbol { R e } _ { \boldsymbol { \tau } }} Δ y / δ Δ y / δ Delta_(y)//delta\boldsymbol{\Delta}_{\boldsymbol{y}} / \boldsymbol{\delta} ( h m ) + h m + (h^(m))^(+)\left(\boldsymbol{h}^{\boldsymbol{m}}\right)^{+}
5200 0.05 520
10 4 10 4 10^(4)10^{4} 0.05 1000
2 × 10 4 2 × 10 4 2xx10^(4)2 \times 10^{4} 0.05 2000
2 × 10 4 2 × 10 4 2xx10^(4)2 \times 10^{4} 0.025 1000
5 × 10 4 5 × 10 4 5xx10^(4)5 \times 10^{4} 0.05 5000
5 × 10 4 5 × 10 4 5xx10^(4)5 \times 10^{4} 0.01 1000
10 5 10 5 10^(5)10^{5} 0.05 10 4 10 4 10^(4)10^{4}
10 6 10 6 10^(6)10^{6} 0.05 10 5 10 5 10^(5)10^{5}
在所有情况下, Δ x , 2 / δ = 0.05 Δ x , 2 / δ = 0.05 Delta_(x,2)//delta=0.05\Delta_{x, 2} / \delta=0.05
Re_(tau) Delta_(y)//delta (h^(m))^(+) 5200 0.05 520 10^(4) 0.05 1000 2xx10^(4) 0.05 2000 2xx10^(4) 0.025 1000 5xx10^(4) 0.05 5000 5xx10^(4) 0.01 1000 10^(5) 0.05 10^(4) 10^(6) 0.05 10^(5) For all cases, Delta_(x,2)//delta=0.05. | $\boldsymbol{\boldsymbol { R e } _ { \boldsymbol { \tau } }}$ | $\boldsymbol{\Delta}_{\boldsymbol{y}} / \boldsymbol{\delta}$ | $\left(\boldsymbol{h}^{\boldsymbol{m}}\right)^{+}$ | | :--- | :--- | :--- | | 5200 | 0.05 | 520 | | $10^{4}$ | 0.05 | 1000 | | $2 \times 10^{4}$ | 0.05 | 2000 | | $2 \times 10^{4}$ | 0.025 | 1000 | | $5 \times 10^{4}$ | 0.05 | 5000 | | $5 \times 10^{4}$ | 0.01 | 1000 | | $10^{5}$ | 0.05 | $10^{4}$ | | $10^{6}$ | 0.05 | $10^{5}$ | | For all cases, $\Delta_{x, 2} / \delta=0.05$. | | |
测试场景:空间演化的湍流边界层。LLWM 的预测性能在零压力梯度平板湍流边界层中进行评估,其中 R e θ R e θ Re_(theta)R e_{\theta} 范围从 1000 至 7000。选择此范围是为了使结果能与相关 DNS 72 DNS 72 DNS^(72)\mathrm{DNS}^{72} 进行对比。入口边界条件的再循环平面设定为 x ref / θ 0 = 890 x ref  / θ 0 = 890 x_("ref ")//theta_(0)=890x_{\text {ref }} / \theta_{0}=890 ,此处 θ 0 θ 0 theta_(0)\theta_{0} 代表入口处的动量厚度。模拟箱体的长度、高度和宽度分别为 L x = 3570 θ 0 , L y = 100 θ 0 L x = 3570 θ 0 , L y = 100 θ 0 L_(x)=3570theta_(0),L_(y)=100theta_(0)L_{x}=3570 \theta_{0}, L_{y}=100 \theta_{0} L z = 200 θ 0 L z = 200 θ 0 L_(z)=200theta_(0)L_{z}=200 \theta_{0} 。流向与展向分辨率在 R e θ = 6500 R e θ = 6500 Re_(theta)=6500R e_{\theta}=6500 处分别为 Δ x / δ = 0.06 ( Δ x + = 128 ) Δ x / δ = 0.06 Δ x + = 128 Delta_(x)//delta=0.06(Delta_(x)^(+)=128)\Delta_{x} / \delta=0.06\left(\Delta_{x}^{+}=128\right) Δ z / δ = 0.05 ( Δ z + = 105 ) Δ z / δ = 0.05 Δ z + = 105 Delta_(z)//delta=0.05(Delta_(z)^(+)=105)\Delta_{z} / \delta=0.05\left(\Delta_{z}^{+}=105\right) 。壁面法向网格均匀分布, R e θ = 6500 R e θ = 6500 Re_(theta)=6500R e_{\theta}=6500 位置的分辨率为 Δ y / δ = 0.03 ( Δ y + = 64 ) Δ y / δ = 0.03 Δ y + = 64 Delta_(y)//delta=0.03(Delta_(y)^(+)=64)\Delta_{y} / \delta=0.03\left(\Delta_{y}^{+}=64\right) 。入口处每边界层厚度的壁面法向网格点数设定为 10 10 ∼10\sim 10 ,与槽道流模拟保持一致。采样点 h m h m h^(m)h^{m} 选在壁面法向第三网格点 16 16 ^(16){ }^{16} ,该位置在大部分计算域内位于对数律层。所有计算在瞬态过程后均运行了 50 个冲刷时间。

数据可用性

本文分析的所有数据均由内部流动求解器和代码可用性声明中所述的开源强化学习软件生成。参考数据及生成数据图的脚本可通过 GitHub 获取(https://github.com/hjbae/SciMARL_WMLES)。

代码可用性

壁面建模大涡模拟使用内部流动求解器进行,该求解器可按需提供。壁面模型通过强化学习库 smarties 训练(https://github.com/cselab/smarties)。
收稿日期:2021年5月29日;录用日期:2022年2月14日;
在线发表日期:2022年3月17日

参考文献

  1. 索伦森, J. N. 风能转换的空气动力学问题. 《流体力学年评》43 卷, 427-448 页 (2011).
  2. Slotnick, J. 等。CFD 愿景 2030 研究:通往计算航空科学革命之路。NASA 承包商报告,NASA/CR-2014-218178(2013 年)。
  3. Stoll, R., Gibbs, J. A., Salesky, S. T., Anderson, W. 与 Calaf, M. 大气边界层的大涡模拟。边界层气象学 177, 541-581(2020 年)。
  4. Chapman, D. R. 计算空气动力学的发展与展望。AIAA 期刊 17, 1293-1313(1979 年)。
  5. Choi, H. 与 Moin, P. 大涡模拟的网格点需求:重访 Chapman 的估计。物理流体 24, 011702(2012 年)。
  6. 杨晓东与 Griffin, K. P. 直接数值模拟与大涡模拟的网格点与时间步长需求。《物理流体》33 卷,015108 (2021 年)。
  7. Piomelli, U. 与 Balaras, E. 大涡模拟中的壁面层模型。《流体力学年评》34 卷,349-374 页 (2002 年)。
  8. Spalart, P. R. 分离涡模拟。《流体力学年评》41 卷,181-202 页 (2009 年)。
  9. Larsson, J., Kawai, S., Bodart, J. 与 Bermejo-Moreno, I. 基于壁面应力建模的大涡模拟:近期进展与未来方向。《机械工程评论》3 卷,15-00418 (2016 年)。
  10. Bose, S. T. 与 Park, G. I. 面向复杂湍流流动的壁面模型大涡模拟。《流体力学年度评论》50 卷,535-561 页(2018 年)。
  11. Deardorff, J. W. 高雷诺数下三维湍流槽道流动的数值研究。《流体力学杂志》41 卷,453-480 页(1970 年)。
  12. Schumann, U. 平面槽道及环形流道湍流有限差分模拟的亚格子尺度模型。《计算物理学杂志》18 卷,376-404 页(1975 年)。
  13. Piomelli, U., Ferziger, J., Moin, P. 与 Kim, J. 壁面约束流动大涡模拟的新型近似边界条件。《流体物理学 A 辑》1 卷,1061-1068 页(1989 年)。
  14. 巴拉拉斯, E., 本诺奇, C. 与 皮奥梅利, U. 大涡模拟中的双层近似边界条件。AIAA 期刊 34, 1111-1119 (1996).
  15. 王, M. 与 莫因, P. 复杂湍流大涡模拟的动态壁面建模。物理流体 14, 2043-2051 (2002).
  16. 川井, S. 与 拉尔森, J. 大涡模拟中的壁面建模:长度尺度、网格分辨率与精度。物理流体 24, 015105 (2012).
  17. 朴, G. I. 与 莫因, P. 一种改进的动态非平衡壁面模型用于大涡模拟。物理流体 26, 37-48 (2014).
  18. 杨晓东等. 壁面湍流大涡模拟的积分壁模型。《物理流体》,27卷,025112页(2015年)。
  19. 博达尔与拉尔森. 复杂几何中基于壁面模型的大涡模拟及其在高升力装置中的应用。《湍流研究中心年度研究简报》,2011年,37-48页(2011年)。
  20. 贝尔梅霍-莫雷诺等. 通过壁面模型大涡模拟研究激波/湍流边界层相互作用中的约束效应。《流体力学杂志》,758卷,5-62页(2014年)。
  21. 博斯与莫因. 壁面模型大涡模拟的动态滑移边界条件。《物理流体》,26卷,015104页(2014年)。
  22. Bae, H. J., Lozano-Durán, A., Bose, S. T. & Moin, P. 大涡模拟中的动态滑移壁模型。《流体力学杂志》859 卷,400-432 页(2019 年)。
  23. Meyers, J. & Sagaut, P. 平面通道流是否为大涡模拟亚格子尺度模型测试的理想案例?《物理流体》19 卷,048105(2007 年)。
  24. Sarghini, F., De Felice, G. & Santini, S. 基于神经网络的大涡模拟亚格子尺度建模。《计算流体》32 卷,97-108 页(2003 年)。
  25. Hickel, S., Franz, S., Adams, N. A. & Koumoutsakos, P. 大涡模拟隐式亚格子尺度模型的优化。载于《第 21 届理论与应用力学国际会议论文集》(编者:Gutkowski, W. & Kowalewski, T. A.)FM24_11256(Springer 出版社,波兰华沙,2004 年)。
  26. 毛利克,R. 与 桑,O. 基于神经网络的湍流盲反卷积方法。《流体力学杂志》831 卷,151-181 页(2017 年)。
  27. 蒲正原,M. 与 服部,Y. 通过人工神经网络寻找湍流模型。《物理评论流体》2 卷,054604(2017 年)。
  28. 沃兰特,A.,巴拉拉克,G. 与 科尔,C. 基于最优估计理论与机器学习程序的亚格子尺度标量通量建模。《湍流杂志》18 卷,854-878 页(2017 年)。
  29. 谢,C.,王,J.,李,H.,万,M. 与 陈,S. 可压缩各向同性湍流大涡模拟的人工神经网络混合模型。《物理流体》31 卷,085112(2019 年)。
  30. 深见光、深方孝方与平田浩一。利用机器学习进行湍流超分辨率重建。《流体力学杂志》870卷,106-120页(2019年)。
  31. 米兰诺·M 与库穆察科斯·P。近壁湍流的神经网络建模。《计算物理学杂志》182 卷,1-26 页(2002 年)。
  32. 杨晓东、扎法尔·S、王建新与肖航。基于物理信息神经网络的预测性大涡模拟壁面建模。《流体物理评论》4 卷,034602(2019 年)。
  33. 洛萨诺-杜兰·A 与裴浩俊。面向外部空气动力学的自批判机器学习壁面建模大涡模拟。《湍流研究中心年度研究简报》2020 年,197-210 页(2020 年)。
  34. Nadiga, B. T. 和 Livescu, D. 隐式滤波大涡模拟地转湍流中完美亚网格模型的不稳定性。《物理评论 E》75 卷,046303 (2007 年)。
  35. Wu, J.-L., Xiao, H. 和 Paterson, E. 基于物理信息的机器学习方法增强湍流模型:一个综合框架。《物理评论流体》3 卷,074602 (2018 年)。
  36. Beck, A., Flad, D. 和 Munz, C.-D. 数据驱动的大涡模拟闭合模型的深度神经网络。《计算物理学杂志》398 卷,108910 (2019 年)。
  37. Bertsekas, D. P. 《强化学习与最优控制》(雅典娜科学出版社,2019 年)。
  38. 莱文,S.,芬恩,C.,达雷尔,T. 和阿比尔,P. 深度视觉运动策略的端到端训练。《机器学习研究杂志》17, 1334-1373 (2016).
  39. 雷迪,G.,塞拉尼,A.,塞诺夫斯基,T. J. 和维尔加索拉,M. 在湍流环境中学习翱翔。《美国国家科学院院刊》113, E4877-E4884 (2016).
  40. 姆尼赫,V. 等。通过深度强化学习实现人类水平的控制。《自然》518, 529-533 (2015).
  41. 西尔弗,D. 等。利用深度神经网络和树搜索掌握围棋游戏。《自然》529, 484 (2016).
  42. Gazzola, M., Hejazialhosseini, B. 与 Koumoutsakos, P. 通过强化学习与小波适应涡方法模拟自推进游泳者。《SIAM 科学计算杂志》36 卷,B622-B639 页(2014 年)。
  43. Novati, G. 等。通过学习实现两个自推进游泳者的同步。《生物灵感与仿生学》12 卷,036001 号(2017 年)。
  44. Verma, S., Novati, G. 与 Koumoutsakos, P. 利用深度强化学习驾驭涡流实现高效集体游泳。《美国国家科学院院刊》115 卷,5849-5854 页(2018 年)。
  45. Biferale, L., Bonaccorso, F., Buzzicotti, M., Clark Di Leoni, P. 与 Gustavsson, K. 齐默罗问题:基于强化学习的二维湍流中最优点对点导航。《混沌》29 卷,103138 号(2019 年)。
  46. Novati, G., Lascombes de Laroussilhe, H. & Koumoutsakos, P. 通过多智能体强化学习实现湍流建模自动化。《自然-机器智能》3, 87-96 (2020).
  47. Lee, J., Cho, M. & Choi, H. 高雷诺数下采用平均壁面剪切应力边界条件的湍流通道与边界层流动大涡模拟。《流体物理学》25, 110808 (2013).
  48. Millikan, C. B. 关于渠道与圆管湍流流动的批判性讨论。载于《第五届国际应用力学大会论文集》(编者 Hartog, J.P.D. & Peters, H.)386-392 页(Wiley 出版社,1939).
  49. Schlichting, H. & Kestin, J. 《边界层理论》第 121 卷(Springer 出版社,1961).
  50. Mathis, R., Marusic, I., Chernyshenko, S. I. 与 Hutchins, N. 基于外部区域输入估算壁面剪切应力波动。《流体力学杂志》715 卷, 163 页 (2013 年).
  51. Cheng, C., Li, W., Lozano-Durán, A. 与 Liu, H. 湍流通道流中流向壁面剪切应力波动的结构研究。《流体力学杂志》903 卷, A29 页 (2020 年).
  52. Park, G. I. 与 Moin, P. 壁模型大涡模拟中壁面压力与壁面剪切应力波动的时空特性。《物理评论·流体》1 卷, 024404 页 (2016 年).
  53. Yang, X. I. A., Park, G. I. 与 Moin, P. 壁模型大涡模拟中对数层失配与壁面应力波动建模。《物理评论·流体》2 卷, 104601 页 (2017 年).
  54. Novati, G. 与 Koumoutsakos, P. 经验回放中的记忆与遗忘机制。见《第 36 届国际机器学习会议论文集》(编者:Chaudhuri, K. 和 Salakhutdinov, R.)4851-4860 页(机器学习研究论文集,2019 年)。
  55. Munos, R., Stepleton, T., Harutyunyan, A. 及 Bellemare, M. G. 安全高效的离策略强化学习。载于《神经信息处理系统进展》第 29 卷,1054-1062 页(编者:Lee, D. D., von Luxburg, U., Garnett, R., Sugiyama, M. 和 Guyon, I.)(Curran Associates 公司,2016 年)。
  56. Glorot, X. 与 Bengio, Y. 深度前馈神经网络训练难度的理解。见《第十三届国际人工智能与统计会议论文集》,249-256 页(编者:Teh, Y. W. 和 Titterington, M.)(JMLR 研讨会及会议论文集,2010 年)。
  57. Kingma, D. P. 和 Ba, J. L. Adam:一种随机优化方法。载于《第三届国际学习表征会议(ICLR)论文集》(2014 年)。
  58. 奥尔兰迪, P. 《流体流动现象:数值工具包》。流体流动现象:数值工具包(Springer 出版社,2000 年)。
  59. 金, J. 与 莫因, P. 分数步方法在不可压缩纳维-斯托克斯方程中的应用。《计算物理杂志》59 卷,308-323 页(1985 年)。
  60. 雷, A. A. 谱方法中最小存储时间推进方案的技术报告。美国宇航局艾姆斯研究中心,加利福尼亚,报告编号 MS 202(1990 年)。
  61. 罗泽马, W., 裴, H. J., 莫因, P. 与 弗斯塔彭, R. 大涡模拟的最小耗散模型。《流体物理学》27 卷,085107 号(2015 年)。
  62. 哈林, S. W., 李, M. & 莫泽, R. D. 大涡模拟中分辨率诱导的各向异性。《物理评论·流体》4, 114605 (2019).
  63. 裴, H. J. & 洛萨诺-杜兰, A. 壁面边界条件对有限差分框架下壁模型大涡模拟的影响。《流体》6, 112 (2021).
  64. 伦德, T. S., 吴, X. & 斯夸尔斯, K. D. 空间发展边界层模拟的湍流流入数据生成。《计算物理杂志》140, 233-258 (1998).
  65. 尼基京, N. 流入边界条件导致的空间演化湍流空间周期性。《物理流体》19, 091703 (2007).
  66. Simens, M. P., Jiménez, J., Hoyas, S. 和 Mizuno, Y. 一种用于湍流边界层的高分辨率计算代码。《计算物理学杂志》228, 4218-4231 (2009).
  67. Pauley, L. L., Moin, P. 和 Reynolds, W. C. 二维分离结构。《流体力学杂志》220, 397-411 (1990).
  68. Bae, H. J., Lozano-Durán, A., Bose, S. T. 和 Moin, P. 壁面流动大涡模拟中的湍流强度。《物理评论·流体》3, 014610 (2018).
  69. Lozano-Durán, A. 和 Bae, H. J. Townsend 壁面附着涡的特征尺度。《流体力学杂志》868, 698 (2019).
  70. Lozano-Durán, A. 与 Bae, H. J. 壁面约束湍流外区中大涡模拟的误差标度律。《计算物理学杂志》392 卷,532-555 页(2019 年)。
  71. Lozano-Durán, A., Hack, M. J. P. 与 Moin, P. 利用抛物化稳定性方程模拟直接和大涡模拟中的边界层转捩。《流体物理评论》3 卷,023901(2018 年)。
  72. Sillero, J. A., Jiménez, J. 与 Moser, R. D. 雷诺数高达 δ + 2000 δ + 2000 delta^(+)~~2000\delta^{+} \approx 2000 的湍流边界层与槽道流动两点统计。《流体物理学》26 卷,105109(2014 年)。

致谢

作者感谢美国空军科学研究办公室(AFOSR)多学科大学研究计划(MURI)项目的支持,项目名称为:由外源性原因或内在不稳定性引起的极端事件的预测、统计量化与缓解,资助编号 FA9550-21-1-0058。计算资源由瑞士国家超级计算中心(CSCS)项目 9929 提供。

作者贡献

H.J.B.与 P.K.共同构思了本研究,设计并执行实验,分析数据并撰写论文;P.K.提出了 SciMARL 的概念,监督项目进展并审校稿件。

利益竞争

作者声明无竞争性利益。

补充信息

补充说明 在线版本包含补充材料,可访问 https://doi.org/10.1038/s41467-022-28957-7 获取。
材料和通信请求应发送至 H. Jane Bae 或 Petros Koumoutsakos。
同行评审信息:《自然-通讯》感谢匿名审稿人对本工作同行评审的贡献。审稿人报告可供查阅。
重印及许可信息详见 http://www.nature.com/reprints
出版商注:施普林格·自然对于出版地图中管辖权主张及机构附属关系保持中立。
开放获取 本文依据知识共享署名 4.0 国际许可协议授权,该许可允许在任何媒介或格式中自由使用、分享、改编、分发及复制内容,只需恰当标明原作者及来源,提供知识共享许可协议链接,并说明是否作出修改。除非文中特别标注,本文所含图片或其他第三方素材均默认包含在文章的创作共用许可中。若素材未被涵盖于该许可范围,或您的预期用途超出法定允许范畴,您需直接向版权方获取授权。访问 http://creativecommons.org/licenses/by/4.0/可查看该许可协议副本。
© 作者(们)2022 版权所有

  1. 1 1 ^(1){ }^{1} 哈佛大学工程与应用科学学院,美国马萨诸塞州剑桥市牛津街 29 号,邮编 02138。 2 2 ^(2){ }^{2} 加州理工学院研究生航空航天实验室,美国加利福尼亚州帕萨迪纳市东加州大道 1200 号,邮编 91125。 3 3 ^(3){ }^{3} 苏黎世联邦理工学院计算科学与工程实验室,瑞士苏黎世克劳修斯街 33 号,邮编 CH-8092。 Memail: Memail:  ^("Memail: "){ }^{\text {Memail: }} jbae@caltech.edu; petros@seas.harvard.edu