公开一种遗传编程与强化学习相融合的可解释智能流动控制方法:本技术将神经网络中的自动微分机制引入到线性遗传编程中,通过梯度下降算法自动调整线性遗传编程所得到的显式表达式,能够大幅减少控制律优化所需要的时间;显式符号表达控制律相比神经网络控制律有着更强的可解释性,便于研究人员更好理解控制机理和发现新的物理知识;该框架可以根据不同控制目标设置状态传感器和不同的奖励函数,具有很强的通用性。
背景技术
主动流动控制(AFC)通过激励器向流场输入额外能量以改善飞行器的整体性能,从而增大升力和减小飞行阻力。大部分AFC的研究和应用是在固定控制参数下的开环控制,相比于开环控制,闭环控制可以根据状态传感器的实时反馈调整控制参数或控制策略,从而提高AFC的控制收益和鲁棒性。当前,以线性遗传编程(LGP)和深度强化学习(DRL)为代表的智能闭环控制方法已经被广泛用于AFC领域,如圆柱绕流、翼型分离控制等。然而在现有的智能流动控制框架中,仍存在几个亟待解决的问题。第一,尽管LGP方法简单易行并且可以避免陷入局部最优策略,但是整个控制律优化过程包含数百次的迭代,往往需要耗费几个小时的时间(Li,R.,Noack,B.R.,Cordier,L.,Borée,J.,Harambat,F.(2017).Dragreduction of a car model by linear genetic programming control.Experiments inFluids58,103.doi:10.1007/s00348-017-2382-2),高昂的时间成本使其难以应用于工程实际。第二,虽然DRL方法可以在线学习将策略优化过程缩短至几分钟并取得与LGP相当的控制收益,但是由于DRL中控制律由深度神经网络近似,神经网络的“黑箱性质”使得研究人员难以进一步地挖掘最优控制律背后的物理解释和流动机制(姚张奕,史志伟,董益章.深度强化学习在翼型分离流动控制中的应用[J].实验流体力学,2022,36(03):55-64.)。为进一步提升闭环流动控制的效能,亟需发展一种可解释性强、学习速度快的智能学习框架。
实现思路