老哥学习网 - www.lg9.cn 2024年05月21日 21:42 星期二
当前位置 首页 >公文范文 > 公文大全 >

基于阈值公共品博弈的无人机集群干扰决策技术

发布时间:2023-06-24 13:10:16 浏览数:

高 阳,田 达,吴克钊,陈 卓

(1.中国航天科工集团8511研究所,江苏 南京 210007;
2.中国航天科工集团第二研究院,北京 100854)

现代战争中,为了弥补单架无人机载荷能力有限、任务容错性不足等局限性,无人机的作战已经逐步从单平台作战向多平台“集群”方向发展[1]。以机载电子攻击作战应用为例,传统的防区外大功率干扰虽然可以用于远距离支援作战,但系统成本高、辐射特征明显、易受攻击,且干扰方向单一,面对敌方阵列系统强大的空域处理抗干扰能力,很难达到满意的干扰效果。不同于传统干扰方式,利用无人机集群携带小型干扰机可以抵近敌方实施近距离支援干扰(Stand-in Jamming,SIJ),降低单机干扰功率需求的同时,增加了敌方阵列系统空域抗干扰的难度,且无人机成本低廉,避免了作战人员消耗,具有极高的作战交换比。然而在实际情况中,由于战场环境存在高度不确定性且实时动态变化这一特点,对大规模的无人机作战集群进行预先设置任务或人为操控均存在一定困难。因此需要为无人机赋予一定自主能力,使其可以在复杂的场景下根据预设准则调节自身策略,同时实现集群内部自组织,进而整体涌现出群体作战效能[2]。文献[3]指出完全具备自主决策行为的智能体目前还处于早期的研究阶段,为完全实现群体行为上的智能,众多学者提出了多种行为决策的理论方法,如微分对策(Differential Game)理论、进化算法(Evolutionary Algorithms)、影响图法(Influence Diagram Method)等。

博弈论可以很好地阐述人类社会中的合作与竞争行为,其中阈值公共品博弈(Threshold Public Goods Game)模型[4]描述了有限理性的个体在多轮的迭代过程中,不断调整自身策略来适应环境变化的过程,该模型在经济贸易、社会合作、环境治理中有较为广泛的应用,此博弈模型为研究如何解决集群多智能体之间的内部协作提供了一种可行的思路。

鉴于此,本文以阈值公共品博弈为基础,对无人机集群协同干扰问题进行建模,引入人类社会中协作治理机制中的内生性惩罚措施,结合实际应用,对集群自主决策进行研究。

以无人机集群深入敌方防区执行对敌防空压制任务为例,假定各架无人机截获敌方电子威胁信号后,协同飞行至敌防空阵地附近空域,采用相同的发射功率在大致相同的距离上,对敌方电子威胁进行瞄频噪声压制干扰,掩护我方突防飞机沿特定航线实施作战行动,场景示意如图1所示。

图1 无人机掩护突防飞机示意图Fig.1 Schematic diagram of UAV cover penetration aircraft

假定单机干扰功率为Pj,多机之间噪声干扰相互独立,则在雷达接收机处,每部干扰机产生的噪声功率近似线性叠加,功率效果上相当于一部干扰功率为PJ=∑Pj的大型干扰机,此时雷达系统的烧穿(Burn-Through)距离RBT为:

(1)

式中,σ为待掩护目标的雷达散射截面积(Radar Cross Section,RCS),Kj为压制系数,GJ为干扰机天线增益,RJ为干扰机与雷达距离。Pt为雷达发射机功率峰值,Gt为天线主瓣增益,G′为天线旁瓣增益,L为系统损耗。

对于无人干扰机集群而言,应依据敌方雷达位置和我方突防飞机位置,合理动态配置干扰功率资源,使得被掩护目标始终处于雷达烧穿距离之外。总的干扰功率过低,显然无法对目标进行有效掩护。若总的干扰功率太高,则可能造成不必要的资源浪费,导致持续干扰的时间缩短,无法进行长时间掩护。同时,高度智能化的节点由于其“自私性”的存在,在极端情况下,集群中的每一个节点从自身利益出发将均不去执行干扰,因此,研究如何设置合理的机制使得干扰节点在满足干扰功率阈值的前提下,最大化系统工作时长具有一定的现实意义。

在实际行动中,可将上述问题抽象为集体行动问题,即群体内部如何协调,从而形成一种能够稳定各方行为预期的行为模式[5]。从完全理性的角度出发,“自私”的个体不会自愿为集体利益贡献力量,即传统的博弈理论认为个体的理性将导致集体的非理性,但从现实情况出发,合作的行为却无处不在。

最早的非零和博弈理论模型之一,囚徒困境博弈(Prisoner’s Dilemma Game)描述了两个理性个体追求自身利益最大化从而导致纳什均衡仅落在非合作点上。随后,将该模型扩展为多人博弈,提出公共物品博弈模型(Public Goods Game),此时唯一的纳什均衡为所有个体均选择背叛行为。但值得指出的是,在公共物品博弈模型中,很多的收益具有临界性。例如,巴黎协定中提出“其目标为国际社会,应在本世纪内把全球平均气温较工业化前水平升高幅度控制在2℃之内,同时努力将升温幅度控制在 1.5℃之内”。这类具有最低提供成本的公共品被称为阈值公共品(Threshold Public Goods)。

2.1 阈值公共品博弈模型

对于一个多节点同时行动的阈值公共品博弈Γ={N,A,u,T},其中N={1,2,…,N}为参与节点集合,A={a1,a2}为可能的行动集合,且满足a1

(2)

引入的倍增系数r(r≥1)表示集群整体对外作用时所带来效能的变化,当无人机集群进行协同干扰时,相较于单机压制干扰,多干扰机协同干扰会对雷达探测区域带来更大角度范围的压制。同时要使博弈满足公共物品博弈模型框架,以上各参数需满足Na1Na2>T,即存在公共品被提供的可能性;
rT/N>a2,即提供公共物品对个体而言有利可图。

在每一次博弈过程中,N个节点同时从自身行动集合A中选择一个行动,构成行动组合c=AN,C={n1,n2}用以表示节点中选择各个行动的节点数目。所有能够成功提供公共物品的组合行动可以记为:

(3)

事实上,对于合作与非合作策略下的无退款保证(Money-back Guarantee)机制下阈值公共品博弈模型,文献[6]已经证明,在基于模仿的演化动态下,背叛均衡是局部稳定的,即在一定的参数情况下,合作者与背叛者可以在网络中共存。

2.2 策略更新准则

在网络演化博弈的过程中主要存在两类网络:相互作用网络(Interaction Graph)和策略学习网络(Learning Graph),前者主要描述个体之间的博弈关系,后者用来描述个体的收益和策略信息。

从时序的角度出发,对网络中的节点而言,主要有同步更新(Synchronous Updating)和异步更新(Asynchronous Updating)。同步更新是指所有的个体在每个离散时间步内将同步更新自身策略。异步更新是指在每一轮博弈中,随机选择某些个体以一定概率进行策略更新。

从无人机个体角度出发,自身希望通过学习成功的行为来强化自身收益。因此,在博弈过程中,个体会根据某种规则来调节自身行为,从关注邻居节点的角度来看,策略演化规则有学习最优者、模仿优胜者以及配对比较等。此外,借鉴“赢存输变”(Win-Stay,Lost-Shift,WSLS)规则,个体也可以根据自身的收益满意程度进行策略更新。其中,愿景驱动规则[7]侧重于将博弈收益与愿景水平(Aspiration Level)比较而进行新的决策,此时个体主观认识起主导作用,对焦点个体X而言,其从A策略切换到B策略的概率表达式为:

(4)

式中,α为愿景水平用以表示个体在博弈过程中期望获得的收益,ω∈[0,1]为选择强度,πA(i)为A策略下个体的收益。对于集群中的智能体,借鉴强化学习中的思想,与外部环境进行交互,从而进行决策来最大化自身回报[8]。其基本思想为:如果某个行动回报值较高,则在以后增加使用此行动的可能性,反之则减少,常用的算法有Q-learning、SARSA、Roth-Ever等。

Roth-Ever模型因简单易用得到了广泛应用,在Roth-Ever算法中,实施行动共分为两步:行动倾向的更新以及行动倾向到概率的转换,行动倾向的具体更新方法为:

qj=(t+1)=[1-φ]qj(t)+Ej(ξ,k,t),

(5)

在各个时刻t、qj表示行动策略为j的倾向,k为上次行动所选择的策略,rk为上次行动所获得的回报,N为所有策略中可能行动的个数。ξ为经验系数,可用以归纳某些“类似”策略,φ为更新系数,用以减弱过去行为的影响。该式表明,新的行动趋势为之前的选择行动与上轮回报的组合。上轮回报值越大,新的行动更倾向于之前的行动。随着时间的推进,回报值较大的行动倾向性会更大。

行动倾向转换为行动概率的表达式为:

(6)

式中,qm(t),m∈[1,j],为行动策略集合中各个行动的倾向性。

2.3 惩罚措施

在人类社会中,带有成本的惩罚措施可以有效维持社会合作,也是保证群体合作可持续的必要条件[9]。从惩罚的实施角度出发,主要包括外生惩罚和内生惩罚,外生惩罚是指群体外部所施加的惩罚措施,内生惩罚是群体内部自我组织、协商所达成的惩罚措施。已有大量的实证和理论研究认为,内生惩罚机制会促进群体之间的合作行为的产生,即群体内部协商选择会带来“内生溢价”。

以上述思路为基础,引入内生性惩罚措施,促进集群之间的内部治理,当集群所投入干扰功率小于阈值时,集群各个节点共享预设的惩罚值,从而促进集体行动的维持以满足干扰功率需求。

以某型防空雷达为例,其具体能力参数为:雷达发射机峰值Pt=6×106W,天线主瓣增益Gt=42 dB,旁瓣增益G′=0 dB,工作带宽B=10 MHz,系统损耗L=1 dB。

假定无人机集群(规模不小于20架)与敌方雷达距离Rj=5 km,干扰机天线增益GJ=8 dB,单机干扰功率Pj=10 W,我方突防飞机(待掩护目标)RCS为1 m2,要求雷达烧穿距离不大于80 km,压制系数Kj=13.3 dB。由式(1)计算可得,此时所需干扰机峰值功率为:PJ=22.0 dBW,即所需功率阈值为PJ=158.5 W。

3.1 无惩罚机制

由前所述,当无人机集群发起协同干扰工作时,假定无人机集群中节点数量规模为20,其中倍增系数r=1,ξ=0.05,φ=0.05。

若不引入惩罚措施,即完全考虑个体的自愿行为时,在初始阶段,集群内部个体之间无明显策略倾向,随着博弈的进行,个体内部的行为策略会发生明显的倾向,当博弈稳定以后得到各节点策略的统计平均值变化情况,如图 2所示。

图2 节点行为概率变化示意图Fig.2 Schematic diagram of node behavior probability changes

从上述仿真结果可以看出,在无惩罚措施的机制下,个体从最大化自身利益的角度出发,选择不干扰概率将远大于选择干扰的概率,此时干扰行动将无法成功维持。

3.2 有惩罚机制

当引入内生性惩罚措施时,即当集群各节点所投入功率未满足干扰功率阈值时,集群内部将共享预设的惩罚值。节点数量为20,倍增系数r=1,ξ=0.05,φ=0.05,为保证实验数据排除偶然误差影响,统计数据为博弈稳定以后500步内均值,重复5次实验取统计平均值,此时得出在不同预设惩罚值下个体行为概率的变化情况如图 3所示。

图3 不同惩罚值下节点行为概率变化示意图Fig.3 Schematic diagram of node behavior probability changes under different penalty values

从仿真结果可以看出,引入内生性惩罚措施可以极大改善个体“搭便车”的行为,个体将更倾向于选择干扰策略,同时由图3可以看出,随着预设惩罚值的变大,个体倾向于干扰的概率将持续性变高。

在不同的预设惩罚值下,节点投入的总干扰功率与所设定阈值对比示意如图 4所示。

图4 不同惩罚值下集群投入干扰功率统计均值与阈值对比示意图Fig.4 Schematic diagram of the comparison between the statistical mean and threshold of cluster input interference power under different penalty values

从图4可以得出,当预设惩罚值为8时,即惩罚值固定为个体能力的0.8,此时集体投入的总干扰功率可以满足所需的干扰功率的阈值,且此时投入的总资源最低,实现了干扰资源的最优配置,同时可持续维持干扰。

在实际行动过程中,干扰阈值功率将根据实际情况进行调整,保持博弈模型中的惩罚值不变,考虑突防飞机与敌方雷达之间距离的变化情况会带来所需阈值干扰功率的变化,如飞机从距离雷达150 km突防至距离80 km,以10 km为间隔,由式(1)计算可得所需干扰功率阈值变化范围为12.8~158.5 W。

采用本文方法得到的集群投入干扰功率统计对比仿真结果如图 5所示。

图5 不同干扰阈值下集群投入功率变化图Fig.5 Variation diagram of cluster input power under different interference thresholds

由图 5可以看出,集群所投入总功率可以很好满足干扰阈值动态变化的情形。这意味着在作战过程中,集群中的干扰资源投入可根据需要自行动态调整。这种决策机制下可以使集群整体投入功率资源最小,从而最大化干扰时长,确保了集群整体的干扰作战任务持续时间。

本文以无人机集群自主协同干扰为着眼点,结合实际场景,为实现集群干扰效能最大化,以阈值公共品博弈模型为基础,引入内生性惩罚措施。在这种辅助决策机制下,设定固定惩罚值为0.8时,干扰无人机集群内部可以在无需关注邻居节点的模式下实现协同干扰,同时在实现干扰任务的同时最小化集群整体能量消耗,为无人机集群作战的决策机制提供辅助手段。

在实际情况下,无人机集群多采用混编结构,例如在集群内部有侦察无人机、电子对抗无人机、攻击无人机等,探究此种情况下的内部协作机制是今后值得研究的方向。

猜你喜欢 公共品干扰机惩罚 ——以乡村殡葬改革为例">乡村非物质性公共品需求动向与供给变革
——以乡村殡葬改革为例宿州学院学报(2020年9期)2020-10-14神的惩罚小读者(2020年2期)2020-03-12雷声公司交付首套中频段下一代干扰机航天电子对抗(2019年4期)2019-12-04Jokes笑话阅读(快乐英语高年级)(2019年11期)2019-09-10惩罚趣味(语文)(2018年1期)2018-05-25基于压缩感知的单脉冲雷达欺骗干扰机研究北京航空航天大学学报(2017年9期)2017-12-18空袭远距离支援干扰机阵位选择及航线规划军事运筹与系统工程(2016年4期)2016-07-10美国海军将研制新一代干扰机现代兵器(2016年6期)2016-06-25风险条件下的社会偏好和社会合作*学术研究(2015年4期)2015-12-16真正的惩罚等学苑创造·A版(2015年6期)2015-07-01

推荐访问:阈值 无人机 集群

相关文章:

Top