老哥学习网 - www.lg9.cn 2024年05月16日 01:40 星期四
当前位置 首页 >公文范文 > 公文大全 >

基于改进深度Q网络算法的多园区综合能源系统能量管理方法

发布时间:2023-06-15 18:35:10 浏览数:

薛溟枫,毛晓波,肖浩,浦骁威,裴玮

(1.国网江苏省电力有限公司无锡供电分公司,江苏省无锡市 214000;
2.中国科学院电工研究所,北京市 100190)

为了推动全球低碳转型的进程,中国在2020年9月宣布力争2030年前实现碳达峰,2060年前实现碳中和的目标[1]。“双碳”目标的提出给碳排放中占比较大的能源电力行业带来了新的挑战[2]。园区综合能源系统可以实现电、热、气多能源互补,是优化能源结构转型、促进低碳发展、助力“双碳”目标实现的重要抓手。面向园区微电网的建设方向正逐步从“源-源”横向多能互补系统向“源-网-荷-储”纵向一体化的综合能源系统发展。合理地对园区综合能源系统进行能量管理是减小分布式能源(distributed energy resource,DER)波动对电网冲击、促进可再生能源发展应用,以及缓解化石能源紧张、减少碳排放的有效途径。因此,对园区综合能源系统配置合理有效的能量管理方法对加速推进低碳综合能源系统的建设具有重要意义[3]。

目前,针对园区综合能源系统群的能量管理和优化调度已有大量研究[4-12],其中主流方法包括以非线性规划、二阶锥规划、混合整数规划等为代表的数学优化类方法以及以遗传算法、粒子群算法为代表的启发式算法。在数学优化方法方面,文献[12]基于传热学原理推导出了热网潮流的网络流量-温度基本方程,并用混合整数线性规范的方法解决了冷热电联供系统的优化运行问题。文献[13]提出了一种混合整数的二阶锥优化方法,采用二阶锥松弛方法将园区综合能源系统优化模型转化为具有凸可行域的数学规划形式,使优化问题便于求解。上述方法虽然理论清晰,且一定程度能保障解的最优性,但此类数学规划模型通常是对供能系统的约束条件做适当简化,在处理大规模非线性规划问题时具有局限性。在启发式算法方面,文献[14]采用两阶段多目标优化方法来设计园区综合能源系统的运行方案,第一阶段采用多目标粒子群算法优化系统的设备类型和容量,第二阶段用CPLEX求解器进一步优化设备的小时出力,有效提高了园区综合能源系统的综合收益。文献[15]开展了针对冷热联供分布式供能系统的能量管理研究,借鉴大系统经济调度优化控制方法,将优化问题转化为带离散变量的非线性规划问题,并用遗传算法进行求解。文献[16]着眼于园区综合能源系统的经济性和环保性,用粒子群算法(particle swarm optimization,PSO)解决以电为核心的综合能源系统优化调度模型。上述启发式算法虽然求解方便且可以保证在多项式时间内给出较优的结果,但是求解的结果难以保证解的全局最优性。

强化学习技术是近年来新兴的一项人工智能技术,其通过马尔科夫决策过程,使智能体在与环境的不断交互中逐渐学习到回报最大的策略,在高难度决策类问题上有较出色的表现[17]。目前不少研究将强化学习应用到了园区综合能源系统的决策控制中。文献[18]将深度策略梯度方法(deep deterministic policy gradient,DDPG)应用于园区综合能源系统能源服务商的定价和调度策略。文献[19]提出了一种双层强化学习方法,该方法上层为深度Q网络(deep Q network,DQN),下层为混合整数线性规划优化器,可以解决园区综合能源系统中复杂的能源耦合关系。文献[20]借助贝叶斯神经网络对不确定的学习环境建模,将综合能源系统优化运行问题转变为马尔科夫决策问题,并通过深度强化学习算法寻找最优运行策略。文献[21-22]对园区综合能源系统中多主体博弈的定价机制、多主体联合规划方式以及多能源优化调度机制进行了研究,分析了含配电网、配气网、配热网和多个能量枢纽组成的园区综合能源系统的运行机制,提出了考虑供能网络安全约束的园区综合能源系统多主体运行优化方法。但是多主体博弈理论下的能源优化调度会面临多主体互动机制复杂、智能体动作空间维度庞大的问题,这会导致智能体对动作空间的探索效率低下,算法的稳定性不佳,从而易收敛至局部最优,学习到非最优策略。

针对现有工作的不足之处,本文针对多能耦合的多园区综合能源系统能量管理问题展开研究,提出一种新型基于改进深度Q网络(modified deep Q network,MDQN)算法的园区综合能源系统能量管理方法。该方法首先通过长短期记忆(long short-term memory,LSTM)网络对多智能体决策的环境进行封装,解决马尔科夫决策环境的动态性问题;
其次在训练智能体阶段引入一种优先动作采样的策略来改进DQN算法,解决在大规模动作空间下的动作探索效率低下的问题,保证智能体在有限的时间内学习到最优调度策略。最后通过园区综合能源系统群的算例仿真验证所提方法的有效性与经济性。

本文以包含电力以及热力的多园区综合能源系统为例,其构成如图1所示。

多园区综合能源系统由若干个综合能源系统以及一个外部综合能源系统构成。每个园区综合能源系统之间可以自由定价、交易,同时也可以与外部综合能源系统进行交易,但不具备自主定价权。为了保证园区内能源的平衡,将外部综合能源系统设定为一个无穷大的能源系统。当园区内部总体能源过剩时,外部综合能源系统可以收购盈余的能源;
反之,当园区内部总体能源紧缺时,外部综合能源系统也可以出售足够的能源。园区内每个产消者所包含的能源设备包括:微燃机、燃气锅炉、分布式储电设备、分布式储热设备、热负荷以及电负荷,其中电负荷可以分成价格响应型负荷以及恒温控制型负荷(thermostatically controlled loads,TCL)。

图1 园区综合能源系统总体结构Fig.1 Overall structure of the park-level integrated energy system

2.1 分布式储能元件模型

分布式储能元件的储能动态过程可以由式(1)来表示:

(1)

式中:Bt∈[0,Bmax]为t时刻存储在分布式储能元件中的电能,Bmax为最大储能能力;
ηc、ηd∈[0,1]分别为储能系统(energy storage system,ESS)的充放电系数;
Ct∈[0,Cmax]为t时刻的实时充电功率,Cmax为最大充电功率;
Dt∈[0,Dmax]为t时刻的实时放电功率,Dmax为最大放电功率。

同时为了整个综合能源系统的量纲统一,引入表征分布式储能元件的能量存储量荷电状态(state-of-charge,SoC)Soc,t的定义:

(2)

SoC反映了每一时刻ESS储能罐的储能百分比,同时满足如式(3)所示的约束:

(3)

式(3)的约束表明任意时间段内的储能都有上下限,同时储能装置在每天开始与最终的荷电状态相同,确保储能装置满足下一日的园区综合能源系统运行需求。

2.2 恒温控制负荷模型

具有热守恒性质的负荷,如空调、冰箱、热水器、热泵等,都可以视为恒温控制型负荷。

TCL的温度动态过程可以由式(4)来刻画:

(4)

(5)

(6)

图2 TCL控制流Fig.2 Diagram of TCL control flow

2.3 价格响应型负荷模型

无法直接被控制,主要由用户需求影响的负荷称为价格响应型负荷。这类负荷通常会受到电价的间接影响,其负荷功率平衡方程为:

(7)

(8)

(9)

式中:ωij∈{0,1}为第i个价格响应型负荷在第j个时刻转移负荷的决策。

价格响应型负荷的ωij与当前的市场价格水平δt及经历过的时间步有关,服从式(10)所示的概率分布:

(10)

(11)

式中:λi∈[0,1]为耐心系数。

式(11)的概率分布刻画了负荷转移的决策机制,即当前市场电价越高,当前时间步距离目标时间步越久,负荷就越不容易转移。

2.4 微燃机模型

天然气燃烧时的高品位热能做功驱动微燃机发电,所排出的高温余热烟气经溴冷机后用于取暖及供应生活热水[23]。忽略外界环境变化对发电、燃料燃烧效率的影响,微燃机的热电关系数学模型为:

(12)

式中:QMT(t)、PMT(t)、ηMT(t)分别为t时段微燃机的排气余热量、电功率和发电效率;
ηL为散热损失率。

(13)

式中:Δt为单位调度时间;
CMT(t)为t时段微燃机的燃料成本;
CCH4为天然气单价;
LHVNG为天然气低热值。

2.5 燃气锅炉模型

燃气锅炉可以实现电热转换并对电热负荷进行削峰填谷,有利于维护园区综合能源系统内部的能源供需平衡,其出力模型为:

QEB(t)=PEB(t)ηah

(14)

式中:PEB(t)、QEB(t)分别为t时段蒸汽锅炉用电和制热功率;
ηah为蒸汽锅炉的电热转换效率。

2.6 分布式储热罐模型

分布式储热罐可对热负荷进行时段性转移,缓解园区内电热负荷与热电联供系统电热比不匹配的矛盾,进而实现电热统一协调管理,改善园区综合能源系统的电热调度水平[23],储热罐的动态数学模型为:

(15)

式中:HHS(t)为t时段储热罐储热;
μ为储热罐散热损失率;
QHS_ch(t)、QHS_dis(t)和ηhch、ηhdis分别为t时段的吸放热功率及吸放热效率。

多园区综合能源系统的能量管理既要考虑热、电多种能源的随机性、储能元件带来的时序决策耦合性、多能源转化、存储的复杂性和多样性,同时还要考虑其他园区综合能源系统可能会采取的策略,因此其决策处在高维空间,给园区综合能源系统的实时快速最优能量管理带来巨大挑战。针对这一难题,本文首先对各园区综合能源系统外部互动环境进行等值封装建模,有效实现在外部输入环境状态下估值当前能源交易额的功能,进而将多智能体强化学习环境问题转化为单智能体强化学习问题,降低多园区互动运行的决策复杂度。在此基础上,针对每个园区综合能源系统分别用MDQN方法进行在线学习,提高决策效率,进一步保障多园区综合能源系统在多种场景下的实时决策。

3.1 基于LSTM深度网络的各园区综合能源系统外部互动环境等值建模

对于园区综合能源系统群来说,各园区综合能源系统能量管理可调资源除了内部的可控机组外,还同时存在与外部各园区综合能源系统的互动,而外部各园区综合能源系统的互动特性复杂且时变,要实现对各园区综合能源系统的有效能量管理,需要首先对外部各园区综合能源系统的互动特性精确感知。本文基于LSTM深度网络对各园区综合能源系统外部互动环境进行等值建模[24]。

为了使封装模型更具泛化能力,首先查询各园区综合能源系统的历史能源交易数据,获取不同外部激励下的能源交易信息;
接着将外部环境的时序信息作为输入特征,将对应的能源交易信息作为输出标签送入LSTM神经网络进行训练。具体的封装流程如图3所示。

图3所示的园区综合能源系统封装模型主要分为2个阶段:第一阶段是训练阶段,通过海量离线数据的输入,将不同外部激励下的能源交易额和外部时序特征作为LSTM网络的输入,查询能源交易额作为监督学习的标签;
第二阶段是预测阶段,在训练完成后可以实时地根据不同的外部激励预测出该产消者的能源交易额。

3.2 MDQN算法

园区综合能源系统的能量管理过程可建模为马尔科夫决策过程(Markov decision process,MDP),本文采用MDQN算法对其进行建模和求解,具体包括状态空间S、动作空间A、奖励函数R以及衰减系数γ,记作δMDP={S,A,R,γ}。

图3 园区综合能源系统等值封装模型Fig.3 Equivalent package model of park-level integrated energy system

3.2.1 状态空间

智能体可观测到的状态空间为:

S=SC×SX×ST

(16)

式中:SC表示可控观测量;
SX表示不可控观测量;
ST表示时序信息观测量。

可控观测量包括园区综合能源系统内部分布式储能状态量Soc,t,TCL的状态量Sot,t以及市场价格水平δt,可控观测量为:

SC=[Soc,t,Sot,t,δt]

(17)

(18)

时序信息观测量包括当前天数td、当前小时th。

ST=[td,th]

(19)

3.2.2 动作空间

将每个园区综合能源系统的控制中心视作一个智能体,其动作空间为一个10维的离散空间。该动作空间主要包括对电能的控制Ae以及对热能的控制Ah。

A=Ae×Ah

(20)

对电能的控制动作为:

Ae=[atcl,al,ac,aG,ap,as]

(21)

式中:atcl为TCL的控制信号;
al为价格响应型电负荷的控制信息;
ac为分布式储能罐的充放电控制信号;
aG为燃气轮机的发电功率控制信号;
ap为电能交易价格控制信号;
as为电能交易顺序控制信号。

对热能的控制动作为:

Ah=[ahc,ahG,ahp,ahs]

(22)

式中:ahc为储热罐的控制信号;
ahG为锅炉补燃控制信号;
ahp为热能交易价格控制信号;
ahs为热能交易顺序控制信号。

3.2.3 奖励函数

为了使每个园区综合能源系统的能源管理方案负荷自身利益最大化,设计式(23)所示的奖励函数Rt:

Rt=St-Ft+Mt

(23)

式中:St为出售能源所获的收益;
Ft为获得能源的成本;
Mt为违反SoC平衡的惩罚项。

St主要来自向园区内部用户以及其他园区综合能源系统出售能源的收益,如式(24)所示:

(24)

获取能源的成本Ct主要来自分布式能源的发电、产热成本以及向其他园区综合能源系统的购买成本,如式(25)所示:

(25)

为了满足每一天开始与结束时的SoC平衡,引入惩罚项Mt,如式(26)所示:

(26)

式中:λ为惩罚系数,在每天的非起始时刻惩罚项始终为0,在每天的最后一个时刻根据与当天初始时刻的SoC差值确定惩罚项。

3.2.4 MDQN

DQN算法是一种基于值的深度强化学习算法,在状态空间连续的决策类问题中具有较好的表现[25]。传统DQN方法使用的是ε贪心策略,即每次选择动作时以1-ε的概率选择最优动作,以ε的概率探索其他动作,ε贪心策略的数学表达式为:

(27)

式中:π(a|s)表示策略函数,是从状态到动作的一种映射;
A(s)表示智能体可采取的动作的总数;
a*=argmaxaQ(s,a)表示贪心动作。

DQN算法采用的ε贪心策略在小规模动作空间中有助于遍历动作空间,平衡策略的探索率与利用率。但是传统的DQN算法仅适用于低维离散动作空间的强化学习环境,在面对大规模离散动作空间时会面临探索效率低下、收敛速度慢且容易收敛于次优解的问题。这是由于在高维离散的动作空间中,传统的ε贪心策略在采取非贪心策略探索时过于低效,无法有效更新Q值网络参数。本文多园区综合能源系统能量管理问题中动作空间的维度较高,所有动作的排列组合数高达125万个。

为此,本文提出一种针对大规模离散动作空间下的MDQN算法,其原理如图4所示。

图4 MDQN算法原理Fig.4 MDQN method

MDQN的核心思想是在DQN方法的基础上用k-优先采样策略来代替ε贪心策略。k-优先采样策略的表达式为:

(28)

式中:A*为所有动作价值Q(s,a)中最高的k个动作所构成的集合。

A*={(an1,an2,…,ank)|Q(s,an1)≥Q(s,an2)≥…≥
Q(s,ank)≥∀Q(s,ai)∈A}

(29)

MDQN方法在初始阶段与DQN相同,首先将当前的状态S送入Q网络,接着计算出所有动作的动作价值函数Q(s,a)。在动作选择阶段采用如式(28)、(29)所示的k-优先采样策略,先根据所有动作的Q值挑选出k个最高Q值的候选动作,接着根据softmax函数计算出k个候选动作的归一化得分,最后按照符合归一化得分的概率分布完成动作的选取。

4.1 算例设置

本文采用图5所示的园区综合能源系统进行算例仿真,该算例由3个互联的园区综合能源系统构成,并且整体与外部电网和热管网相连。

不失一般性,本文以园区综合能源系统1作为决策主体为例,将其余园区综合能源系统用2.1节所述的方法进行等值封装。每个园区综合能源系统内部含有数量不等的TCL、价格响应型负荷及热负荷,各园区内部的能源由风电、燃气轮机以及锅炉补燃提供,主要参数见表1。

算法参数方面,用于园区综合能源系统外部互动环境等值建模的LSTM深度网络的参数设置如下:输入样本为24 h的热负荷、电负荷、风电数据、光伏数据、电能交易价格数据以及热能交易价格数据,因此输入数据维度为(24,6);
经过2层含有128个隐藏元的LSTM网络后,再经过256个神经元的全连接网络,最后输出维度为2的电能交易量以及热能交易量。MDQN算法超参数设置方面,其中衰减系数γ=0.98,惩罚系数λ=0.25,k优先采样策略的初始k值设定为500且每100个训练周期(epoch)衰减一次,Q网络的学习率设置为0.01,Q目标网络与Q估计网络之间的更新步长为300个训练步长。

图5 园区综合能源系统算例仿真结构Fig.5 Simulation structure of the park-level integrated energy system

表1 算例参数Table 1 Simulation parameters

4.2 结果分析

首先,对园区综合能源系统外部互动环境等值建模的LSTM深度网络的有效性进行验证,其中训练数据为10 000天内24 h的园区综合能源系统历史决策数据,训练集规模为10 000×24,测试集规模为200×24。LSTM网络训练过程中的训练集与验证集损失函数变化趋势如图6所示,从结果来看,LSTM网络训练后的准确率保证在98%以上,有效保证了园区综合能源系统封装模型的准确性。

图6 LSTM网络损失函数变化趋势Fig.6 Trend of loss function of LSTM network

其次,分别采用提出的MDQN与传统的DQN进行园区综合能源系统群能量管理策略的学习求解,得到的MDQN算法与DQN算法训练过程中的奖励值对比如图7所示。

图7 MDQN与DQN算法的奖励值对比Fig.7 Comparison of reward values of MDQN and DQN algorithms

从图7中的奖励值变化趋势可以看出,MDQN算法比传统DQN算法具有更好的收敛特性,其收敛的奖励值更优,同时在训练过程中的奖励值波动也更小。这是由于传统DQN算法采用ε贪心策略,在大规模动作空间中以随机策略进行探索时效率低下,无法在有限的时间内学习到最优策略,同时多次随机的探索导致学习过程中奖励值的波动较大,算法鲁棒性较差;
而本文所提MDQN算法采用k优先采样策略,能根据概率选择较优的候选动作,极大地提高了智能体对动作空间的探索效率,可以保证算法收敛到更优的奖励值,用时采用k优先采样策略避免了对低奖励值动作的大量访问,降低了学习过程中奖励函数的方差。因此,MDQN算法比传统DQN算法具有更好的收敛性以及稳定性。

在该算例中,MDQN算法获得的奖励均值为38.56,DQN算法的奖励均值为33.67;
MDQN算法获得的奖励方差为3.22,DQN算法的奖励方差为8.68。相比DQN算法,MDQN算法获得的奖励值提高了14.5%,同时方差降低了62.9%。因此,所提MDQN算法在大规模动作空间下的表现明显优于传统DQN算法。

为了进一步验证本文所提算法在不同场景下的表现,对比了DQN与MDQN两种算法对于园区综合能源系统1的能源管理情况,如图8与图9所示。

结合图8(a)以及图9(a),在算例的前24 h中,风电始终处于匮乏状态,此时2种智能体都利用燃气轮机提供大部分电能,并从外界购入少量的电能。但是MDQN智能体比DQN智能体更好地制定了园区内部的电价,有效降低了电能短缺期间的价格响应型负荷的耗电量,保证了园区的经济效益。在算例的后24 h中,风电为盈余状态,此时2个智能体给出的决策方案都是减少燃气轮机的发电功率,同时适量地向外界出售多余的电能。但是MDQN智能体更倾向于向其他园区出售电能,DQN智能体选择降低园区内部市场电价,激励价格响应型负荷的用电需求。从经济收益上看,外销型的MDQN智能体比DQN智能体能获得更高的收益。

图8(b)以及图9(b)给出了2种算法对热能的管理情况,与电能情况不同,园区综合能源系统1热能较为充裕,因此智能体的主要任务是如何出售多余的热能使利益最大化。从结果中可以看出,DQN智能体只向园区3和热管网进行热能交易,而MDQN智能体减少了对热管网出售的热能,增加了向园区综合能源系统2出售热能。在仿真时段内,园区3的热能需求较大,园区2的热能需求较小,同时园区2与园区3的热能交易价格高于外部热管网。因此,MDQN智能体的决策不仅使自身获得的收益更高,同时促进了不同园区之间的能源交易。

图8 DQN智能体的能源管理情况Fig.8 Energy management by DQN agent

图9 MDQN智能体的能源管理情况Fig.9 Energy management by MDQN agent

MDQN算法与DQN算法在不同天数中的调度收益情况对比如图10所示。从图10中可以看出,在能源盈余的场景下,MDQN算法可以更好地调整与其余园区之间的交易策略从而获得更高的收益;
同时在能源匮缺的场景下,MDQN算法可以通过调整机组出力以及与其他园区的能源收购策略,从而以较低的成本满足园区内部能源的供需平衡。在不同场景中,DQN算法的平均经济收益为18.76美元,MDQN算法的平均经济收益为24.23美元,同比提升了29.16%。因此,MDQN算法无论在何种场景下均可以获得比DQN算法更高的收益,具有更好的经济性。

综合以上仿真结果,本文提出的基于MDQN算法的园区综合能源系统能量管理方法可以合理实施能源的调度与分配,在保障用户需求的基础上进行削峰填谷,提高园区综合能源系统运行的经济性。

图10 MDQN与DQN算法在不同场景下的收益对比Fig.10 Rewards comparison of MDQN and DQN algorithms in different scenarios

本文针对园区综合能源系统群的能量管理问题,为克服传统数学类方法在模型近似上的局限性以及进化类算法局限于局部最优的缺陷,同时为了应对传统DQN方法在大规模离散动作空间上探索效率低下的问题,本文提出了基于MDQN算法的园区综合能源系统能量管理方法,主要结论如下:

1)提出的基于LSTM网络的各园区综合能源系统外部互动环境等值封装模型可以较好地刻画其余园区综合能源系统的能源需求响应特性,保证了马尔科夫决策环境的动态性。

2)提出的MDQN算法相较DQN算法采用了k-优先采样策略,能够在大规模动作空间的探索中减少对低奖励值动作的访问频次,减少了学习过程中奖励值的方差。相比DQN算法,MDQN算法在训练过程中获得的平均奖励值提高了14.5%,同时方差降低了62.9%。因此MDQN算法具有更好的收敛性与稳定性。

3)提出的基于MDQN算法的园区综合能源系统能量管理方法可以不需要了解园区设备的详细参数信息,在复杂变化的场景中也可以实现热、电多元能量管理策略的自适应学习进化,提升园区综合能源系统运行的经济性。MDQN算法相比传统DQN算法提升的经济效益可达29.16%。

本文研究中的MDQN算法在面向更大规模的园区综合能源系统能量管理时,由于控制变量的离散化仍会面临决策维度爆炸增长的问题,如何采用连续性变量的多智能体强化学习算法对多园区综合能源系统的协同优化控制策略进行提升改进将是本文后续进一步的研究方向。

猜你喜欢 园区负荷能源 国际能源署:今年清洁能源投资将再创新高节能与环保(2022年7期)2022-11-09人造革合成革拉伸负荷测量不确定度评定纺织标准与质量(2022年2期)2022-07-123项标准中维持热负荷要求对比分析煤气与热力(2022年4期)2022-05-23Opening flexible resources by integrating energy systems: A review of flexibility for the modern power system长江大学学报(自科版)(2021年6期)2021-02-16第六章意外的收获小学科学(2020年5期)2020-05-25苏通园区:激荡开放潮 十年再出发华人时刊(2019年19期)2020-01-06————不可再生能源">用完就没有的能源
————不可再生能源家教世界(2019年4期)2019-02-26园区的开放样本商周刊(2018年24期)2019-01-08从园区化到国际化商周刊(2018年12期)2018-07-11园区开发Ⅱ个股表现股市动态分析(2015年49期)2015-09-10

推荐访问:园区 算法 深度

相关文章:

Top