老哥学习网 - www.lg9.cn 2024年05月16日 10:51 星期四
当前位置 首页 >公文范文 > 公文大全 >

基于注意力机制的场感知点击率预测模型

发布时间:2023-07-09 13:10:04 浏览数:

沈学利,韩倩雯

(辽宁工程技术大学 软件学院,辽宁 葫芦岛 125105)

互联网+的迅速发展带动了互联网广告等行业的兴起。精准地预测广告的投放对互联网广告等行业至关重要。点击率(Click-Through Rate,CTR)预测作为广告投放的重要手段之一,在互联网广告领域发挥着重要作用。CTR 预测通过估计用户在特定上下文中点击推荐的概率,从而做出推荐决策[1-2]。由于表示学习在计算机视觉和自然语言处理方面的优异性能,深度学习技术引起越来越多的关注。许多公司提出各种深度CTR 模型,并将其部署在商业系统中,例如华为公司提出的基于深度学习的因子分解机模型(DeepFM)、阿里巴巴公司提出的深度兴趣进化网络(Deep Interest Evolution Network,DIEN)和Google Play 公司提出的非线性变换的广义线性模型(Wide&Deep)[3-5]。

现有深度CTR 预测模型大多遵循嵌入和特征交互(Feature Interaction,FI)范式[6]。鉴于特征交互在CTR 预测中的重要性,目前研究人员的工作主要集中于设计FI 模块中的网络架构,以更好地捕获显式或隐式特征交互信息。嵌入模块在极大程度上影响了深度CTR 模型性能,一方面,嵌入模块是FI 模块的基础,直接影响FI 模块的有效性[7];
另一方面,深度CTR 模型的参数主要集中在嵌入模块中,影响了模型的运行速度[8]。

在深度CTR 模型中,嵌入层可分为传统嵌入层和场感知嵌入层。文献[9]提出一种基于乘积的神经网络(Product-based Neural Network,PNN)模型,其嵌入部分采用传统嵌入技术,存在低维特征表示不足的问题,但通过高阶特征交互,可以提高预测准确率。文献[10]提出一种基于操作感知神经网络(Operation-aware Neural Network,ONN)的模型,采用场感知嵌入技术丰富特征表示,缺点在于会产生大量无用参数信息。相较于以上两个模型重点关注高阶特征交互信息的现象,为结合记忆和泛化的优势,文献[3]和文献[5]同时训练低阶线性模型和高阶非线性深度神经网络两部分。

注意力机制能够通过对特征进行加权,有效过滤无用信息,加快收敛速度,在现有经典模型中取得了很好的效果。文献[11]通过研究引入注意力的因子分解机模型(Attentional Factorization Machines,AFM)发现,注意力模块的引入可以将输入的无信息特征滤除,对准确率的提高有积极影响。文献[12]提出一种自动特征结合的点击率预测模型AutoInt,将FM 模型与多头自注意力机制相结合,使模型能够自动学习丰富的特征表示,提高模型的可解释性。文献[13]设计了带有对数转换层的自适应因子化网络(Adaptive Factorization Network,AFN)模型,该转换层将特征组合中每个特征的功率转换为要学习的系数。文献[14]介绍了基于注意力机制的乘积神经网络模型,通过组合AFM 和PNN 模型的优点,对特征交互后的信息进行重要性评估,提高了模型预测准确率,证明了注意力机制与深度学习CTR 模型相结合的有效性。

本文提出一种场感知注意嵌入神经网络(Fieldaware Attention Embedding Neural Network,FAENN)模型,通过引入参数较少的自注意力机制对嵌入模块映射的特征向量进行重要性评估,在特征交互前突出有效信息,并基于低阶和高阶交互特征相结合的思路,融合模型各类特征信息,提高模型预测准确率。

1.1 嵌入技术

在点击率预测问题中,输入特征通常是稀疏的,具有巨大的维数且没有明显的空间或时间相关性。一个常见的方法是将多字段分类数据转换为高维稀疏特征空间,通过One-Hot 编码,在原始特征的基础上开发一个嵌入层输入,并将其压缩为低维密集实值向量,通过共享的潜在空间进行表现。离散化特征直接分配单独的编号,连续型特征需要经过One-Hot 编码成数值型,其中每个特征表示为一个One-Hot 编码向量,编码产生的所有特征值只能是0 或1。One-Hot编码效率低且不能很好地表示特征之间的相关性,但通过引入嵌入层可以将高维稀疏向量降维。

为更好地处理数据,使用嵌入技术将所有数据统一为分类特征。如果假设有m个特征,xi代表第i个特征的One-Hot 编码向量,输入特征拼接成的特征向量x为[x1,x2,…,xm],那么每个训练样本可以表示为(x,y),其中y∈{0,1},y表 示用户是否执行了正反馈,即点击的概率。

传统嵌入技术是将特征集下的每个特征向量对应一个映射,该过程的表达式如下:

其中:vi是第i个特征的嵌入矩阵;
xi是一个独热编码向量。传统嵌入矩阵层EM可表示如下:

图1 所示为传统嵌入的示意图,可以看到,当传统嵌入技术中每个特征对应其他特征时,权重相同,缺少有效信息表达,故文献[15]提出了场感知嵌入,其架构如图2 所示,将每一个特征对应多个映射。

图1 传统嵌入示意图Fig.1 Schematic diagram of traditional embedding

图2 场感知嵌入示意图Fig.2 Schematic diagram of field-aware embedding

以第i特征进行第l次运算为例,字段i的二维k×n嵌入矩阵用[vi,1,vi,2,…,vi,j]表示,vi,j∈Rk指的是字段i的第j个嵌入向量,n是字段的数量,k是嵌入向量的大小。由于存在n个场,每个场对应一个嵌入矩阵,嵌入矩阵层EM1是一个尺寸为k×n×n的三维矩阵,表达式如式(3)所示:

1.2 特征交互

特征交互是指特征之间的深度交叉组合,学习特征交互是解决点击率预测的关键问题。为提高模型的准确率,可以采用直接合并或异构的内容数据。交互后的数据特征一般会从多个维度呈现多种信息,因此特征之间的相互组合意义重大。特征交互的关系解释形式分为“且”关系和“加”关系。以两个特征的交互为例,一种是“且”关系,即性别为女且会打乒乓球的人群,另一种是“加”关系,即性别为女和会打乒乓球的人群,前者特征交互的意义比后者更好。具体来说,文献[9]的product 操作就是讨论这种“且”关系,能更好地捕捉特征之间的交互。文献[16]提出一种基于注意力机制的深度兴趣网络(Attential Deep Interest Network,ADIN)模型,采用拼接的方式,即“和”关系。

1.3 注意力机制

注意力机制[17]是源于对人类视觉的研究,能够通过减少噪声数据的副作用,从原始特征中提取有效信息。文献[18]是Google 研究团队针对注意力机制种类的总结,自注意力机制(Self-Attentive Mechanism,SAM)是注意力模型的一种特殊形式,通过学习自身内部结构直接计算依赖关系,能够更好地解决特征庞大且无侧重点的问题。

文献[19]将注意力机制应用在点击率预测中,动态地学习特征重要性和细粒度的特征相互作用,对比DeepFM 模型取得了较高的准确率。文献[20]提出深度兴趣网络(Deep Interest Network,DIN)模型,通过在特征交互后使用注意力机制,自适应地从历史行为中学习用户的兴趣表示,取得了很好的预测效果。文献[21]通过深度兴趣网络对兴趣特征进行自适应学习,提升了模型的表达能力。

注意力模块的引入可以将输入的无信息特征滤除,对提高预测准确率有积极影响。然而,模型通常采用在特征交互后加入注意力的方式,认为不同的交互特征的重要性不同,通过模型学习每种交互特征的权重,从而提高模型性能。文献[22]认为特征交互前的特征信息同样重要,本文将通过实验来验证该结论。

FAENN 模型是一种端到端的深度点击率预测模型,模型结构如图3 所示。该模型由3 个部分构成,包括注意力嵌入层、低阶特征交互层和高阶特征交互层。首先,注意力嵌入层通过引入自注意力机制,对场感知嵌入向量进行重要性分析,并输出注意力嵌入特征向量。其次,低阶特征交互层通过注意力场感知嵌入建模一阶线性特征和二阶交互特征,并通过训练得到预测值。然后,高阶特征交互层将二阶特征交互的输出作为输入,利用深度神经网络训练高阶交互特征,得到高阶预测值。最后,将上述预测值通过Sigmoid 函数训练,得到最终的预测值。

图3 FAENN 模型结构Fig.3 FAENN model structure

2.1 注意力嵌入层

注意力嵌入层的目的是将稀疏特征向量映射到低维稠密的潜在向量中,以减小维数。本文将注意力机制引入嵌入层,学习潜在向量中每个特征的重要性,以提高模型的性能和有效性。其过程是将one-hot 嵌入向量作为输入,对每个特征进行多个嵌入表示,得到场感知嵌入矩阵,随后对场感知嵌入矩阵进行权重关注,输出新的注意力嵌入矩阵。

场感知嵌入部分是将one-hot 编码后的序列进行多个“复制”操作,即将每个特征对应多个特征向量表示,使数据从高维稀疏特征映射到低维表示。即对向量构造一个映射τ,其中o是第i个特征的第k次复制操作,表达式如下:

其中:o(c,i)表示第i个特征进行复制操作。将输出嵌入特征记为ef,假设有m个特征ef,其表达式如式(5)所示:

模型在学习过程中对数值统计分布差异大的特征向量不敏感,导致模型整体收敛速度和性能降低。自注意力模块的计算重点是关注特征提取前的特征信息,相对于的内部联系进行训练,重点关注特征内部的联系,突出有效信息并加快收敛速度,能够解决特征过多,重点信息被忽略的问题。

与传统的注意力机制不同,本文根据场嵌入的模式,有针对性地对注意力机制进行改进。缩放点积注意力的计算式如式(6)所示:

本文模型所使用的注意力机制采用缩放点积方式,结构如图4 所示。

图4 自注意力机制Fig.4 Self-attention mechanism

2.2 低阶特征交互层

低阶特征交互层主要是对一阶线性特征和二阶交互特征进行训练。其中,一阶线性特征分为对原始特征提取和对嵌入特征提取两部分。

原始特征提取部分能够对one-hot 嵌入向量进行概率分析。其中,x表示输入特征向量;
w表示训练过程中学习的参数,表达式如式(7)所示:

嵌入特征提取部分中的注意力嵌入层关注嵌入特征向量的重要性,使每个特征对应的特征向量获得独立的重要性信息。在模型整体中,注意力嵌入层引入一阶特征信息的重要性权重,用于丰富模型提取的特征信息,从而为获得更准确的高阶特征组合表示做铺垫。得到注意力嵌入层A的表达式如式(8)所示:

二阶特征交互部分通过分解2 个潜在向量乘积,解决特征向量乘积后特征出现非常稀疏的情况,本模型使用内积操作学习二阶特征交互。

用[p1,2p1,3,…,pm-1,m]表示二阶特征交互if。其中,pi,j是第i个特征和第j个特征之间内积运算的值,其表达式如式(9)所示:

用o(p,i,j)表示第i个特征和第j个特征的内积操作,该过程的示意图如图5 所示。

图5 内积操作示意图Fig.5 Schematic diagram of inner product

将嵌入特征ef和交互特征if作为低阶隐性特征,并单独进行概率预测,得到YFAEM,其表达式如式(10)所示:

2.3 高阶特征交互层

高阶特征交互层采用多层感知机[23],使用多层神经网络提取高阶特征和进行预测。首先连接ef和if构成该层的输出,并提供给全连接层,该过程的表达式如式(11)所示:

对共享的特征交互层f进行批量归一化,其结果表示如下:

其中:BN 是指进行贝叶斯批处理规范化,用来加速模型训练;
l1和l2表示对应的深度神经网络层。本文在每个深度神经网络层中添加批处理规范化,并使用校正后的线性单位Relu 进行处理,采用Sigmoid函数完成概率预测的任务,其表达式如式(15)所示:

损失函数如式(16)所示:

通过将低阶特征交互部分与高阶特征交互部分相结合,得到最后的预测结果,表达式如式(17)所示:

本文实验的硬件设备处理器为Intel®CoreTMi7-8700@3.2 GHz,显卡为GeForce RTX 2080Ti 11 GB,32 GB 运行内存,通过Python3.7 编程语言实现,采用Tensorflow1.15 深度学习框架。

3.1 数据集

为证明本文模型的有效性,将现有模型与本文模型在2 个公开的经典数据集Criteo[24]和Avazu[25]上进行对比。Criteo 数据集是既有分类特征又有数字特征,而Avazu 数据集只有分类特征。Criteo 数据集中的数字特征经过离散化,可被视为分类特征。预处理后的Criteo 数据集包含39 个字段,1 040 123 个特征;
Avazu 数据集包含22 个字段,254 644 个特征。两个数据集被进一步以80%和20%的比例分别划分为训练集和测试集。

3.2 评价指标

采用曲线下面积(Area Under Curve,AUC)和对数损失函数(Logloss)两种指标对实验结果进行对比。AUC 值上限为1,值越大表示准确率越高,模型性能越好,表达式如式(18)所示:

Logloss 适用于二分类任务指标,能对分类器的准确率进行量化。Logloss 用于测量2 个分部之间的距离,值越小,表示模型性能越好,对数损失函数的计算式如下所示:

其中:yi表示第i个广告样本的实际点击率;
pi表示第i个广告样本的预测点击率。

3.3 实验分析

实验从3 个方面进行分析,包括模型与其他基线模型的效率对比,特征信息关注位置对模型性能的影响,以及各种超参数对模型训练结果的影响。

3.3.1 经典模型对比

为保持实验的公平性,在神经网络结构的参数设置上采用相同的嵌入维数10。由于非线性隐藏层太多容易导致过拟合,本文深度神经网络部分的隐藏层深度选用3 层,每层神经元的数量均为400 个,即隐藏大小为[400,400,400]。此外,激活函数均采用Relu,优化器使用Adam,学习率设置为0.000 1,训练批次大小设置为1 000。

本节将本文模型与现有推荐系统中的经典模型FM、FFM、AFM、PNN、DeepFM 和ONN 进行比较,其中FAEM 是以本文模型为基础的浅层模型,结果如表1 所示。

表1 不同浅层模型在不同数据集下的结果对比Table 1 Comparison of results of different low models under different datasets

由表1 可知,在浅层模型下,AFM 模型的AUC值高于FM 模型,这证明注意力机制的引入对特征重要性的提取是有效的。FFM 模型的AUC 值高于FM和AFM 模型,这表明丰富特征表达比关注模型权重的效果更好。此外,FAEM 模型的AUC 值始终高于其他3 个模型,证明了在场感知嵌入层进行特征关注对提高模型性能有积极作用。

表2 是不同深层模型的对比结果,由表2 可知,在引入高阶特征交互的情况下,DeepFM 模型相较于PNN 模型的AUC 值更高,这证明同时关注低阶和高阶特征交互的效果更好。对比PNN 模型与ONN 模型的实验结果可知,ONN 模型明显好于PNN 模型,这是因为ONN 模型中的嵌入部分和特征交互中丰富的特征表达发挥了积极作用。由表2 还可知,FAENN 模型的Logloss 值和AUC 值在对比模型中均最优,这表明对嵌入层特征的重要性进行评价能提高模型的性能。

表2 不同深层模型在不同数据集下的结果对比Table 2 Comparison of results of different deep models under different datasets

在2 个数据集上对不同深度点击率预测模型的训练时间进行比较,可以发现将自注意力机制引入到深度点击率模型,能有效提升模型性能。不同模型的训练时间如图6 所示,可以看出,在深度点击率预测模型中,采用场感知嵌入的点击率预测模型的训练时间较传统嵌入模型训练时间更长,但加入注意力机制后,训练时间有所降低,这说明注意力机制能加快模型的收敛速度。

图6 不同模型的训练时间对比Fig.6 Comparison of training times of different models

3.3.2 注意力机制放置位置的对比

本节对注意力机制放置在特征交互前后的位置进行研究,以Criteo 数据集随机选取100 000 条数据为例,其中模型的-n 表示对特征重要性进行关注,-v1 表示在特征交互前对特征重要性进行评估,-v2表示在特征提取后对特征权重进行评估,-v1v2 表示模型在特征交互前后都对特征权重进行关注,实验结果如图7 所示。

图7 不同模型在Criteo 数据集下的结果对比Fig.7 Comparison of results of different models in Criteo dataset

从准确率的角度来看,加入自注意力机制的模型FAENN-v1,FAENN-v2 和FAENN-v1v2 准确率比未加入自注意力机制的模型FAENN-n 准确率分别高出0.7、0.1 和0.3 个百分点,说明对特征进行权重关注对提升模型的性能产生了积极作用。在特征交互前对特征进行关注,其准确率优于其他两种权重关注方式,产生此现象的原因可能与嵌入层表示方式有关,场感知嵌入相较于传统嵌入具有更多的特征表示,在特征交互前进行特征重要性评估更合理。

从时间效率的角度来看,与未引入自注意力机制的模型训练时间相比,在特征交互前进行特征关注的模型训练时间下降了1.5个百分点,且FAENN-v1模型训练时间与FAENN-v2、FAENN-v1v2 模型相比分别减少了6.6 和7.3 个百分点,这证明在特征交互前引入注意力机制能加快训练速度。

从复杂度的角度来看,模型在特征交互前是对kn个特征向量进行注意力加权,在特征交互后是对两两相乘的交叉特征即k2n2个特征进行加权。由此可知,在特征交互前进行重要性关注的复杂度更小,即更高效。

3.3.3 超参数对模型准确率的影响

本节主要研究超参数对FAENN 模型准确率的影响。

1)嵌入维数对模型准确率的影响。如图8 所示,在Criteo 数据集下,适当增加嵌入维度能够提高模型预测准确率,但当嵌入维度超过8 时,AUC 值逐渐下降,继续增加维数会导致过拟合现象发生。因此,新模型嵌入维度选为8 更合适。

图8 不同嵌入维度下的AUC 值对比Fig.8 Comparison of AUC values under different embedded dimensions

2)激活函数对模型准确率的影响。由图9 可知,在Criteo 数据集下,在人工神经网络模型中集成应用激活函数可以更高效精准地处理非线性函数。通过对比不同激活函数可知,Relu 在模型中表现最好,更适合本文模型。

图9 不同激活函数下的AUC 值比较Fig.9 AUC value under different activation functions

3)优化器对模型准确率的影响。由图10 可知,在Criteo 数据集下,当点击预测模型的损失函数设定完成时,就需要选择预测模型的优化器来优化预测模型的相关参数,以保证预测模型的损失最小。对4 个优化器实验进行对比发现,Adam 优化器在模型中的AUC 值更高,因此更适合FAENN 模型。

图10 不同优化器下的AUC 值对比Fig.10 Comparison of AUC values under different optimizers

本文面向点击率预测任务,提出一种场感知注意嵌入神经网络模型,在场感知嵌入的深度点击模型中引入自注意力机制,以丰富特征表示。通过自动学习滤除无用信息,并突出有效信息,提高点击率预测模型的准确性。实验结果表明,本文模型相比于FM、FFM、AFM 等模型有较高的预测准确率。下一步将通过研究显式特征交互,丰富模型的特征表达,提高场感知点击率预测模型的可解释性。

猜你喜欢点击率特征向量高阶二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例九江职业技术学院学报(2022年1期)2022-12-02克罗内克积的特征向量保定学院学报(2022年2期)2022-04-07有限图上高阶Yamabe型方程的非平凡解数学物理学报(2021年1期)2021-03-29高阶各向异性Cahn-Hilliard-Navier-Stokes系统的弱解数学物理学报(2020年6期)2021-01-14滚动轴承寿命高阶计算与应用哈尔滨轴承(2020年1期)2020-11-03一类完整Coriolis力作用下的高阶非线性Schrödinger方程的推导数学物理学报(2018年5期)2018-11-16基于特征工程的视频点击率预测算法华东师范大学学报(自然科学版)(2018年3期)2018-05-14一类特殊矩阵特征向量的求法许昌学院学报(2018年4期)2018-05-02EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用中华建设(2017年1期)2017-06-07喜报!萌宝大赛参赛者660名,投票321657人次,点击率超60万!海峡姐妹(2015年8期)2015-02-27

推荐访问:点击率 感知 注意力

相关文章:

Top