基于ERNIE-DPCNN模型的地址清洗匹配方法研究*

发布时间：2023-06-20 13:10:15 浏览数：次

陈寅，马佳斌

(长三角(嘉兴)城乡建设设计集团有限公司，浙江嘉兴 314050)

地名地址是由政府统一发布的社会公共信息，地址中承载了数据的空间位置信息，与人们生产生活密切相关，无论是政府管理(不动产登记、工商登记、居民户口登记等)，还是社会经济活动(快递、外卖等)都利用地址数据作为地理位置的空间表达方式[1-3]，它是国家信息化发展战略中最基础的信息资源，是各类信息的纽带。为此，对地址进行清洗使其匹配结果更加准确，可为测绘、交通、导航等各个领域提供有效的地址地名数据资源[4]。

当前已有相关领域学者研究了地址匹配方法，例如，张琛[5]等人提出的自适应分词地址匹配方法，该方法通过对地址名词进行标记后构建Lucene索引，然后使用IK分词器对地址名词进行分词处理，根据分词结果匹配度，得出地址匹配结果。但该方法在应用过程中受地址名词相似度高、存在冗余词等情况影响，致使其地址匹配结果不够准确。刘斐[6]等人提出了运输地址匹配方法，该方法利用在线地理解析方式获取运输地址基础数据，利用加权拼音全文检索机制获取地址匹配结果。但该方法在检索地址匹配结果时，检索机制参数设置为人为设置，存在主观性。ERNIE-DPCNN模型是由语言表征模型(ERNIE)和文本分类模型(DPCNN)组成，其可获取地址名词表征并将该表征作为输入，使用文本分类模型获得地址的特征，其输出结果较为准确，且受数据维度影响较小，在文本处理领域应用极为广泛。

在此背景下，本文引入ERNIE-DPCNN模型，研究基于ERNIE-DPCNN模型的地址清洗匹配方法，通过对地址词向量特征进行地址分词匹配处理，通过地址匹配引擎层实现地址清洗处理，获取地址清洗匹配结果。

1.1 地址清洗匹配方法技术架构

依据分层思想，设计地址清洗匹配方法技术架构，如图1所示。

图1 地址清洗匹配方法技术架构示意图Fig.1 Schematic diagram of technical architecture of address cleaning and matching method

地址清洗匹配方法技术架构由数据准备层、逻辑计算层、地址匹配引擎和应用层组成。利用数据准备层获取行政区分区、街道、POI(地图上非地理意义的标记点，如超市、加油站等)和门牌等地址数据，然后将该地址数据输入到逻辑计算层内。逻辑计算层使用地址字段清洗方法对获取的地址数据进行清洗预处理，去除地址数据内的冗余字段和意义不明的字段，然后将清洗后的地址数据存储到地址标准数据库内。利用ERNIE-DPCNN模型调取地址标准数据库内的地址数据，并通过迭代训练输出地址词向量特征。然后利用地址分词匹配方式对地址词向量实施匹配处理，再利用地址匹配引擎层内的门牌检索器、方位词处理器等生成行政区、街道、POI、门牌地址索引。该索引与应用层内的Web服务器连接，通过Web服务器为用户展示地址清洗匹配结果。

1.2 地址字段清洗方法

由于街道、POI、门牌等地址数据众多，存在大量的字段冗余情况，在对其进行匹配时，需对其进行字段清洗预处理。在此使用Word2Vec词向量开源工具清洗地址数据内的冗余字段，其详细过程如下：

首先利用Word2Vec词向量开源工具提取地址数据的文本，然后使用Skip-Gram模型训练地址字段的词向量，Skip-Gram模型网络结构如图2所示。

图2 Skip-Gram模型网络结构示意图Fig.2 Schematic diagram of Skip-Gram model network structure

Skip-Gram模型网络输入层输入的是中心词g的词向量v(g)，然后将v(g)输入到投影层内，投影层的恒等投影表达公式[7]为：

v(g)=v′(g)

(1)

式中：v′(g)表示v(g)的投影。

Skip-Gram模型输出层的目标函数表达公式[8]为：

(2)

式中：C表示地址词向量的语料库；
Context(g)表示地址中心词上下文；
ζ(Context(g)|g)表示上下文的出现概率，其表达公式[9]为：

(3)

式中：u表示上下文Context(g)内的冗余字段。

将式(3)结果代入到式(2)中，输出m个上下文Context(g)的地址词向量。再结合距离算法计算上下文Context(g)地址词向量与待清洗地址词向量的距离，依据该距离去除待清洗地址词向量内的超出距离阈值的字段，达到地址冗余字段清洗的目的。

1.3 基于ERNIE-DPCNN模型的地址分词匹配方法

以清洗后的地址数据为基础，使用ERNIE-DPCNN模型获取地址数据向量特征。首先使用ERNIE模型内的Transformer编码器对地址数据向量进行表征描述，则Transformer编码器输出表达公式[10]为：

Attentionoutput=Attention(Y，U，O)

(4)

式中：Attentionoutput表示输出数值，该值即可描述数据向量表征；
Y、U、O均表示地址词向量矩阵；
dk表示地址词向量的维度。

将式(4)结果作为输入值，使用DPCNN模型输出地址数据词向量特征。将ERNIE模型和DPCNN模型相结合，则ERNIE-DPCNN模型获取地址数据词向量特征过程如下：

第一步：将清洗后的地址数据提取成文本形式，并由A=(A1，A2，…，An)描述，其中An表示该文本内第n个词语。

第二步：将A=(A1，A2，…，An)输入到ERNIE模型内，经过Transformer编码器输出地址词向量表征描述，并构建地址词向量表征描述矩阵X。

第三步：将X输入到DPCNN模型内，利用该模型内的等长卷积层生成地址词向量特征，其表达式[11]为：

γ=f(φ)*X+f(ϑ)+X

(5)

式中：γ表示等长卷积层输出数值；
φ、ϑ分别表示卷积核与偏差数值；
f(·)表示非线性激活函数。

第四步：使用池化层对上一步获取的地址词向量特征进行分类并归一化处理，则地址词向量特征的分类概率表达公式[12]为：

(6)

利用式(6)获得地址词向量特征分类结果，得到不同属性的地址词向量特征。

使用地址分词算法对上个小节获取的地址词向量特征进行匹配[13]。分词匹配算法是通过用户输入中文地址，对该中文地址进行分词处理，依据特征匹配规则不断迭代将匹配范围逐渐缩小[14]，将最小范围的匹配结果返回给用户。使用分词匹配算法对地址分词进行匹配过程如下：

第一步：读入需匹配的地址词和地址标准库数据，判断需匹配的地址词内是否划分行政区，若是则先进行行政区判断，然后进行下一步。当不存在行政区划分时直接进行下一步。

第二步：寻找最大匹配子地址，并依据该最大匹配子地址寻找父地址。

第三步：判断父地址后是否存在下一个父地址，若是则匹配更上一级的地址词特征[15]，然后返回第二步继续迭代，直至输出终极父地址为止。

第四步：判断地址词内是否存在同义词，若是则匹配下一个同义词要素，并返回到第二步继续迭代。反之则判断地址词特征相似度是否符合预设阈值，若是则输出地址特征词匹配结果，反之则继续寻找地址特征词的父地址。

经过上述过程，即可得到地址清洗匹配结果。

以浙江省嘉兴市地址数据为实验对象，应用本文方法对该城市地址数据进行清洗匹配处理，验证本文方法的应用效果。

2.1 可靠性验证

以ERNIE-DPCNN模型迭代的损失值作为衡量本文方法地址清洗匹配结果可靠性指标，测试在地址数据量不同情况下，本文方法损失函数值变化情况，结果如图3所示。

图3 可靠性验证结果Fig.3 Reliability verification results

分析图3可知，本文方法的损失函数数值随着地址数据维度的增加而降低，且其降低到一定程度后开始保持平衡状态。在地址数据量为220个之前时，本文方法的损失函数数值呈现大幅度降低趋势，当地址数据量超过220个之后，其损失函数值下降幅度较小。在地址数据量超过900个之后，本文方法的损失函数数值保持在0.5%左右。该结果说明本文方法在清洗匹配地址时损失值小，输出结果精度较高。

2.2 地址字段清洗测试

以10组地址数据作为实验对象，使用本文方法对其进行地址字段清洗处理，测试本文方法地址字段清洗功能。为更清楚地呈现本文方法的地址字段清洗功能，同时使用文献[5]方法和文献[6]方法展开实验。结果如表1所示。

表1 地址字段清洗后字段数量(个)Tab.1 Number of fields after address field cleaning

分析表1可知，在3种方法中，本文方法对地址数据字段进行清洗后，其地址字段降低幅度稍大，而文献[5]方法和文献[6]方法清洗后的地址数据字段下降幅度均低于本文方法。上述结果说明：本文方法可有效对地址数据字段进行清洗，且清洗后的地址数据字段数量下降明显。

以8组地址数据作为实验对象，进一步验证本文方法对地址数据字段清洗能力，以地址数据字段的保留特征作为衡量指标，测试本文方法对其清洗后，该地址字段特征保留程度，结果如图4所示。

图4 地址字段清洗后特征保留程度Fig.4 Degree of feature retention after address field cleaning

分析图4可知，在3种方法中，本文方法对地址数据字段进行清洗后，该地址数据字段特征保留程度数值均高于95%。而文献[5]方法和文献[6]方法对地址数据字段进行清洗后，较大程度地降低了地址数据字段特征，影响后续的地址匹配效果。综上结果可知：本文方法具备较强的地址数据字段清洗能力，可有效保留地址数据字段特征。

2.3 地址匹配测试

以6组地址数据为实验对象，使用本文方法对其进行匹配，结果如表2所示。

表2 地址匹配测试结果Tab.2 Address matching test results

分析表2可知，使用本文方法对待匹配地址进行清洗匹配后，得到的匹配结果相似度较高，且可有效匹配到地址的行政区划分。上述结果表明本文方法对地址清洗匹配效果精度高，具备较强的可靠性。

本文研究基于ERNIE-DPCNN模型的地址清洗匹配方法，并对该方法进行了实际验证。实验结果表明，本文方法在地址数据字段清洗时有效性较好，且其保留地址数据特征程度均高于60%。在地址清洗匹配过程中，本文方法的地址匹配结果准确，证明了本文方法的实际应用效果较好。

猜你喜欢分词向量特征根据方程特征选解法中学生数理化·中考版(2022年9期)2022-10-25向量的分解新高考·高一数学(2022年3期)2022-04-28离散型随机变量的分布列与数字特征中学生数理化(高中版.高考数学)(2022年3期)2022-04-26聚焦“向量与三角”创新题中学生数理化(高中版.高考数学)(2021年1期)2021-03-19分词在英语教学中的妙用校园英语·月末(2021年13期)2021-03-15结巴分词在词云中的应用智富时代(2019年6期)2019-07-24结巴分词在词云中的应用智富时代(2019年6期)2019-07-24不忠诚的四个特征当代陕西(2019年10期)2019-06-03向量垂直在解析几何中的应用高中生学习·高三版(2016年9期)2016-05-14向量五种“变身” 玩转圆锥曲线新高考·高二数学(2015年11期)2015-12-23

推荐访问:匹配清洗模型

栏目最新：

上一篇：《海洋技术学报》2022年（第41卷）总目次
下一篇：四旋翼飞行器控制算法远程教学实验平台设计