测绘通报 ›› 2022, Vol. 0 ›› Issue (3): 101-106.doi: 10.13474/j.cnki.11-2246.2022.0085
郁汀1,2, 王铎2, 陈钦1
收稿日期:
2021-03-16
修回日期:
2022-01-21
出版日期:
2022-03-25
发布日期:
2022-04-01
作者简介:
郁汀(1990-),男,博士,助理研究员,研究方向为地址匹配。E-mail:rainydaily0@163.com
YU Ting1,2, WANG Duo2, CHEN Qin1
Received:
2021-03-16
Revised:
2022-01-21
Online:
2022-03-25
Published:
2022-04-01
摘要: 地址匹配中,由于传统相似度模型受字符重叠数影响大,在处理简写、缩写地址要素单元时,错误匹配问题突出;深度学习方法需要大量样本支撑,但庞大的数据量和多样的形式,导致生成样本的成本过高。为解决上述问题,本文首先应用基于条件随机场和双向长短时记忆神经网络的模型,对地址进行分词;然后通过建立一种伪语义相似度,对地址要素进行分级匹配。通过对公安业务中地址数据进行测试,在对缩写、简写等不规范地址描述方面,本文模型能较理想地完成任务,各参考指标均高于0.9。
中图分类号:
郁汀, 王铎, 陈钦. 基于伪语义相似度模型的中文地址匹配方法[J]. 测绘通报, 2022, 0(3): 101-106.
YU Ting, WANG Duo, CHEN Qin. A Chinese addresses matching method based on the pseudo-semantic model[J]. Bulletin of Surveying and Mapping, 2022, 0(3): 101-106.
[1] 王静远,李超,熊璋,等.以数据为中心的智慧城市研究综述[J].计算机研究与发展, 2014, 51(2):239-259. [2] 张雪英,闾国年,杜咪,等.大数据驱动的地名信息获取与应用[J].现代测绘, 2017, 40(2):1-5. [3] 徐流畅.预训练深度学习架构下的语义地址匹配与语义空间融合模型研究[D].杭州:浙江大学, 2020. [4] 邹恩岑,曾诚,张谦,等.一种面向中文非标建筑地址标准化的自动匹配方法[J].苏州科技大学学报(自然科学版), 2019, 36(4):66-74. [5] 王方正.面向少量标记数据的中文地址分词方法研究[D].杭州:浙江大学, 2020. [6] 周海.基于条件随机场和空间推理的地理编码方法[D].郑州:信息工程大学, 2015. [7] MELO F, MARTINS B. Automated geocoding of textual documents:a survey of current approaches[J]. Transactions in GIS, 2017, 21(1):3-38. [8] GOLDBERG D W, WILSON J P, KNOBLOCK C A. From text to geographic coordinates:the current state of geocoding[J]. URISA Journal, 2007, 19(1):33. [9] 宋子辉.自然语言理解的中文地址匹配算法[J].遥感学报, 2013, 17(4):788-801. [10] WU Z, TSENG G. Chinese text segmentation for text retrieval:achievements and problems[J]. Journal of the American Society for Information Science, 1993, 44(9):532-542. [11] FUNG P, WU D. Statistical augmentation of a chinese machine-readable dictionary[M].[S. l.]:Springer Netherlands, 1995. [12] 魏金明,仲伟政.基于置信度的地址匹配方法初探[J].测绘科学, 2015, 40(1):122-125. [13] 李振星,徐泽平,唐卫清,等.全二分最大匹配快速分词算法[J].计算机工程与应用, 2002, 38(11):106-109. [14] XUE N, CONVERSE S P. Combining classifiers for Chinese word segmentation[C]//Proceedings of the First SIGHAN Workshop on Chinese Language ProcessingVolume 18. Morristown,NJ:Association for Computational Linguistics, 2002:1-7. [15] XUE N, SHEN L. Chinese word segmentation as LMR tagging[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing-Volume17. Morristown,NJ:Association for Computational Linguistics, 2003:176-179. [16] 王东海,赵伟,陈洁,等.基于隐Markov模型汉语词性自动标注的若干分析与改进[J].长春工业大学学报(自然科学版),2007, 28(1):48-52. [17] 王敏.基于改进的隐马尔科夫模型的汉语词性标注[D].太原:山西大学, 2007. [18] 邬伦,刘磊,李浩然,等.基于条件随机场的中文地名识别方法[J].武汉大学学报(信息科学版), 2017,42(2):150-156. [19] 何炎祥,罗楚威,胡彬尧.基于CRF和规则相结合的地理命名实体识别方法[J].计算机应用与软件, 2015, 32(1):179-185. [20] ZHENG X, CHEN H, XU T. Deep learning for Chinese word segmentation and POS tagging[C]//Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, Washington:[s. n.], 2013:647-657. [21] PEI W, GE T, CHANG B. Max-margin tensor neural network for Chinese word segmentation[C]//Meeting of the Association for Computational Linguistics. Stroudsburg, PA:Association for Computational Linguistics, 2014:293-303. [22] CHEN X, QIU X, ZHU C, et al. Gated recursive neural network for Chinese word segmentation[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1:Long Papers). Stroudsburg,PA:Association for Computational Linguistics, 2015:1744-1753. [23] CHEN X, QIU X, ZHU C, et al. Long short-term memory neural networks for chinese word segmentation[C]//Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA:Association for Computational Linguistics, 2015:1197-1206. [24] YAO Y, HUANG Z. Bi-directional LSTM recurrent neural network for Chinese word segmentation[C]//International Conference on Neural Information Processing.[S. l.]:Springer, Cham, 2016:345-353. [25] LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]//Proceedings of 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Stroudsburg, PA:Association for Computational Linguistics, 2016:260-270. [26] KANG M, DU Q, WANG M. A new method of Chinese address extraction based on address tree model[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(1):99-107. [27] 亢孟军,杜清运,王明军.地址树模型的中文地址提取方法[J].测绘学报, 2015, 44(1):99-107. [28] 李新放,宋转玲,陈学业,等. K叉树地址的模糊匹配研究与实现[J].测绘通报, 2018(9):126-129. [29] 史名君.非规范中文地址的智能匹配研究[D].徐州:中国矿业大学, 2020. [30] 刁兴春,谭明超,曹建军.一种融合多种编辑距离的字符串相似度计算方法[J].计算机应用研究,2010, 27(12):4523-4525. [31] SHAN S, LI Z, QIANG Y, et al. DeepAM:deep semantic address representation for address matching[C]//Web and Big Data. Cham:Springer International Publishing, 2019:45-60. [32] LIN Y, KANG M, WU Y, et al. A deep learning architecture for semantic address matching[J]. International Journal of Geographical Information Science,2020, 34(3):559-576. [33] 赵明,杜会芳,董翠翠,等.基于word2vec和LSTM的饮食健康文本分类研究[J].农业机械学报, 2017, 48(10):202-208. [34] GERS F A, SCHMIDHUBER J, CUMMINS F, et al. Learning to forget:continual prediction with LSTM[J]. Neural computation, 2000, 12(10):2451-2471. [35] 邓力.深度学习自然语言处理[M].北京:清华大学出版社,2020. [36] CHEN T, XU R, HE Y, et al. Improving sentiment analysis via sentence type classification using BiLSTMCRF and CNN[J]. Expert System with Applications, 2017, 72:221-230. |
[1] | 葛鹏飞, 刘辉, 陈蜜, 李昱, 丁瑞力, 刘菲. 时序InSAR监测京雄城际铁路河北段地面沉降[J]. 测绘通报, 2022, 0(7): 64-70. |
[2] | 吕峥, 孙群, 温伯威, 马京振. 一种自身全局最优的道路网Stroke生成方法[J]. 测绘通报, 2022, 0(7): 93-99. |
[3] | 钟祺康, 王志一, 王娜, 郗富瑞. 陕北干旱区景观生态风险空间分异特征及驱动因素分析[J]. 测绘通报, 2022, 0(7): 100-106. |
[4] | 强德霞, 马海政, 朱自平, 苟彦梅. 甘肃省积石山县泥石流空间分布及分析[J]. 测绘通报, 2022, 0(7): 107-111,117. |
[5] | 韩文立, 张继贤, 陈海鹏, 黄海英, 章力博, 葛娟, 沈晶, 卢遥. 新型基础测绘质检技术探讨[J]. 测绘通报, 2022, 0(7): 148-153. |
[6] | 陶肖静. 基于TEA算法的地理信息数据安全保护技术及验证分析[J]. 测绘通报, 2022, 0(7): 154-157,167. |
[7] | 蔡柔丹. 一种基于用户异步轨迹的身份识别智能方法[J]. 测绘通报, 2022, 0(7): 158-162,167. |
[8] | 周烨, 刘云波, 郑丽波, 龙泱君. 多平台点云数据的单木参数提取精度分析[J]. 测绘通报, 2022, 0(7): 168-172. |
[9] | 贺瑜琦, 曾一笑, 陈光, 陈良超. 新型测绘视角下的山地城市规划实施场景预警模拟技术探索[J]. 测绘通报, 2022, 0(4): 11-15. |
[10] | 罗国玮, 叶嘉媛, 王金凤. 基于多特征相似性的多源POI匹配方法[J]. 测绘通报, 2022, 0(4): 96-100. |
[11] | 闫明涛, 乔家君, 瞿萌, 朱乾坤, 韩冬. 黄河流域乡村社会经济与生态环境耦合协调测度及影响因素分析[J]. 测绘通报, 2022, 0(4): 101-105,116. |
[12] | 张普伟, 付梁, 王国华, 卢嫣楠, 赵海云. 乡村休闲养老项目的选址评价体系分析[J]. 测绘通报, 2022, 0(4): 106-110. |
[13] | 黄鹤, 孟维明. 基于视觉的大半径圆曲线车道线识别[J]. 测绘通报, 2022, 0(4): 134-137. |
[14] | 张定祥, 汪秀莲, 刘顺喜, 张嘉, 陈强, 李士江. 第三次全国国土调查土地利用矢量数据栅格化方法[J]. 测绘通报, 2022, 0(4): 138-144. |
[15] | 曾元武, 史京文, 罗宏明, 程迎轩. 省市县三级联动国土空间规划实施监督信息系统建设研究——以广东省为例[J]. 测绘通报, 2022, 0(4): 145-148. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||