通讯地址查询邮政编码系统设计论文
目录
1现状分析
(1)让用户手工输入完整的地址和地址对应的邮编
(2)通过下拉列表提供省
(3)保留用户输入的地址和邮编
(1)很多情况下用户未必知道自己输入的地址对应的邮编
(2)由于基于拼音的输入法和汉语本身存在的缺陷(汉字存在多音字
(3)由于地名存在别名现象
(4)有些情况下用户无法输入完整的地址 当输入的时候一脸茫然和无助
(5)由于地址存在变更和搜集不完全的问题这些网站的数据往往得不到更新
(1)帮助用户输入
(2)采用基于搜索引擎技术使得用户输入的查询格式更加自由
(3)基于命名实体识别技术能够识别出用户输入地址元数据的级别
(4)自动从互联网上抓取地址数据完成参考数据的更新
(5)对不用来源的参考数据进行校验
(6)有时候由于参考数据在乡镇级行政区级别及以下级别上收录得不是很全
(7)实现查询结果地址的切分和级别标注方便用户灵活使用结果
(8)将地址和对应的邮编加密到二维码中
(9)将用户的检索结果链接到知名的地图厂商(百度
2系统设计
2. 1总体架构设计
(1)用于通过通信地址查询邮政编码的通信地址和邮政编码对应关系的数据
(2)用于输入地址提示的标准化的通信地址数据
(3)用于地址切分
2. 2地址查询编码过程设计
(1)省级行政区级(包括省、 自治区、直辖市和特别行政区)
(2)地级行政区级(包括地级市、 自治州、地区、盟、直辖市辖区)
(3)县级行政区级(包括市辖区、县、旗、特区、林区、 自治县和自治旗等)
(4)乡级行政区级(包括乡、镇、街道、苏木、区公所) 用town表示
(5)低于乡级行政区级用all表示
一个地址文本其对应的最低地址等级域的值计算如下
(1)首先对地址文本做预处理
(2)其次是地址切分和地址标注
(3)接着是地址命名实体识别获取最终的地名实体标注序列
(4)然后根据规则计算出此地址文本的最低地址等级的值
(5)将最低地址等级映射到最低地址等级域的值
1→province;2→city;3→district;4→town;0→all
2. 3地址解析过程
(1) 1→province city;
(2)2→city district town;
(3)3→district town
2.4地址补全
3总结
正文
通讯地址查询邮政编码系统设计论文
随着电子商务的突飞猛进和物流行业的信息化使得人们在足不出户的情况下完成购物和邮寄物品大大节约了时间和金钱成本。
1现状分析
随着电子商务的突飞猛进和物流行业的信息化使得人们在足不出户的情况下完成购物和邮寄物品大大节约了时间和金钱成本。 电子商务和物流行业都离不开通信地址(又称为通讯地址简称为地址)和邮编这些数据都需要用户提供 当前一些电子商务网站和物流行业的主要的做法如下
(1)让用户手工输入完整的地址和地址对应的邮编。
(2)通过下拉列表提供省省下面地级市和地级市下面的区县这些比较固定的地址让用户选择余下的地址和邮编由用户手工输入。
(3)保留用户输入的地址和邮编方便下次再次使用 即如果本次输入的地址和邮编之前已经有了一份直接选中就避免了让用户重复输入。
这些做法主要存在的问题如下
(1)很多情况下用户未必知道自己输入的地址对应的邮编。
(2)由于基于拼音的输入法和汉语本身存在的缺陷(汉字存在多音字多个汉字拥有相同的读音多数基于拼音的输入法都是基于统计的语言模型) 再加上地址中存在的一些生僻字的原因会导致输入的地址存在错别字。
(3)由于地名存在别名现象 即同一个地名有多种叫法例如“广东省”的别名有“广东”和“粤” 因此他们识别不了对同一个地名的不同描述。
(4)有些情况下用户无法输入完整的地址当输入的时候一脸茫然和无助。
(5)由于地址存在变更和搜集不完全的问题这些网站的数据往往得不到更新。
当前一些其他的网站能够解决第一个问题 即帮助用户得到地址对应的邮编。但是他们往往采用数据库技术来实现的系统对于低于区县级别的地址往往采用字串模糊查询(l ike %XXX%)的方式参与检索 由于性能的原因此种方式对于大数据量的查询效率很差。另外基于数据库实现的查询使得用户的输入格式和内容受到了很大的限制比如
用户首先选择省级行政区(包括省、特别行政区、 自治区和直辖市)的名字其次是选择地级行政区(包括地级市、 自治州、地区和盟)级别的名字然后再县级行政区(包括市辖区、县、旗、特区、林区、 自
治县和自治旗等)级别的名字最后用户输入乡镇级别及村庄道路等。查询的输入过程非常机械。
另外基于数据库的查询模式要求地址格式全部满足四级即省级地级市级区县级然后是其他具体地址。但是并不是所有的地址都满足此种情况例如直辖市下和省与直辖县或省直辖县级市之间就没有地级市级一些特殊的地级市没有区县级如广东省中山市、广东省东莞市、海南省三亚市、海南省三沙市、甘肃省嘉峪关市;他们的'解决办法起个其他的名字代替例如“直辖区县” “市辖区” “省直辖县”等但是查询的结果中一般也包含这些非真正地址的数据。
本方法尝试解决如下问题
(1)帮助用户输入 即提供输入提示功能(类似Google Suggestion)
(2)采用基于搜索引擎技术使得用户输入的查询格式更加自由并且通过一个比较短的地址片段就可以找到完整的地址。
(3)基于命名实体识别技术能够识别出用户输入地址元数据的级别从而实现地址的逐级查询(例如已知一个地级市给出该地级市下所有县级行政区的名字和对应的邮编;已知一个省的名字给出该省下所有地级行政区的名字和对应的邮编等)
(4)自动从互联网上抓取地址数据完成参考数据的更新。
(5)对不用来源的参考数据进行校验识别出有问题的参考数据使得参考数据更加准确。
(6)有时候由于参考数据在乡镇级行政区级别及以下级别上收录得不是很全本方法可以通过地址补全方式完善查询结果。
(7)实现查询结果地址的切分和级别标注方便用户灵活使用结果。
(8)将地址和对应的邮编加密到二维码中方便用户通过二维码扫描软件直接获取完整的地址和邮编。
(9)将用户的检索结果链接到知名的地图厂商(百度谷歌搜狗地图等)获取相关地址的经纬度数据。
2系统设计
2. 1总体架构设计
本系统的总体架构如图1所示。
从图1邮编查询系统的总体架构图可以看出该系统需要三种数据
(1)用于通过通信地址查询邮政编码的通信地址和邮政编码对应关系的数据。
(2)用于输入地址提示的标准化的通信地址数据。
(3)用于地址切分地址标注命名实体识别和Query语句生成的地址元数据字典数据。
第一种数据通信地址和邮政编码的对应关系可以从一些数据比较新而且数据比较标准和完整的邮编查询网站上利用基于种子的网络爬虫和信息抽取技术抓取相关数据。
第二种数据标准化的通信地址数据一种来源是第一种数据去掉邮政编码后的通信地址数据第二种来源从维基百科和国家统计局网站上最新的有关中国行政区划上的网页上利用爬虫技术和信息抽取技术抽取得来。
第三种数据地址元数据字典数据源自维基百科和国家统计局有关中国行政区划的地址元数据 以及通过地址切分和识别技术从完整的通信地址中获得。
地址元数据包含的数据主要有省级行政区名(包括省、 自治区、直辖市和特别行政区) 、地级行政区名(地级市、 自治州、地区、盟) 、县级行政区名(包含市辖区、县级市、县、 自治县、旗、 自治旗、特区和林区) 、乡级行政区名(包括乡、镇、街道、苏木、区公所) 其他地址数据(包括道路名、村庄名、小区名、建筑物名和广场名)等。
2.2地址查询编码过程设计
地址查询邮编索引结构如图2所示。
其中地址的最低等级域(Level Field)包含的数据值如下
近日Friendhosting发布了最新的消息,新上线了美国迈阿密的云产品,之前的夏季优惠活动还在进行中,全场一次性45折优惠,最高可购买半年,超过半年优惠力度就不高了,Friendhosting商家的优势就是100Mbps带宽不限流量,有需要的朋友可以尝试一下。Friendhosting怎么样?Friendhosting服务器好不好?Friendhosting服务器值不值得购买?Friendho...
收到10gbiz发来的7月份优惠方案,中国香港、美国洛杉矶机房VPS主机4折优惠码,优惠后洛杉矶VPS月付2.36美元起,香港VPS月付2.75美元起。这是一家2020年成立的主机商,提供的产品包括独立服务器租用和VPS主机等,数据中心在美国洛杉矶、圣何塞和中国香港。商家VPS主机基于KVM架构,支持使用PayPal或者支付宝付款。洛杉矶VPS架构CPU内存硬盘带宽系统价格单核512MB10GB1...
优惠码年付一次性5折优惠码:TYO-Lite-Open-Beta-1y-50OFF永久8折优惠码:TYO-Lite-Open-Beta-Recur-20OFF日本vpsCPU内存SSD流量带宽价格购买1核1.5G20 GB4 TB1Gbps$10.9/月购买2核2 G40 GB6 TB1Gbps$16.9/月购买2核4 G60 GB8 TB1Gbps$21.9/月购买4核4 G80 GB12 TB...