法安网

法安网内容检索

当前位置: 首页 > 智慧政法 > 公安 >

公安大数据建设—新时代地址模型与地址输入法研究

时间:2019-08-14 11:06:52   来源:

[法安导读]  在警务大数据建设中,以地为纽带关联共享公安业务信息和社会资源信息遇到了极大的困难。因此,深入分析...

  在警务大数据建设中,以“地”为纽带关联共享公安业务信息和社会资源信息遇到了极大的困难。因此,深入分析地址信息存在的主要问题,基于GB/T 32627-2016国标参考各地、各行业实践经验提出通用易掌握的高精度八层巴科斯范式(BNF)城市型和农村型住址模型,并巧妙的将标准地名植入输入法快速规范采集地址信息,用简易的方法实现标准地址信息快速规范的共享交换,有效破解有机集成和可视化展示各类专题数据难题。

公安大数据建设—新时代地址模型与地址输入法研究

  【关键词】地址模型;地址输入法;PGIS;地址标准化

  基于信息技术革命的强大推力,一个以海量信息和数据挖掘为特征的大数据时代正在到来。“大数据之父”维克托•迈尔-舍恩伯格说过,“大数据的核心要义在于共享”。大数据时代更好的思维变革不是因果关系,而是相关关系。据统计,人们在社会经济生活中接触的信息中有80%以上的信息关联着地址。地址数据是现代公安工作与社会管理所必需的战略性基础信息资源,公安信息化建设需要真正建立起以“地”为纽带的关联共享,不断实现公安业务信息、社会资源信息的有机集成。2016年4月25日,国标GB/T 32627-2016《信息技术 地址数据描述要求》发布,并于2016年11月1日实施,规定了地址定义、地址数据库设计、地址数据属性、地址数据元数据、地址数据的质量要求以及地址数据的获取与更新要求,适用于地址数据库的建设、管理、应用和更新。大数据时代的公安信息化建设如何应用该标准,显著提升海量警务地址信息的质量,破解有机集成和可视化展示各类专题数据难题,成为当前公安信息化建设紧迫的工作任务。

  一、地址信息存在的主要问题分析

  ㈠模型复杂难懂而且精度粗犷

  相对用“+”来规范地址描述,国标用简洁的程序语言明晰了地址元素的必选性、或选性和可选性。然而要读懂国标中复杂的地址定义是比较困难的。研究整理后发现城市型和农村型地址各有六种情形(参见表1),只有第2至5种情形的城市型地址描述精度较高,可以满足警务居住地址描述精度要求;其它八种情形地址模型只是粗犷的地名地址描述,而且第5种情形的城市型和第6种情形的农村型地址模型的实用性值得深入研究。总的来说,公安机关应用国标的要点是针对各地复杂情况整合数种地址描述情形,着力解决地址模型的通用性、操作性、高精度等问题。

  ㈡地址用语随意造成地址乱象

  由于人们日常用语的随意性,地名、门楼牌管理工作的不到位和地址信息采集过程中的错误,造成各部门、各行业的地址信息“有地无址、有址无地、一地多址、一址多地”现象十分严重,联网共享与检索分析地址信息特别困难。如:“褔”简写为“伏”、“曹家铺村”简写为“曹家村”、“北垱子村”写为“北档子村”等。这些错误一般不会影响人们日常交流,但在计算机中可能会产生严重后果。其实《地名管理条例》第五条明确规定了“一地多名、一名多写的,应当确定一个统一的名称和用字”,这里存在一个整改落实的问题。

  ㈢地址层次关系混乱冗长难读

  警务系统中常见地址元素缺少、冗余、颠倒等层次关系混乱问题,导致地理位置定位不精确或者地址冗长难读。如地址“×省×市×街道×社区马家坪85号13组101室”中的“号”、“组”、“室”次序颠倒;地址“×省×市×县×镇×社区林荫路第五居民小组三仙湖狗肉老店楼栋(湘鄂边北门广场西进口东侧)十一单元224室”中的地址元素多余,冗长难读且层次混乱。造成这些问题的原因,一方面是采录人员对地址没有概念,没有掌握地址模型,或者录入不认真细致;另一方面是程序设计人员没有研究标准地址模型,没有科学设计录入表单,不能智能控制录入的地址元素,不能正确合并录入的地址元素信息,地址信息质量完全取决于采录人员的水平和态度。

  ㈣门楼详址格式量词多种多样

  门楼详址实质上是“号”“栋”“单元”“室”的序数组合,在实践中出现了多种多样的格式,如“3栋2单元101室”写为“3栋2单元101”或“3-2-101号”,缺少必要的量词。同时,由于GB17733―2008《地名标志》规定的楼单元地名标志版面示例式样采用中文数字,导致“3栋二单元101号”写法普遍,很不协调。对于村组而言,采用中文数字也和城区详址格式不协调统一,将“第十一村民小组”写为“11组”,简单明了,缩短了地址长度。

  二、基于国标完善新时代地址模型

  ㈠地址模型定义

  以国标GB/T 32627-2016为基础,借鉴美国、澳大利亚、南非和日本等国的地址数据标准[4],参考广东、四川、河南、江苏公安标准地址信息采集规范,吸收其它行业标准地址库建设经验,提出通用易掌握的高精度八层巴科斯范式(BNF)地址模型定义如下:

  <城市型地址>::=<省级地名>[市级地名][县级地名][乡级地名]<社区|行政村><路|街|巷|街区名><门牌号"号">[[小区名][楼栋号"栋"][单元号"单元"]房间号"室"]

  <农村型地址>::=<省级地名>[市级地名][县级地名]<乡级地名><行政村|社区><[自然村]组号"组">[门牌号"号"][[小区名][楼栋号"栋"][单元号"单元"]房间号"室"]

  示例:1.湖南省益阳市南县南洲镇东红社区东红路89号中央公园1栋2单元1502室;2.湖南省益阳市南县南洲镇老正街社区湘鄂边大市场152号301室;3.湖南省益阳市南县浪拔湖镇泰来村白合洲6组176号;4.湖南省益阳市南县乌嘴乡长安村安乐10组一职高教师公寓4栋2单元202室。

  ㈡与国标相比较

  在遵循GB/T 32627-2016国标的前提下,城市型地址做了以下细化和完善:一是将三种合适的描述类型统一到一个模型,方便学习掌握;二是为适应党中央国务院推广街区制精神,增加“街区名”归属到第六层,并入街路巷字典;三是必选项“小区名”改为可选项,归于第八层,是唯一的增强直观性的冗余信息;四是取消“楼层”或选项,楼层信息统一并入房间号,将“小区名”“楼号”“单元号”等一起归于第八层;五是规范统一量词,楼栋号量词统一为“栋”,房间号量词统一为“室”。

  农村型地址还做了以下细化和完善:一是增加层次,提高地址描述精度;二是可选项“村组”改为必选项;三是“社区”进入第五层是考虑到部分村改社区后,道路建设仍处于农村形态;四是当“行政村”内有两个及以上“自然村”单独编组时,第六层才嵌入“自然村”。这主要是为了破解近几年大规模撤乡并村后因为种种原因没有重新编排或合并村民小组,造成地址描述难的问题(去掉原村名中专名作为“自然村”);五是第八层是为了解决散落在农村的学校、企业、科研所等有院落单位的地址描述问题。

  须要注意地是,我国处于社会经济高速发展时期,城中有村,村中有城,实践中要根据房屋道路建设和门楼牌设置情况优先选择城市型地址模型。

  ㈢应用模型要点

  首先要正确选择模型中的或选项和可选项。一是依照我国语言习惯和实际存在的行政区域地名正确选择行政区域地名可选项,如对于“市级”行政区域地名,只有地级市所辖的县级市不选,“湖南省沅江市”不能描述为“湖南省益阳市沅江市”,对于“县级”行政区域地名,只有没有“县级”行政区域地名的地方不选,如“广东省东莞市厚街镇”;二是门楼详址要依据客观存在的地理实体描述,只有独栋的不选楼号,平房或只有一个单元的楼房不选单元号;三是“行政村”已重新统一编排了组号的,不选“自然村”。总而言之,地址模型设置或选项和可选项只是为了适应全国各地复杂情况,对某一具体位置而言,是没有或选项和可选项的。

  其次要统一地址中的序数字符格式。总的原则是,地名中的序数应用小写中文数字全角字符,门楼详址中的序数应用阿拉伯数字半角字符。对于各地门牌编排设置出现的实际问题也要统一规范:门牌附号信息包含在“门牌号”中,类似重庆的负层[5]或地下室在房间号前加半角字符“B”。如将龙湖西路100号附5号负1层2室描述为“龙湖西路100-5号B102室”。小区分片编号或分期建设分别编号的,信息包含在楼栋号中,如将高桥市场2期5栋描述为“高桥市场2-5栋”。

  三、订制地址输入法采集地址信息

  当前,理想的警用标准地址数据管理与服务系统全面应用还有待时日,蓬勃发展的二维码电子门牌[6]又缺乏地址信息共享交换功能。为此,笔者经过深入研究和反复测试,发现将标准地名植入输入法,以县级行政区域为单位订制专用的“地址输入法”,可以显著提高录入的速度、大幅提高地址信息质量。

  地址输入法的特点介绍如下:

  一是可使用五笔或拼音(提示五笔编码)方式输入。

  二是将地址中最后一个标准地名作为词组输入,会录入前面的所有地址信息。如输入“泰来村”的五笔码“dgs”或拼音码“tlc”,就会录入“湖南省益阳市南县浪拔湖镇泰来村” 信息、输入“中央公园”的五笔码“kmwl”或拼音码“zygy”,就会录入“湖南省益阳市南县南洲镇东红社区东红路89号中央公园”信息。

  三是地址中的量词作为简码输入。如“号、栋、单元、室、组”的五笔码分别为“k、s、u、p、x”,拼音码分别为“h、d、dy、s、z”。

  当然,实践中应当根据操作系统和警务系统的不同订制不同版本的输入法。我们在重点人员一体化管控系统、身份证办理系统、执法办案系统和车驾管系统中启用了录入全部八层地址信息的标准地址输入法;在110处警系统中启用了录入后五层地址信息的标准地址输入法;在“一标三实”系统使用了只包含小区名信息的地址输入法等。

  不容忽视地是,多数有地址字典的系统应用地址模型和地址输入法时,应采取特别的措施。如某“社区警务”系统有3个地址字典、分9个项目录入后按固定顺序合并而成的,也就是说,地址元素之间的层次关系由地址信息录入的位置决定,而且对录入的项目和字符格式没有作技术上的限制,采录人员的水平和态度决定了地址信息质量。因此,只能确定采录房屋实体地址信息的规则如下:采录城市型地址时,“小区(组)”栏不能录入信息,“楼栋详址”只录入规范的小区名和栋号信息;采录农村型地址时,“街路巷”和“门牌号(号)”不能录入信息,门牌号信息要在“楼栋详址”录入。

  四、地址信息质量检测与评价制度

  地址是警务信息的重要组成部分,直接影响警务活动的正常开展,亟需确定地址数据质量的检测指标、评分标准以及评价方法,构建地址信息质量控制体系,建立地址信息质量检测与评价制度。相对PGIS平台地理编码之困难,根据确定的地址模型开展地址信息质量检测与评价比较容易。可参考亢孟军等提出的地址树模型中文地址提取方法[7]和张雪英等提出的基于规则的中文地址要素解析方法[8],利用标准地名和地址量词对警务地址元素进行提取分析,发现地址数据中存在的质量问题,进而对地址数据采集过程进行督查指导,以保证警务地址信息的一致性、完整性和确定性。

  当前,最为紧迫的任务是基于确定的标准地址模型整改“一标三实”系统中的标准地址信息, 在PGIS平台中实现“一标三实”信息可视化展示,再以此为样板对其它信息系统的地址信息进行质量检测与评价。

  五、结束语

  笔者基于国标GB/T 32627-2016提出的住址模型,是从理论角度规范地址信息,可用于采用字典法录入地址信息表单的优化;根据模型编制的“地址输入法”,不但可以在警务系统中推广应用,还可以向全社会信息系统中推广应用。如行政机关的服务管理系统,水、电、汽、有线电视和宽带网络等民生业务系统,企业销售客户的管理系统,邮政快递物流企业的运营系统……也只有让全民使用标准地址,公安机关才能真正实现地址标准化,真正夯实属地精细化管控基础,继而破解地理信息系统地理编码难题,为各类专题数据可视化展示和有机集成创造条件。

  作者:刘立波

  编辑:广汉

声明:

本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。

征稿启事

  • 投稿信箱:195024562@qq.com

品牌推荐更多>>