法安网

法安网内容检索

当前位置: 首页 > 同期活动 > 案例征集 >

2024·智慧检务篇 | 创新经验之“数字检察技术供给侧建设路径研究”

时间:2025-03-20 15:55:11   来源:

[法安导读]以下推出的是《智慧检务篇 | 创新经验之“数字检察技术供给侧建设路径研究”》

  为深化政法智能化建设,加强“智慧治理”“智慧法院”“智慧检务”“智慧警务”“智慧司法”等信息平台建设,深入实施大数据战略,实现科技创新成果同政法工作深度融合。法制日报社已连续举办了七届“政法智能化建设技术装备及成果展”。

  作为装备展配套活动,法制日报社于2024年3月继续举办了2024政法智能化建设创新经验征集宣传活动,活动征集了“智慧治理”“智慧法院”“智慧检务”“智慧警务”“智慧司法”创新经验。

  在2024年7月10日至11日举办的成果展上,对入选的创新经验进行了集中展示,并已编辑整理成册——《2024政法智能化建设创新经验汇编》。

  该汇编分为智慧治理篇、智慧法院篇、智慧检务篇、智慧警务篇、智慧司法篇五个篇章,为政法信息化、智能化建设提供及时、准确、 实用的资讯信息与经验观点。

  应广大读者要求,我们特开辟专栏,将部分创新经验进行展示,敬请关注!

  以下推出的是《智慧检务篇 | 创新经验之“数字检察技术供给侧建设路径研究”》

  

  数字检察技术供给侧建设路径研究

  祖永亮 谢飞 安徽省淮北市人民检察院

  黄峰 安徽省淮北市濉溪县人民检察院

  2024年1月,全国检察长会议上最高人民检察院检察长应勇强调,“要深入实施数字检察战略,构建业务主导、数据整合、技术支撑、重在应用的数字检察工作机制,以数字革命赋能法律监督”[]。从数字检察的字面意思来看,业务需求和数字技术是两大驱动,其中业务需求是前提,数字技术是关键,数据是基础要素。如何构建能适配四级检察机关且高效经济的数字检察技术供给体系已经成为深化数字检察战略,推进检察工作现代化的一个重要课题。

  一、技术供给侧的现实困境

  从学界对数字检察定义的来看,核心要义都是用数字思维、方法、技术同业务融合迭代并赋能检察工作[][],这对现有的检察队伍和技术储备都提出了更高的要求。从近年来的数字检察司法实践来看,数字检察仍面临不少困难。[]如果仅从技术供给侧角度来说,笔者认为尚存在以下问题:

  (一)数据思维、理念欠缺。

  当前一个阶段,无论检察官还是检察技术人员都习惯于传统的法律因果逻辑,而对大数据的似然逻辑建构缺乏清晰认知和思维习惯。数字检察的价值追求也决定其要有能动履职、融合履职的天然要求,现有的检察技术队伍与检察业务的团队融合、需求形式化、应用反馈协同不足。

  (二)数据技术能力不足。

  现有的检查信息化人员,特别是市县两级检察机关,其工作定位一般为信息化保障服务,日常运维工作繁杂,难以有精力和机会去学习实践新技术。

  (三)数据资源储备不足。

  现有检察机关的业务数据存储基本上都是采用省院集中部署的方式,对市县两级检察院的自生数据返还不足。原来围绕侦查工作所部署的数据平台,因后期的体制改革和工作方向的调整,许多数据无法更新,查询专线大都也不可用。

  (四)好用的数据工具和技术产品供给不足。

  尽管市面上或者开源社区存在学多精巧的数据工具,但往往有一定的学习曲线或者仅能解决某一单一的数据处理问题。从检察官视角来看,工具不好用。而定制开发的大数据平台,也存在数据标准不规范、建设成本高、风险大的问题。

  二、技术供给侧要素配置思路

  数字检察建设是一项系统性工程,并非简单对检察办案数据进行简单的加工和利用,而是要对检察履职办案进行数字化革命,从根本上改变传统检察工作的模式。[]从马克思主义生产力观点来看,数据是生产资料,检察官及技术人员是劳动者,数字技术栈就是生产工具,在此基础上办理的一个个高质效案件就是劳动成果。数字检察以“数字赋能监督,监督促进治理”为价值追求,以“高质效办好每一个案件”为现实目标,以数据为生产要素,以数字技术为支撑,具有高科技、高效能、高质量特征,完全符合新发展理念的新质生产力业态。高效的技术供给既是生产工具提档升级也是数字检察发展的原生驱动。根据数据要素生命周期的工作流程,可以把技术供给按阶段分类:

  (一)最小化数据采集。

  数据采集的内容是依法律监督职权,在个案办理的基础上,按照最小且必要原则梳理出的数据清单,具有事后性和程序性。[]按照数据来源,可分为:内生数据、协同数据、共享数据、公开数据。内生数据的采集可利用统一业务软件2.0的数据返还接口。共享数据主要指政法协同平台交换的刑事案件数据以及刑事司法和行政执法链接交换的行政执法数据,这部分数据可以通过平台的查询功能获得。共享数据主要指依据府检联动协议共享和个案办理依职权调取的数据,主要包括:行政处罚、行政许可、基础地理信息、刑事立案、税费记录、金融资金流水、平台交易记录等,主要采集方法有:离线最小批量调取、基于前置机或网闸的数据交换、探针或网络旁路采集、专线查询。公开数据指的是可以合规的从互联网获取的,如:政务公开数据、裁判文书、舆情数据、平台展示性数据等,主要技术就是网络爬虫(如:PySpider、Web Scraper等)与公开接口调用(天眼查、绿网等)。在笔者利用PySpider工具帮助网络销售伪劣消防灭火器危害公共安全类案监督模型[]完成部分公开数据采集。

  (二)规范化数据预处理。

  根据数据分析的方法和采集数据的质量,采用不同的预处理技术。常见的数据质量问题有:字段缺失、噪声、异常值、重复,一般的技术方法就是冗余字段校验回填、差值回填/修正、删除。对于数据集不超过1万条的,可以直接使用Excel的筛选、函数等组合实现,对于超过万条级的数据集,可以通过文本型数据库SQLite的关系运算实现。非结构化数据的结构化变换是处理文本或文本数值等混编类型的必要路径,检察官日常处理最多的审查报告、起诉书、判决书等法律文书皆是非结构文本数据,对于非结构化数据需要应用知识图谱、自然语言处理等人工智能技术,实践中有些检察官应用类ChatGPT平台提取司法文书实体要素,取得了不错效果。对于半结构化数据,如网页、XML文件、JSON流,常见的处理工具有:HTMLParser、XPath、HiJson等。关联规则、分类、聚类等数据挖掘算法对数据类型有着量值型要求,连续型参量离散量化、字符型参量标称量化等。对于异构数据集成、树仓前,还需要对数据进行清洗转换抽取,常用的ETL工具有Kettle、Weka等。

  (三)创新构建数据法律监督模型。

  实现个案办理到类案监督的放大效应的关键就是构建高可用、符合法律原义的监督模型。实践中大多数的大数据法律监督模型的构建路径:“个案办理—法律法规和先验知识判断—归纳抽象研判逻辑—收集可用数据—具化逻辑规则—全量数据检验—可疑数据集”,这一路径在数据科学中被称为归纳逻辑编程法。建构大数据法律模型按照数据集目标可归纳分类如表1:

  

  表1 监督模型建构目标、方法与场景梳理

  除了以上阶段性的技术需求外,还需硬件支撑底座、算力资源、通用技术、检察机关数据目录标准和存取规范和数据安全保障技术体系。考虑各级检察机关的职责、资源禀赋的差距,在数字检察技术供给端和应用端呈现反对称性。

  

  图1 数字检察技术供给层次配置

  基层检察院技术供给应以简单好用的数据采集分析工具包及其配套的应用能力培训为主,能够帮助检察官独立地完成结构化跨表数据碰撞、数据要素简单配置、模型业务流程编排等监督模型构建测试。

  市级检察院要技术供给要能够实现库级数据归集、半结构化数据的爬虫整理、小批量图文数据OCR、地理信息数据采集以及基于SQL的数据处理和Python的简单数据分析,帮助检察官构建可运行复杂的监督模型。

  省级检察院技术供给应以数算平台和通用技术为重点,如:算力底座、数据中台、模型编排平台等。当然批量的OCR、遥感空天信息处理、基于AIGC技术的长文本分析能力对于拓展数字检察的领域非常有价值。

  三、构建以数据中台-业务编排平台为中心的技术供给建设路径

  数字检察是个技术与业务交叉融合的领域,对于理念、人力、财力、物力都有很高要求,这点从浙江、北京等实践先进地区(都是发达地区)即可看出。如何实现数字检察技术供给相对均衡,让数字检察之花处处绽放?但就从新型生产工具的塑造层面来讲,需要把那些可以抽象复用的、通用的、高度复杂且必须的,纳入顶层设计,由省级以上检察机关规划、开发、部署,而基层检察院更多的应在数据采集、建模和应用上发挥一线智慧。

  (一)基于数据资源体系构建高可容性数据中台。

  数据中台是来源于数据治理领域的概念,通过数据服务总线,固化和泛化数据采集、清洗、业务工作流,实现程式化数据建仓和高可用的数据服务能力,最终的目的是实现数据业务化。现有各省级检察机关都有海量的数据资源池,数据中台既能唤醒资源池里沉睡数据,更关键地是能为数字检察战略下的基层检察院的数据采集、数据整理工作,提供全生命周期的数据管理和安全保障服务。基层检察院检察官在办理个案的过程中,要树立能动履职理念,坚持数据思维,要有意识地归纳监督点,梳理数据需求清单,利用个案的侦查、审查、调查能力,调取数据注入数据中台,实现数据积累。

  (二)构建人性化的业务编排平台。

  基层检察院有法律监督最迫切的需求和最多的检察业务人才,也有最直接的创新动力。摒除一些不必要的技术细节,把数据接入、关系运算、逻辑运算、算法、结果输出等构建模型的基础单元算子化、流程化、模块化,构建拖拽式、所见即所得、可随时仿真测试的、人性化的业务模型编辑平台,能够降低检察官的学习成本。易用的平台、可仿真复现的模型运行环境、方便应用的模型市场,必将能够吸引更多检察官投入到数字检察实践。

  (三)搭建检察机关内部的文本、图像理解通用技术栈平台。

  从数字检察的具体实践来看,全国四级检察机关构建6000多个大数据法律监督模型,绝大多数都是处理的简单类型或半结构化数据,[]而大量的法律事实和程序信息都分散在卷宗、文书之中。尽管大数据监督模型在一定程度上解决了原来检察官在有限的条件下违法事实看不全的问题,但也要注意到数据监督模型存在着事实看不懂、更看不透的先天缺陷。这个问题的主要原因就是传统的机器智能和算法无法实现通用。随着算力资源门槛的降低和多模态大模型技术的突破,通用的文本理解、图像理解技术已经达到商用要求。基于检察机关工作网环境,引入业界成熟的大模型技术,搭建通用的文本理解和图像理解技术栈平台,挖掘检察机关自有的海量卷宗和文书数据,建构出海量主体和事实的知识图谱,必将把数字检察推进到更高水平。

  责任编辑:晓莉

声明:

本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。

征稿启事

  • 投稿信箱:195024562@qq.com

品牌推荐更多>>