算法证据的独立性探讨需要按照逻辑顺序关注以下三个问题:第一,算法证据与传统证据在本质上是否存在区别。如果不存在区别,则算法证据便不需要独立。第二,算法证据的独立能否脱离法定证据种类这一制度语境。如果可以脱离这一语境,那么“相对独立说”确实应成为未来立法的首选,算法证据便不需要被独立为法定的证据种类。第三,算法证据与传统证据在规制手段上是否存在区别。以电子数据为例,其虽分别属于传统证据的范畴,但考虑到其收集、审查、运用等特殊性,我国法律仍将其独立成为一种新的法定证据种类,以便对其进行全面的法律规制。由此可见,法律规则方式的不同是证据独立的主要原因之一。在以下的讨论中,笔者将按照上述逻辑顺序,从三个方面来论证算法证据独立的法理依据。
(一)算法证据与传统证据之间的内在区别
1.算法证据生成过程的特殊性
算法证据生成的技术原理主要包括数据收集、数据预处理、算法学习、算法运行、结果生成等环节。其中,较为复杂的程序是数据预处理和算法学习。前者的主要任务可以概括为数据清洗、数据集成、数据归约和数据变换,其主要目的是对原始数据进行清理、集中、简化和转换等;后者主要指通过深度学习技术实现自动化的数据提取、挖掘、碰撞和分析等。具体到刑事诉讼语境中,算法证据的生成主要包含以下环节:一是数据获取,二是数据保管,三是算法准入,四是算法启动,五是算法运行。这些过程还涉及数据鉴真、算法鉴真、算法评估等程序规程。就此而言,算法证据兼具了客观性证据和主观性证据的特征,但其生成过程与既有鉴定意见以及专门性问题报告之间存在一定差异。比如,算法证据由算法生成,而非鉴定人员或者专家辅助人所给出的意见。再如,算法证据中的数据获取、算法启动等环节都较为特殊,特别是在大数据侦查中,案外大数据的体量非常大,其调取、保管和启动都应受到更严格的限制,而鉴定意见专门性问题报告一般不存在类似问题。此外,从证据的生成过程来看,算法证据与侦查实验、物证、书证等传统证据之间存在本质不同。
这里需要说明的是,从海量电子数据中去寻找与诉讼相关联的证据犹如大海捞针,因此大数据的出现给刑事司法带来证据分析的挑战。算法提供了高效大批量处理非结构化信息的可能性,它能够弥补人类对庞大数据分析理解上的不足,为事实认定者提供了对大数据进行推理分析的“数据经验”或者“特殊经验”。算法背后的理据在一定程度上超越了人类的日常经验法则,它克服了一般推理所难以解决的证明困境。算法强调从案件中的大数据本身,分析出具有价值的信息,进而推动案件办理,其核心是通过对大数据相关关系的挖掘,对信息进行分类和预测。具体来说,简单分析算法背后暗含的相关关系较易理解,审查者可以从中较为容易地分析出“数据”和“结果”之间是否存在因果关系。但是,智能分析算法的可解释性较低,其背后暗含的相关关系较难转化为因果关系。这是因为智能分析算法主要依赖机器学习进而生成不同的算法类型,常见的类型有决策树、朴素贝叶斯、支持向量机及人工神经网络等。
2.不同算法证据类型间的差异性
在司法实践中,算法证据主要存在两种典型类型,即基于案内大数据的算法证据和基于案外大数据的算法证据。这两类算法证据在大数据来源和生成过程等方面存在明显区别。
其一,基于案内大数据的算法证据,是指主要基于对案件发生过程中所产生的大数据进行算法分析后所产生的证据类型。比如,在李某等集资诈骗案中,检察机关提出安徽平泰司法鉴定所平泰司鉴字(2018)002号司法鉴定意见,用以证实犯罪集团的会员人数与对会员造成的损失。被告人所构建的“平台”所产生的电子数据是他们实施犯罪行为时所产生的大数据集,系案内大数据。案件中的“司法鉴定意见”系相应鉴定机构对案内大数据进行分析后所给出的专业意见,实际上属于对案内大数据分析的算法证据。实践中,司法人员对于此类算法意见的需求较大。比如,在办理侵犯知识产权的刑事案件时,对于大批量音频文件的分析存在人工操作难题,通过构建音频识别算法虽然可以轻松解决这一难题。但是,算法模型构建的较高成本以及算法结论的合法性缺陷导致这一方案难以成行。
其二,基于案外大数据的算法证据,指主要基于对个案之外的大数据进行算法分析后所产生的证据类型。实践中的大数据侦查主要依赖案外大数据。具体来说,实践中的大数据侦查模型主要有以下三种功能。一是关系圈分析。在较为抽象的情景下,特定的算法可以围绕某人或某物发现它们之间的关系,从而挖掘1个或N个目标对象的无限层关联对象。关系圈分析具体可以分为关系人分析、网吧同上网分析、同户分析、车辆同行分析、电子地图和时序图应用等。关系圈分析的结果虽无法直接证明人与人之间的特定关系,但可以作为补强犯罪嫌疑人供述的证据,以增强被追诉人供述的可信性。二是信息比对,主要指将侦查中的有关个人遗留下的数据与其他基于特定目的而事先建设形成的数据库中的数据进行比对,以期实现数据信息的同一认定。通过数据比对碰撞可以帮助办案人员从海量的信息数据中找到符合条件的信息。例如,在陈某盗窃案中,公诉机关提交了大数据警察支队视侦报告,即为此类算法证据。三是独立性分析报告,如话单分析和资金分析。话单分析是指平台算法基于大数据库分析后,给出特定号码的通话时长、通话次数、通话起止时间、与相关手机号码之间的关系等。
实际上,案内大数据被提取后,需要对大数据进行深度挖掘,以便尽可能多地挖掘出大数据的价值。因此,实践中司法机关大多委托司法鉴定机构和审计机构对案内大数据进行专业分析,进而生成基于案内大数据的算法证据。而案外大数据的获取与大数据侦查模型的构建同时进行,通过算法对案外大数据进行比对、分析后所产生的便是基于案外大数据的算法证据,这类算法证据大多作为“抓获经过”“到案经过”“破获经过”等辅助性说明材料出现,主要被用于侦查破案线索、补强言词证据、弹劾被告辩解等。比如,在蔡某某强奸案中,公安机关经调取视频监控,通过大数据比对排查,确定系蔡某某作案,二审法官审查上述证据后,以破案过程自然为由否定了上诉意见,判定蔡某某有罪。
详言之,在证明机理上,基于案内大数据的算法证据与基于案外大数据的算法证据存在区别。基于案内大数据分析的算法证据所进行的证明具有如下特点:一是作用上的关键性。此类证据一般可以直接用于证明犯罪数额或犯罪目的等要件事实,在事实认定中发挥关键作用。二是目的上的多元化。一般来说,案内大数据被提取后,需要对大数据进行深度挖掘,以便尽可能多地挖掘出大数据的价值,因此,挖掘大数据的目的是多元的。如在前文所提及的李某等集资诈骗案中,算法对案涉平台数据的挖掘并没有严格的目的限制,而从理论上来说,算法所挖掘的信息越多,越有利于查清案件事实。基于案外大数据的算法证据所进行的证明具有如下特点:一是作用上的辅助性。侦查阶段大数据技术的应用结果在案件材料与诉讼过程中至多作为辅助性说明材料出现。这些大数据分析模型大多由侦查机关掌控,用于侦破案件、锁定犯罪嫌疑人等。案件侦破后,这些基于案外大数据的算法证据有时并未出现在法庭之上。二是目的上的专一性。对案外大数据分析的算法证据一般为侦查机关所运用,直接服务于特定的侦查目的,如锁定犯罪嫌疑人、发现新证据等,因而具有专一性。例如,司法实务人员表示,实务部分已经建立了资金特征分析模型,可以在很短时间内完成可疑资金网络的刻画,利用关系可视化技术清晰展现可疑资金的特定来源和去向。这类算法证据有助于破解网络犯罪的证明难题。
归纳而言,司法实践中的算法证据逐渐分化为基于案内大数据的算法证据和基于案外大数据的算法证据这两种典型类型,这两类算法证据在生成、运用等方面存在较大的差异。这使得算法证据与传统证据之间的差异性进一步扩大,算法证据难以被直接归入某类传统法定证据之中。
(二)法定证据种类制度的必要性
算法证据独立性研究的首要任务是思考是否在法定证据种类制度下对算法证据进行定位。在持“相对独立说”的学者中,既有学者运用英美法系“专家证人”概念和提倡“证据方法”的理念。这些观点实际上意图脱离我国法定证据种类制度对算法证据进行规制。然而,这些观点未能考虑到域内外国家在证据种类制度上的差异,因此,这些观点很难解决算法证据的规制难题。
我国的法定证据种类制度最初借鉴了苏联,从1979年延续至今,逐步形成具有中国特色的法定证据种类制度。从官方出版的文献来看,一般将证据分为主观性证据与客观性证据。应当说,我国法定证据种类制度是从侦查过程的视角对证据进行的划分,其主要目的之一是规范侦查人员以及司法人员的行为。这一思路与我国办案人员一贯的侦查过程相契合。一般来说,对于与案件相关的实物证据,办案人员会将其固定、保全。对于那些了解案件情况的人,办案人员会进行询问或讯问,最终形成有形的书面供述和证言等。对于需要外界专业知识的情况,办案人员通过鉴定意见、勘验、检查笔录等有形材料予以固定。所有的侦查行为围绕有形证据的收集进行,目的是制作移送检察机关的案件卷宗。当然,随着以法定证据种类制度为基础的证据规则的构建,我国法律对司法人员审查、运用证据的行为进行了规制。
正如有学者认为,规定证据的法定形式以排除其他材料在诉讼中作为证据,不是此项制度的目的,为不同的证据规则提供基础才是制度的关键。既有的证据种类制度具有必要性,这与以下制度因素息息相关:其一,特定诉讼构造的要求。相较于英美法系和大陆法系国家,我国诉讼制度职权化和权力化的程度更高,庭审中的证据主要以有形样态出现。总体来说,我国刑事诉讼制度具有强职权色彩,侦查中心主义尚在,庭审实质化还未完全实现。由此,为了防范冤假错案,立法者对于证据问题整体持严格规范的态度。其二,犯罪快速治理的需求。在能动司法理念下,我国侦查和司法机关注重对犯罪进行快速、高效的打击,以实现司法机关的社会治理功能。虽然严格限定法定证据种类可能造成事实认定的形式化和程序正当性的虚化,以法定证据种类制度为基础的证据规则易降低证据制度的弹性和活力。但是,不可否认的是,具体的证据分类配以证据种类的特定称谓,有助于从全局视角统领证据的收集、审查和判断,进而提升犯罪治理的效率。特别是,在新型网络犯罪案件数量激增,司法资源相对紧张的背景下,以细致的证据划分为基础,构建标准化的证据规则成为克服“案多人少”困境的现实选择。其三,司法实务人员的呼吁。有学者经过调研发现,司法人员普遍反映证据立法太过粗疏,无法为复杂的刑事案件办理提供指引,希望能构建更具有指引性的证明力规则。
在司法资源极为有限、庭审改革效果不彰的现实背景下,我国法定证据种类制度的存在更具现实必要性。申言之,在法定证据种类制度中,明确算法证据的独立地位,进而构建详细的规范算法证据收集、审查及运用的法律规范,具有一定的必要性。在既有的法定证据制度下,我们可以提倡证据方法的理念,但是,我们很难将一类新的证据直接独立为一种新的证据方法。审计报告实践运用的乱象可以证实笔者的这一观点。即便我们将算法证据独立为一种证据方法,也应当将其与鉴定这一证据方法进行详细的对比,进而提出算法证据“专有”的证据方法。一言以蔽之,在中国的制度语境下,“相对独立说”难以实现。
需要说明的是,实际上,国内学者大都反对法定证据种类制度。比如,陈瑞华教授认为,在法律中明确限定证据的法定形式,是根本没有必要的。立法者这样做其实完全是在作茧自缚。笔者也认为封闭化、不周延的证据分类制度确有问题,应当加以改革。但就目前我国的国情看,现有法定证据种类制度既不能随便改变,也难以快速改变。因此,我们应在法定证据种类制度的语境下,去探究算法证据的独立问题。
(三)算法证据外在法律规制方案的特殊性
在我国现行证据制度下,将某一证据独立成类是对其进行系统规制的前提。算法证据的规制问题极为复杂,需要特殊的法律规范对其加以规制。具体而言,我们需要在以下四个环节对其进行必要的规制。
第一,大数据获取的规制需求。我国《个人信息保护法》将刑事司法机关处理个人信息的行为借由“国家机关”这一概念纳入个人信息保护的法律框架内,并明确了国家机关免除“告知—同意”原则的两种情形:一是妨碍国家机关履行法定职责,二是保密之要求。此外,目前在调查核实阶段和侦查阶段,法律虽然明确了数据调取的依据,但司法机关调取案外大数据的行为仍然缺少明确的法律依据。在这一背景下,实践中侦查机关调取案外大数据的行为亟须加以合理规制。
第二,算法自身的规制需求。算法具有复杂性、易变性、不可解释性、权力化等特性。从互联网时代开始,算法已成为法律所要规制的对象。算法的不可解释性导致平台公司很容易逃避法律责任,而算法的嵌入性结构扩张引发算法场景化规制困境。特别是算法的不可解释隐忧是其治理的主要难题。实际上,如何应对算法的歧视性、透明度、可问责性等问题,已经成为信息社会中一切自动化决策工具的共性难题。
第三,算法启动的规制需求。特别是在对案外大数据进行分析的大数据侦查中,考虑到大数据侦查在行为上大规模地对普通民众个人信息的运用,以及在结果上对具体公民的个人信息全面、深入展示的效果,我们有必要对大数据侦查中的算法启动进行合理的规制。
第四,算法运用的规制需求。一方面,算法证据的举证程序需要加以明确。算法证据不会自我表达且存在解释难题,因此,算法证据在庭审中应当如何展示以及展示内容为何,需要法律加以明确规定。另一方面,算法证据的质证程序需要独立构建。算法证据具有复杂性,司法人员和被追诉人一般难以理解算法证据中的技术性知识,只有借助鉴定人员或者专家辅助人的帮助(这里需要区分对算法证据的专家意见与对算法证据中的算法进行鉴定这两种形式),算法证据中的技术性问题才能得以解决,被追诉人的有效辩护权才能得以保障。
归纳而言,对算法证据的法律规制需要立足于算法证据生成、运用的全部过程,这不同于以往的任何一类证据的规制方案。因为其规范方案将具有复杂性、特殊性。所以,在本土语境下,将算法证据独立出来以便系统规制具有一定的现实必要性。算法证据可分为基于案内大数据的算法证据和基于案外大数据的算法证据,它们与传统证据之间存在本质区别。法定证据种类制度虽有缺陷,但其存在具有现实必要性。