作者:王燃,中国人民大学纪检监察学院副教授。
来源:《法制与社会发展》2025年第5期(第191-206页)。
司法证明领域的通常观点认为,大数据证据的相关关系与传统证据的关联性存在冲突。实际上,传统证据的关联性兼具物理载体的接触性和证据事实的因果性;而大数据证据则具有因果关系与相关关系的双重属性。在“证据事实→待证事实”阶段,大数据证据与传统证据同样遵循因果逻辑;但在“证据载体→证据事实”阶段,大数据证据则呈现出独特的相关关系。这种相关关系的理解难点源自逻辑驱动型算法的制度黑箱和机器学习型算法的技术黑箱。大数据证据关联性审查的关键在于构建符合人类因果思维的解释机制。在数据层面,应审查数据源是否具有载体关联性,训练数据是否与分析对象具有一致性。在算法层面,应围绕模型逻辑一致性、推理过程透明性和特征变量因果性,构建面向司法证明场景的分层解释机制,对关键特征变量进行因果验证。此外,可借助概率值对大数据证据进行辅助解释,审查算法输出的准确度是否达到人类经验的准确度及司法证明标准。
关键词:大数据证据;证据关联性;相关关系;因果关系;算法解释
一、问题的提出
随着大数据及人工智能技术的发展,大数据证据已成为实务界与学界关注的新型证据样态。近年来,学者们对大数据证据的形式、法律地位、运用形态、可靠性、质证规则以及证明力等问题进行了热烈探讨。然而,既有大数据证据研究对于证据三性之一的关联性关注甚少,或仅作初步探讨。关联性这一本应被置于证据三性之首的概念,在大数据证据语境下仍显模糊;传统的基于经验法则的对证据关联性的共识亦难以直接回应大数据带来的算法黑箱、统计相关等新问题。为了完善大数据证据的理论体系,必须正视并深入研究其关联性问题。
大数据时代带来人类思维方式的深刻变革:以往强调因果关系的传统观念正被“关注是什么而非为什么”“让数据自己发声”等相关性优先的论调所替代。“大数据分析不追求因果关系而只关注相关性”的思维模式迅速渗透至各个领域,司法证明领域也不例外。长期以来,在司法实践中,对证据关联性的理解侧重于基于人类经验的因果关系,而大数据的相关性则表现为基于海量数据统计分析的数理关联。因此,随着大数据进入司法证明领域,对传统证据关联性和大数据证据相关性的阐释差异,正成为大数据证据关联性研究的焦点。
大数据证据关联性的理解困境看似缘于数据思维与法律思维的冲突。然而,深究其本质,还须厘清两个核心问题:一是传统证据关联性的内涵,即它究竟仅是经验判断下的因果联系,还是另有更广泛的涵义?二是大数据证据关联性的内涵,即它仅指数理相关,抑或在某种程度上兼具因果意义?本文将在梳理既有研究的基础上,首先解答上述两问,进而揭示大数据证据关联性的多元内涵,并据此构建兼顾技术与司法双向需求的关联性解释机制,重点将机器统计关联转化为可供法律人理解的因果逻辑。
二、大数据证据关联性的多维研究视角
目前,国内外已有大量研究聚焦于大数据证据。大数据证据一般被定义为基于海量电子数据生成的分析结果或报告,需经过数据汇总与清洗、模型构建以及运算推理等步骤方可形成。在美国,学者多称之为机器证据(Machine Evidence)或机器生成证据(Machine-generated Evidence),相关研究集中在数据质量、算法黑箱和模型偏见等方面,很少涉猎对关联性的探讨。相比之下,国内学者普遍提及大数据证据的关联性,但多止于浅层论述,未深入剖析。代表性观点主要从思维模式、算法模型原理及数学概率三个角度来展开研究。
(一)思维角度:相关关系与因果关系的冲突
大多数学者倾向于从相关关系与因果关系的冲突来阐述大数据证据的关联性。该观点认为,传统证据的关联性建立在人类经验的因果逻辑之上,而大数据则依赖数理统计相关性,二者由此产生张力。笔者早期研究亦持此观点:大数据的关联性更多表现为间接、弱关联,侧重“是什么”而非“为什么”;而传统司法证明则强调直接、强关联及过程可追溯,通过溯因推理不断验证假设。该观点得到部分学者认可。这些学者认为,传统证据的因果关系属强关联,而大数据证据所揭示的相关关系则属于基于机器逻辑的弱关联,且相关关系分析结论往往超出人类经验的理解范围。
与此同时,学者们也指出,大数据的相关性与传统证据的因果性并非不可调和。相关关系实际上是因果关系的派生,在数据空间中,因果性被转化为变量之间的数理关系。有学者主张,人们要学会认可机器的关联性判断,即将机器输出的相关性意见转化为人类可接受的因果解释。还有学者强调,法律上的因果关系根植于社会实践与常识,而大数据分析并非完全放弃对因果关系的追求,其所关注的相关性实际上是对因果关系的一种近似折中。因此,大数据分析在法律程序中的作用主要是预警和佐证,仅在少数情况下才可以被直接作为裁决依据。
(二)算法角度:统计建模与行为建模的区分
有学者从技术视角来探讨大数据证据的关联性,认为模型构建是大数据证据形成的核心环节,并将其区分为统计建模与行为建模。前者依托数学统计方法,通过对海量数据进行聚类、回归等分析,揭示变量之间的数理相关性,但难以直接说明具体行为与事实之间的因果关系。例如,互联网平台根据用户购买商品类型及消费习惯进行聚类分析并智能推送广告,就是典型的统计建模。相比之下,后者则是基于行为特征信息,将行为与结果进行映射,构建能够呈现行为与结果间因果关系的模型。例如,在判断是否存在刷单骗保的司法场景中,对交易大数据的挖掘显示,“收货地址”“IP地址”“小额支付”这三方面的特定数据都是由刷单骗保所生成,和刷单骗保具有行为上的因果关系。因此,这三项特征信息可被用于构建骗保识别模型,并为司法证明提供可解释的因果支持。
上述研究主要从算法模型生成的角度诠释大数据证据的关联性。大数据证据的形成离不开模型构建。模型若基于人类行为经验而构建,则其输出结果更易被赋予因果解释;模型若依赖于纯粹的数据统计分析,则其推理过程往往难以为人所理解。这一观点与人工智能领域的两大学派—符号主义与连接主义—不谋而合:符号主义强调显式规则与逻辑推理,天然带有强烈的因果思维;连接主义则通过模拟人脑神经元及其连接机制形成模型,其内部机理难以被直观解释,典型代表为深度学习模型。由此可见,将模型构建路径的区分引入大数据证据研究,为我们审视其关联性提供了一个新颖的视角。
(三)数学角度:概率值与关联性的契合
在司法证明史上,数学概率的证明方法早有应用。以著名的人民诉柯林斯案(People v. Collins)为例,法庭通过计算得出,嫌疑人以外的人实施该犯罪的概率仅为1/12000000,从而排除了他人作案的可能性。数学概率的证明方法本质上契合证据关联性的经典定义:“证据具有使任何对于决定诉讼结果的事实的存在比没有该证据时更有可能或更无可能的趋势。”在数学上,概率可以直观且精准地量化这种可能的趋势。
如今,大数据证据似乎将人民诉柯林斯案带回历史舞台。大数据证据常以概率形式呈现。以人脸识别为例,在理想情况下,算法准确率可达99.97%,即同一主体被正确识别的概率为99.97%。又如,在一起运用混合DNA算法的刑事案件中,专家利用TrueAllele算法从四人混合样本中计算得出,嫌疑人为拉方·埃利斯的可能性是嫌疑人为其他人的可能性的2.14×1013倍。另有学者建议采用贝叶斯似然比(Likelihood Ratio)来评估大数据证据的关联性。其背后的逻辑为:若在待证事实成立时证据出现的概率大于在待证事实不成立时该证据出现的概率,则该证据支持待证事实。这些实践与理论进一步拓展了对大数据证据关联性的理解,表明数学概率或许可作为其关联性的一种量化表达。
综上所述,学界已从思维模式、算法模型原理与数学概率等多维视角探讨了大数据证据关联性与传统证据关联性之间的区别,并尝试以不同路径加以调和。然而,现有研究尚未全面揭示大数据证据关联性的本质,也未能明确区分其与传统证据关联性的差异,因而在实践中仍存诸多困惑。为填补这一空白,本文接下来将首先厘清传统证据关联性的内涵。
三、传统证据关联性的再解读:事实关联性与载体关联性
解决大数据证据关联性的难题,首先要正确理解传统证据的关联性。目前,学界多认为,传统证据的关联性基于人类经验的因果关系,并由此与大数据的相关关系产生冲突。然而,传统证据的关联性是仅限于基于经验判断的因果关系,还是亦包含更为宽广的内涵,尚有待进一步探究。
(一)证据关联性应兼顾证据载体与证据事实
首先须明确,任何证据均具有载体与事实双重形态,既具备载体属性,也承载事实信息。证据载体是指记载或证明一定证据事实的证据形式,表现为物体、痕迹、文本、录音、录像、光盘、优盘等材料,在诉讼过程中的各种书面笔录,以及言词陈述等。证据事实则是由这些载体所揭示或者说明的案件事实片段。举例而言,若侦查人员在犯罪现场提取了一把带有张三指纹的刀,则刀与指纹均为证据载体,而“张三使用过这把刀”即构成对应的证据事实。尽管如此,传统学理研究往往仅聚焦于证据事实层面的关联性,对证据载体层面的关联性关注不足。正如有学者指出的:“评断传统证据的关联性通常仅意味着考虑信息或内容的关联性,而不用专门关注载体或形式的关联性。”正因如此,学界在比较大数据证据的关联性与传统证据的关联性时,多限于事实层面,而忽视了载体层面的考量。接下来,本文将依次讨论:其一,证据事实的关联性是否必然体现为因果关系?其二,证据载体的关联性应如何被界定与评价?
(二)证据事实的关联性强调经验层面的因果关系
英国证据法学家斯蒂芬在《证据法精要》(Digest of the Law of Evidence)中对证据关联性作出经典阐释:两项事实彼此之间具有如此紧密的联系,以致依照事物通常的发展进程,其中一项事实(或其与其它事实的结合)能够证明另一项事实在过去、现在或未来的存在或不存在。当前,学界普遍以《美国联邦证据规则》第401条规定的两项标准来判断证据关联性:一是实质性,即证据所指向的证明对象必须是能够决定案件结果的事实;二是证明性,即证据必须提高或降低有关事实发生的可能性。其中,实质性将证据与证明对象相关联,而证明性则强调证据对主张的成立产生一种更有可能或更无可能的趋势。值得注意的是,此处的关联性聚焦于证据事实本身,而非证据载体或形式。通常,在事实推论过程中,这种关联性表现为基于经验法则的因果关系。
案件事实的认定建立在对每个证据事实进行推论的基础上,推论的过程则体现为一种因果关系。事实推论以已知事实为前提,通过经验法则判断未知事实的存在与否。在此过程中,证据有无关联性取决于证据是否能推导出待证事实。之所以证据关联性被认为是一种因果关系,是因为证据的推论过程符合一般人的经验性因果思维:前一事实作为后一事实的因,后一事实作为前一事实的果。前后事实间的中介或桥梁则是经验法则,即人们从生活经验中归纳获得的关于事物因果关系或属性状态的法则或知识。由此,经验法则不仅凝炼了人类的因果智慧,其在事实推理的每一步中还再现了这一因果逻辑。因此,证据事实层面的关联性本质上就是因果关系。
试举一例来说明上述因果推理链条:在一起故意杀人案件中,被告人被指控杀害了镇上一名警长。被告人声称,其行为出于正当防卫目的,并供述曾听闻该警长在逮捕一名老人后实施残忍虐待,并最终导致老人死亡。那么,这一供述是否具有关联性?能否指向待证事实“被告具有正当防卫意图”?事实推论过程如下:该供述首先构成证据事实“警长曾虐待老人致死”,据此人们可推断该警长有暴力倾向(推断事实1),进一步推断其可能对被告人实施暴力行为(推断事实2),最终指向待证事实“被告具有正当防卫意图”。由此可见,该供述与待证事实具有关联性。此推论链的每一步均体现了因果思维:前一事实为因,后一事实为果。
(三)证据载体的关联性强调物理层面的接触关系
证据的关联性不仅包含事实层面的因果推论,也包括载体层面的物理接触性,即证据载体与案件本身的内在关联。因为只有当证据载体是从案件本身分离出来的时,人们才能由此作出正确的判断,才能从中截取真正可以反映案件真实情况的(证据)事实,才能推导出与证据事实有着内在联系的待证事实;反之,如果证据载体不是从案件本身分离出来的,那么由此得出的判断就是虚假的。这种物理接触性是载体关联性的基础,其是否存在直接决定证据推论的可靠性。在具体表现上,就言词证据而言,证人作为载体只有亲历或直接目睹相关事实,才能为法庭提供可信陈述;就实物证据而言,物证应自案发现场或相关地点提取,才能与案件具有实际联系。
尽管学界在证据关联性研究中很少直接聚焦于载体层面的物理接触性,但这一理念在证据法的多项经典理论与规则中已潜移默化地得以体现,并为实践提供了重要指引。例如,经典的洛卡德物质交换原理认为,任何人与物体或人与人在发生接触时,必然产生微量物质交换,为现场痕迹的提取及案件事实的重建提供了科学基础,凸显了证据载体与案件行为的物理关联。再如,实物证据鉴真规则要求对实物证据的来源和收集过程加以验证,确保证据载体确实来自案发现场或相关地点。言词证据亦不例外:传闻证据规则强调,只有亲历或直接接触案件事实的证人才具备作证资格,以维护言词证据的可靠性。此外,新近提出的“行为引发的外界变化即为证据”的观点进一步将行为与其产生的痕迹载体对应起来。在新兴的电子证据领域,身份认证、存储介质、时间戳及IP/MAC地址等技术方法将虚拟空间中的数据载体与物理空间中的主体及行为进行对应,延续并丰富了载体关联性的内涵。可以说,虽然载体接触性并未成为关联性研究的独立视角,但它已以多种形式深植于证据法规则之中。正因如此,在后续探讨大数据证据关联性体系时,同样不能忽视数据载体与案件场景之间的物理对应关系,它构成了该体系建构的基础前提。
综上,传统证据的关联性兼具事实层面与载体层面:前者侧重推论中的因果关系,后者强调证据与案件的物理接触。经典理论对关联性的阐释通常仅聚焦于事实层面,因而学界在探讨大数据证据关联性时,也多以事实关联性为参照。因此,本文接下来将考察大数据证据在事实层面是否具备因果特征,继而探讨大数据证据关联性的深层含义。
四、大数据证据的多元关联性:因果关系与相关关系
为了更清晰地比较传统证据的关联性与大数据证据的关联性,本文将二者置于统一的证据推论模型中,即置于“证据载体→证据事实→待证事实”的推论链条中,以凸显两种证据在各环节所呈现的不同关联特征。经比较发现,传统证据呈现一体推论模式,在从证据载体到待证事实的链条中均由因果思维主导;而大数据证据则遵循双重推论模式,在“证据载体→证据事实”阶段侧重相关关系,在“证据事实→待证事实”阶段则回归因果逻辑。
(一)传统证据的一体推论:因果关系主导
如上所述,就传统证据而言,从证据载体到待证事实的推论过程呈现出一体化的因果模式。即便我们将其分为两个阶段审视,这一因果链的逻辑依然一目了然:第一个阶段是“证据事实→待证事实”阶段,即上文所述的经典事实推论过程。在此阶段中,证据事实根据经验法则被转化为对待证事实的因果证明。第二个阶段是“证据载体→证据事实”阶段。其略为复杂,分为基于常识经验的直观推论和依赖专家意见的专业解读两种类型。
第一类为基于常识经验展开的因果推论。其特点是推理过程直接、清晰,往往无需专业知识即可完成。在多数情况下,我们根据证据载体的外在特征即可直接推导出相应的证据事实,因果关系显而易见。例如,证人证言“看到李四从案发房间走出”即指向“李四来过案发现场”;借条文字内容直接揭示双方借贷关系,例如“今李四借张三人民币五千元”;被告供述“警察虐待老人致死”指向该虐待行为的事实。这些推论基于常识性认知和生活经验,无需专业分析,因果链条直观且清晰。
第二类为依赖专家意见进行的因果推论。其推理过程通常涉及复杂技术,需通过专业知识将证据载体与证据事实连接起来。对于技术含量较高的载体(如血迹、DNA、电子数据),我们仅凭常识经验难以直接推导出证据事实,需要借助专家意见进行解读。专家在运用行业知识和技术标准时,实则依然遵循因果思维来搭建从载体到事实的推理链。专家会依据已被反复实践和通过同行评审的科学原理,判断特定痕迹特征与案件行为之间的因果对应关系。例如,在指纹鉴定中,指纹同源的结论要求至少存在8—12个相符的特征点。背后的因果逻辑是:若两枚指纹在8—12个特征点上完全一致,则我们可推断其同源。DNA鉴定同理,通常需检测15—20个STR位点,以排除偶然一致。这些技术指标虽对外行显得晦涩,却都建立在对痕迹形成机理与同一认定原理的反复实验和科学验证之上,本质上仍然是对“从特征表现到同一来源”这一因果关系的量化表达。此外,司法程序还可借助专家出庭陈述等方法,对因果链条进行解释和验证,从而确保分析结论建立在严谨的科学因果基础上。
(二)大数据证据的双重推论:相关关系与因果关系
大数据技术在证据领域的运用通常以海量数据为基础,借助算法模型提取隐藏的模式与规律,进而生成证明案件事实的证据。在该过程中,大数据证据的推论可分为两个阶段:在第一阶段,从证据载体到证据事实的推断依赖算法分析,通过模式识别揭示隐含的变量关系,主要体现数理相关性;在第二阶段,从证据事实到待证事实的推论则回归传统因果模式,通过事实推导来完成证明。以一起传销案件为例,警方从扣押的服务器中提取了大量会员注册信息、交易明细及后台日志等数据。大数据技术经资金流分析与算法运算,首先生成反映该组织层级结构与资金规模的证据事实,随后基于因果推论得出案件核心事实,即该组织具备典型传销特征,且核心成员为主犯。通过这种双重推论模式,大数据证据在司法证明中的独特功能得以彰显,即既依赖算法捕捉相关关系,又通过经验逻辑还原因果链条。
1. 从证据载体到证据事实阶段:相关关系
在大数据证据中,海量数据相当于证据载体,算法模型分析的结果则成为证据事实。在“证据载体→证据事实”阶段,大数据证据相较于传统证据的最大不同在于,证据事实的生成不再依赖人类经验或专家认知,而是通过算法模型挖掘数据之间的统计关联。例如,在前述传销案件中,警方查获犯罪组织的8台服务器,涉案数据总量约为2TB。如此巨量的信息已超出一般法律人的经验理解范围,侦查人员必须借助专业算法对数据进行提取、清洗与计算。随后,侦查人员通过大规模运算和资金流模型分析,揭示出该组织拥有多达120级的层级结构、超过20万个涉案账号以及近5亿元的资金流水等事实。
正是在“证据载体→证据事实”阶段,相关关系成为大数据证据的核心特征。算法模型通过对海量数据的统计规律和关联模式进行分析,例如分析“谁与谁之间经常交易”“哪些账户之间资金流动频繁”“某类操作模式在异常账户中普遍存在”,自动识别出账户间的隐性联系、资金流动的层级结构以及潜在的组织网络。这一统计分析过程关注的是变量间的共现频率与模式匹配,而非行为背后的逻辑机制与事实发生的因果路径。因此,即使某种数据关系具有高度显著性,大数据证据的相关关系逻辑也明显区别于传统证据在载体与事实之间可感知、可验证的因果推演逻辑。正是在这一基础上,大数据证据的相关性迷思逐渐显现:传统上由人类经验支撑的因果推论逻辑,开始被算法模型所依赖的概率统计关联所替代,二者之间由此产生张力。
2. 从证据事实到待证事实阶段:因果关系
在算法模型生成分析结果之后,分析结果即构成证据事实,成为推理案件事实的基础。“证据事实→待证事实”阶段的关键在于,法律人员需要将证据事实与法律要件进行关联,通过因果推理来判断分析结果能否支持对待证事实的认定。同样,前一事实为因,后一事实为果,二者共同构建因果链条。例如,在上述传销案件中,在算法分析结果(证据事实)的基础上,因果推论可指向两个待证事实:第一个事实是传销组织的成立,即层级结构与人数规模符合传销罪的法律构成要件,资金流动模式进一步证实该组织的非法性;第二个事实是核心成员的地位,即核心成员处于层级顶端,可被推断为传销活动的组织者和领导者。由此可见,在“证据事实→待证事实”阶段,大数据证据与传统证据在关联性实现方式方面并无本质区别,即依托法律要件和经验法则,通过因果推理指向待证事实。不过由于算法性能差异,有些模型的分析结果更全面深入,能够相应减少法律人的经验性推理工作,有些模型的分析结果则发挥轻微辅助作用。然而,无论是何种情形,都不影响从证据事实到待证事实的推论过程始终由人类因果思维主导。这也表明,在该阶段,大数据证据可与传统证据在推论机制上无缝融合,其作用主要是提供支持性证据事实,而非改变因果逻辑的本质。
综上,在证据推论模型中,大数据证据的关联性具有二元属性,既包含传统证据中的因果逻辑,又体现大数据分析中特有的统计相关关系。该二元属性应在不同阶段被区分:在“证据事实→待证事实”阶段,大数据证据与传统证据一致,其推论过程仍遵循由人类经验主导的因果逻辑思维;在“证据载体→证据事实”阶段,大数据证据依赖机器运算,主要体现数据统计相关关系。后一阶段虽能通过算法模型从海量数据中有效识别关联模式,但无法形成明确的因果链条,因而成为法律人理解大数据证据关联性的核心困境。
在此基础上,需要澄清当前研究对大数据证据关联性的理解误区,即认为大数据证据的关联性与传统证据的因果性存在冲突。这种观点在某种程度上是错位比较所致,即只聚焦于大数据证据在“证据载体→证据事实”阶段的统计相关关系,却将其与传统证据在“证据载体→证据事实→待证事实”阶段的整体因果链进行简单对比,忽视了二者在推论阶段与结构上的根本差异。事实上,在“证据事实→待证事实”阶段,大数据证据同样遵循因果推理,其相关关系主要体现在“证据载体→证据事实”阶段。对于传统证据而言,该阶段通常依赖于常识经验或专家解读,因而推论过程相对直观,因果链条清晰明了。在大数据场景下,随着数据规模的指数级增长,人工已无法逐条比对、验证数据与案件事实的对应关系,推论过程只能借助算法自动筛选与分析。然而,算法得出的规律模式往往缺乏明确的因果链条,由此产生了关联性的理解困境。澄清这一点,不仅有助于全面理解大数据证据的关联性,也为构建可被人类因果思维理解的大数据关联性判断模式奠定了基础。
(三)大数据证据相关关系理解困境
在厘清了大数据证据的双重推论结构后,下文聚焦于其在实践中所面临的相关关系理解困境。在大数据证据的应用中,算法是生成证据事实的核心工具。其分析结果能否被人类因果思维理解,关键取决于算法的设计逻辑。根据算法在可解释性方面的差异,其可被分为两类:逻辑驱动型算法与机器学习型算法。前者以预设规则或符号推理为基础,能够提供可解释、可追溯的推理链条,但往往因规则设置和运行过程缺乏透明机制,故会出现制度黑箱困境。后者则依赖对海量数据的统计学习或深度学习,其决策过程因复杂性和隐性关联而难以被人类因果思维理解,因而形成技术黑箱问题。两类算法面临的可解释性困境尽管来源不同,但均体现出相关关系特征,进而共同构成对传统因果推理框架的挑战。
第一类是逻辑驱动型算法所引发的制度黑箱困境,其根源在于规则设定与运行机制的封闭性。逻辑驱动型算法主要基于预设规则或符号推理而构建,这类算法将办案经验抽象为数据特征并模拟人类推断过程,其原理可被人类因果思维所理解。例如,在网络传销案件中,办案人员依据经验归纳出账户资金来源分散、规避大额交易、收款人固定、交易时间具有周期性等特征,并将其转化为算法规则。虽然这些规则源于显性经验,但当算法规则的制度设计缺乏透明化机制、运行流程未向外部公开时,即便其原理本身可被人类理解,外部主体仍难以全面掌握其建构逻辑与适用原理,从而形成制度黑箱。
第二类是机器学习型算法所引发的技术黑箱挑战,其核心在于算法分析过程的高度复杂性与不可解释性。机器学习型算法不依赖于预设规则,而是通过对海量数据的训练来自主学习模式与规律,涵盖监督学习、无监督学习和强化学习等多种形式。这类算法在训练过程中自主创建内部变量及权重,其推断逻辑更多依赖非线性的统计关联。尤其是在深度神经网络(Deep Neural Networks)中,多层非线性结构使得内部特征提取机制难以被直观理解。当前的大模型更是将黑箱属性推向极致:数以亿计乃至千亿计的参数在训练中不断自主调试,形成高度复杂的权重网络。即使源代码和模型架构对外公开,每一步的具体决策依据也无法被详尽说明。因此,机器学习型算法并非基于对人类因果经验的归纳和提炼,而是凭借复杂的关联权重自行作出判断。这构成在大数据证据中理解相关关系的最大挑战。
综上,逻辑驱动型算法因其制度设计不透明而形成制度黑箱,机器学习型算法因其决策逻辑过度复杂而形成技术黑箱。二者共同构成了大数据证据相关关系的理解困境,即当前算法在透明度与可解释性两方面均难以完全融入人类因果思维的理解框架。破解此困境,关键是构建可被人类理解的算法解释机制。此机制可通过两条路径实现:一是借助专业的可解释人工智能技术,揭示算法决策逻辑并量化特征权重;二是完善制度设计,建立算法透明和可审查的流程与规则。依靠技术与制度的协同推进,有望破解大数据证据的相关性迷思。
五、大数据证据关联性的审查:构建符合人类因果思维的解释机制
对大数据证据关联性的审查判断,应兼顾其因果关系与相关关系的双重属性特征。在“证据事实→待证事实”阶段,大数据证据与传统证据在推论逻辑上一致,审查判断可沿用传统证据的实质性和证明性标准;在“证据载体→证据事实”阶段,数据相关关系成为核心,审查判断的关键在于,将黑箱式统计关联转化为人类可理解的因果推导。为此,应构建一套算法解释机制,用以建立相关关系与因果关系之间的连接桥梁。这一解释机制可从数据与算法两方面展开,数据相当于证据载体,算法则在从载体到事实的分析过程中起着最关键作用。从数据层面看,第一,应审查数据源的载体关联性,确认服务器日志、交易明细等数据确实直接来源于与案件相关的主体或场所,与案件行为存在可追溯的物理或逻辑接触关系;第二,应确保训练数据具备目标一致性与代表性,覆盖案件涉及的关键行为模式。从算法层面看,可依托专业解释技术来揭示算法的关键变量及其权重,展示模型决策的依据和逻辑路径。同时,可针对诉讼的不同需求来设计算法分层解释机制,明确各层次的解释内容与验证标准。在必要时,还可借助算法结果的概率值,将算法的准确度与人类经验水平及证明标准进行比较,辅助判断关联性强弱。
(一)数据关联性的审查:兼顾数据源与训练数据
1. 数据源的关联性
大数据证据的数据源多样,主要为案件的既有证据材料。例如,资金大数据来源于银行交易流水、账户明细等数据文件,人员组织关系大数据来源于涉案公司后台服务器日志,DNA大数据则来源于唾液、血液等生物类证据。数据源相当于证据载体。可沿用传统的载体关联性审查方法,确保数据源与案件本身的关联性。对于物证类载体,应通过鉴真方法验证实物证据的来源与收集过程,重点审查物证是否取自案发现场或是否与案件当事人有直接关联。对于电子数据类载体,从人、物、时间、空间等要素入手,可重点核实扣押的服务器、硬盘等存储介质是否归属于当事人,审查涉案电子账户、IP/MAC地址及GPS信息等是否与当事人相关。
2. 训练数据的关联性
训练数据是构建算法模型的基础素材。无论是对于逻辑驱动型算法还是对于机器学习型算法,训练数据的质量、规模与多样性决定模型能否正确反映证明对象的核心规律。若训练数据本身存在偏差、噪声或与证明对象缺乏关联,那么模型输出就难以支撑有效的司法证明。因此,对训练数据关联性的审查可聚焦于三项要点:一是目标一致性,即训练集的标签须与待证事实严格对应;二是数据代表性,例如,样本需在账户类型、交易模式、地域与时间等维度覆盖案件可能出现的多元情形;三是因果关联性,即所选特征变量须与待证事实具有因果关联,而非仅凭表面统计相关。
第一项要求是目标一致性,即训练数据在“标签—输出目标”层面必须与待证事实严格对应,以确保模型学习的正是案件所要识别的行为模式。以洗钱案件为例,若模型旨在甄别高风险账户,那么训练集应当以已核实的洗钱账户和正常账户分别作为正例和负例,并保持统一的标注规范。反之,若训练集将所有异常账户并入正例,或混入信用卡欺诈等异质场景的样本,那么标签就会失真,模型难以服务于案件证明目的。因此,目标一致性是训练数据“对题”的前提,直接决定模型的学习方向与结论有效性。
第二项要求是数据代表性,即训练数据在“输入变量—场景覆盖”层面应具备广泛的代表性与多样性。仍以洗钱案件为例,训练数据应尽量囊括案件可能出现的多样化交易模式,以及地域、时间、账户类型等维度,以强化模型的泛化能力。若训练集只含个人账户的高频小额转账样本,却缺少企业账户的“大额拆分—再合并”样本,或仅包含内地数据而无跨境渠道数据,那么模型就可能对缺失相关数据的洗钱手法反应迟钝。代表性不足会削弱模型的稳健性与证明效果。
第三项要求是因果关联性,即训练数据所使用的特征变量应与待证对象之间有明确因果联系,而非仅有统计相关性。例如,在洗钱案件中,应确保模型所选的关键变量(如交易金额异动、IP地址重合)确实能够揭示洗钱行为的核心特征。可通过敏感性测试(如移除“高频交易”特征是否显著影响模型结果)来验证这些变量的因果作用,从而排除无关变量或伪相关变量。因果关联性决定训练数据关联的深度,影响模型分析结果的证明力。
在司法证明场景中,可按分层方式审查上述三项关联性要点,以匹配不同案件的审查深度(见表1):第一层聚焦于目标一致性,可满足一般案件的基础需求。应通过标签说明与统计摘要,说明训练数据的来源、标签划分与核心统计特征是否与待证事实一致。第二层强调数据代表性,适用于训练数据有争议的情形。应核查样本在账户类型、交易模式、地域、时间等维度的多样性,必要时提供脱敏样本以展示分布。第三层针对因果关联性,适用于重大或争议较大的案件。应严格验证训练数据关键变量与案件目标行为之间的逻辑关系,确保模型推导符合司法对因果关系的要求。
(二)算法关联性的审查:分层解释机制的构建
在司法证明中,对大数据证据算法关联性的审查应包括:模型的结构设计是否契合案件推理逻辑,运行过程是否具备可解释性,以及关键变量是否具备因果关联性。
第一项审查内容是模型逻辑的一致性,即模型框架的选择和路径设计是否与案件中的目标推导逻辑相吻合。审查要点包括以下两方面:一是算法框架是否具有适配性。模型的选择应当与案件复杂度相匹配。对于变量简单者,可采用线性回归;对于因果链复杂者,宜采用深度学习等非线性框架。例如,在洗钱案件中,资金流转呈多层非线性网络,若办案人员仍使用线性模型,则将难以捕捉账户间隐性关联,从而与案情脱节。二是输入变量是否具有合理性。模型的每一项输入变量都应当紧扣案件要素,并能够与待证事实形成合乎逻辑的联系。例如,对于洗钱行为,模型应纳入资金流入频次(反映异常活跃度)、分散转账账户数量(反映拆分隐藏意图)、转账时间间隔(反映快进快出特征)等特征变量。若仅输入单一指标(如交易金额),模型便难以抓住洗钱行为的关键模式,导致风险识别失真。
第二项审查内容是推理过程的透明性,即是否将复杂的算法决策分解为一系列逻辑步骤,能够清晰展现输入与输出之间的逻辑关系。司法实践常借助思维链等方法,将整体任务划分为若干易理解的子步骤,再展示各特征在每一步的具体作用及依据。以洗钱行为识别模型为例,账户被判定为高风险的逻辑可分解为如下推导步骤:资金频繁流入(资金来源异常)→分散转账账户数量激增(隐藏资金去向)→多账户间存在高关联性(显示潜在洗钱网络)→综合评分达到阈值(输出高风险判定)。思维链方法将模型的推导路径变得清晰透明,既方便核查每一步是否符合常识与法律逻辑,也能及时发现跳跃推理或不合理假设。
第三项审查内容是特征变量的因果性,即模型所依赖的关键变量是否不仅满足表面统计相关关系,还体现出与输出结果之间的因果联系。因此,应验证模型倚赖的高权重变量是否“导致”而非仅“伴随”输出结果。可按以下三步核查:第一步是量化变量的权重。该阶段对于黑箱型机器学习算法尤为关键。可借助LIME、SHAP等专业解释工具,明确各特征变量对风险评分的贡献比例(例如,交易频率变量占40%,分散转账账户变量占35%,交易金额波动变量占25%),锁定可能的关键变量。第二步是实施反事实测试。对于关键变量,应进行调整并观察模型结果的反应。例如,在洗钱模型中,若当分散转账账户数由15降至5时,风险评分随之显著下调,则该变量与洗钱行为可能存在因果联系。若评分几乎不变,则该变量可能只是伪相关变量,其关联性应被重新评估。第三步是开展人工因果校验。对于通过前两步锁定的高权重变量,仍须借助办案经验和法律常识进行因果校验,重点排除仅具高度统计相关却缺乏因果支撑的指标。例如,某洗钱模型将“春节前大额提现”标记为首要风险特征。乍看其似乎合理,但金融实践表明,春节前集中提现多与年终奖金发放、节日消费及红包往来有关。在测试时间窗口移至三月的普通工作周,且其它条件保持不变时,模型的风险评分几乎未受影响。这说明,该特征只是节日效应导致的伪相关特征,并非洗钱行为的真正因果关联特征。只有通过“统计验证+反事实测试+人工校验”三重筛选的特征变量,才能被视为真正满足司法证明所要求的因果关联性。
在上述审查要点的基础上,可依案件复杂度逐级开启三层解释流程(见表2):第一层是基础逻辑说明,旨在回答“模型用什么以及为了什么”。主要内容包括算法模型的整体设计逻辑、对输入变量的基本描述,以及模型如何与案件目标要素相对应。这一层的解释可通过展示算法架构图、变量列表和基本逻辑关系等方式来实现。其适用于大多数司法场景,是算法关联性审查的起点。第二层是推理路径细化,旨在回答“输入怎样变成输出”。当模型被质疑为黑箱或在透明性方面面临更高要求时,可通过思维链、流程图等方法展示从输入到输出的逐步推导过程,将决策拆为连贯的节点,让法律人清晰理解算法的内部逻辑链条。第三层是因果关系验证,旨在回答“高权重变量是否为真原因”。对于重大案件或实质争议情形,则须通过局部解释、反事实测试等方法,对高权重变量进行因果核验。
(三)辅助审查方法:算法概率值与证明标准的契合
虽然前述分层解释机制可解决大多数黑箱疑难,但并非所有模型都能被充分拆解。以近年来的大语言模型为例,其参数动辄千亿,结构极度复杂,故解释技术常常束手无策。那么,是否应因此放弃此类算法模型的证明价值呢?实际上,算法解释领域普遍认可一种“透明度—准确度”抵消理论(Tradeoff Theory)。其认为,算法的可解释性与准确度通常呈反向关系:模型越简单,其可解释性越强,但准确度可能越低;而越复杂的模型,尽管因推理路径复杂而成为黑箱的概率越高,但准确度也越高。例如,线性回归模型因结构简单而易于说明,却难把握高维关系;深度神经网络能捕捉非线性模式,却常因“不可解释”而被质疑。因此,当面对高度黑箱化但已通过准确度验证的复杂模型时,我们不妨引入上述“抵消”思路,即以其高准确度来弥补解释机制的不足,并以“概率值”将准确度转化为可被量化的证明力。
这一思路与传统证据的关联性原理相契合。证据关联性包括实质性和证明性,其中证明性可被量化,以衡量证据对待证事实的证明力度。长期以来,司法实践已习惯用“概率值”来表达这一力度,例如,DNA比对的匹配概率、指纹同源概率均以数字形式直观呈现。同理,当代人脸识别、混合DNA分析等算法因极高的准确度而被法院采信,即便其内部机理并非完全透明。例如,在美国2009年“联邦诉福利案”(Commonwealth v. Foley)中,TrueAllele系统给出1/1.89×1011的嫌疑人匹配概率,远超法律要求的“排除合理怀疑”证明标准,最终成为定罪的关键依据。中国司法实践亦有类似做法:最高人民检察院发布的指导性案例朱炜明操纵证券市场案与沈某某、郑某某贪污案,均通过对IP、MAC地址及资金流的多重比对,计算出涉案账户与被告人之间的唯一关联性。上述案例表明,当算法内部的黑箱难以被打开时,在保证其准确度经过同行检验或权威验证的前提下,高置信度的概率值即可作为量化证明力的补充手段,与人类经验或司法标准相对照,从而缓解算法“不可解释”带来的疑虑。
结 语
大数据以相关性优先的分析范式,正冲击司法证明赖以运转的因果推理框架。本文借助证据推论模型,澄清了大数据证据相关性与传统证据因果性之间的关系:传统证据的因果性集中在证据事实层面,依赖人类因果推理;大数据证据在证据事实层面同样遵循因果关系,其相关关系主要体现在“证据载体→证据事实”阶段,机器算法使得这一过程充满相关性迷思。对此,可借助训练数据审查、算法分层解释和概率值补强三重路径,将大数据的数理相关关系转化为人类经验可理解的因果逻辑。
从神证到人证、物证,再到今日的科学证据,技术浪潮持续塑造着司法证明的方法与规则。证据关联性的演变实则提供了一个观察样本:在人证时代,关联性判断侧重于经验事实,并由此形成了早期证据关联性理论;在物证时代,关联性突出表现为载体的物理接触性,鉴真规则、洛卡德物质交换原理等应运而生;在电子证据时代,关联性的难点转向虚拟空间与物理空间的映射与校验;在大数据时代,关联性挑战源于算法黑箱,破解算法黑箱的关键在于,如何将统计相关转化为人类可理解的因果关联。在未来,人工智能技术的发展必将持续改变司法证明的样态。传统证据规则虽具延续性,但唯有以更开放、前瞻的视角及时迭代,方能满足新时代的司法需求。