科研动态
元轶:大数据证据二元实物证据属性及客观校验标准

文章来源: 山西大学学报(哲学社会科学版) 2021年第5期



   要:大数据证据之引入意味着刑事证明体系的系统性变革。基于“数据集”的大数据证据概念,即“大数据是数据体量超过了办案人员及其典型数据处理方式管理和分析能力的证据”,具有证据法上的类别独立性,故应以此定义界定大数据概念。大数据证据具有“大数据集”和“大数据报告”二元构造。“大数据集”是实物证据,“大数据报告”与鉴定意见存在本质区别,具有实物证据运用形式的典型性,故“大数据报告”亦是实物证据。严格证明视角下,有必要将“大数据报告”设为独立法定证据方法,并对算法技术构造、大数据报告内容和形式进行系统性规制;有必要为“大数据报告”设置独立法定调查程序,通过当庭计算数据完整性校验值、举示源代码、开展黑盒测试等方式,实现证据偏在条件下控辩双方对大数据报告的平等质证。

关键词:大数据证据;实物证据;鉴定意见;证据方法;




一、问题的提出


        随着智能终端和高速蜂窝通讯网络的迅速普及以及国际互联网的普遍提速,“大数据作为证据之运用”已经成为法学界必须面对的现实问题。然而,有关大数据证据的若干基本理论内涵,尚未得到清晰的界定。

       首先,何种证据构成“大数据证据”?也就是说,体量达到何种程度、与大数据技术构成何种关联的证据才具有证据法意义上的特殊性,以至于须纳入“大数据证据”项下单独讨论?例如,一组GPS坐标[1],“连续多天”的“网吧实名制登记记录”1,“某数据库平台之操作记录统计”2,是否构成大数据证据?又如,侦查机关基于海量数据生成的“人脸比对评分结果”3可否作为“大数据证据”使用?再如,“e租宝案”中存储于200多台服务器上的海量数据[2]是否构成“大数据证据”?侦查机关在扰乱无线电通讯秩序案件中“利用‘大数据分析平台软件’技术,获取到该‘伪基站’设备内2077579个非重复IMIS号”4,这两百多万个IMIS号本身是否构成“大数据证据”,这些号码经过比对、过滤、去重后,其结果又能否构成“大数据证据”?

       其次,“大数据证据”属于言词证据还是实物证据?例如,在侵犯公民个人信息案件中,侦查机关提取的被侵犯的海量公民个人信息本身显然属于实物证据(实物证据中的电子数据)。那么,侦查机关基于这些信息所出具的“数据清洗情况说明”5等还应被认为是属于实物证据吗?换言之,算法之运用是否会对“大数据证据”之属性发生根本改变?

      最后,“大数据证据”应当如何进行审查判断和法庭调查?如果说,对大数据集本身可以运用电子数据审查判断规则,那么对基于大数据集通过算法生成的大数据分析报告本身,是否仍可运用同等规则?也就是说,“大数据报告”之具体证据方法和法庭调查规范应当以人证调查还是以物证调查为基点进行展开,实践中仍不明朗。

对大数据证据之学理研究亦未能充分解决实践困惑。现有的研究不但将各种与“大数据”技术存在各种意义上直接、间接关系的证据材料都归入“大数据证据”项下,还就“大数据证据”之属性展开了热烈讨论,“鉴定意见说”6“独立证据类型说”7“特殊类型书证说”8“侦查实验说”9等不一而足。在现有之研讨语境下,人们似乎已经达成共识:与大数据概念具有某种关联性的证据,都可归类于“大数据证据”;“大数据证据”相比于其他证据类型,除数据体量“更大”之外,似乎并无本质区别。

       然而,应当看到,与传统数据集相比,大数据不但意味着数据体量的增多,还意味着数据结构、处理方式和运用方法的转变10。这一系列变化,意味着人类认知从基于有限数据的模拟计算科学阶段开始转向基于大数据的人工智能阶段11。进而,传统的刑事证明体系亦将迎来系统性变革:大数据的非结构化特性决定其难以按与案件事实有关联的标准“精切分割”,因而进入法庭的证据信息量将非常巨大,职权调查原则(或证据的关联性法则)将相应地迎来全新的实践样态12;进入法庭的信息量巨大意味着其无法通过人工方式直接读取,只能通过计算机算法“间接读取”,澄清义务(或最佳证据规则)将面临新的实现方式13;与此同时,在大数据技术体系下,数据普遍采取分布式存储,这要求对传统的离线取证方式进行变革,对大数据证据的收集和固定方式作出改变14。可见,当前“大数据证据”之理论研究仍然处在初步阶段,并不能满足实践需求。

进入深水区的“审判中心制度改革”要求“确保侦查、审查起诉的案件事实证据经得起法律的检验”,“保证庭审在查明事实、认定证据、保护诉权、公正裁判中发挥决定性作用” 15。自理论视角观之,这必然意味着,至少在被告人不认罪案件中,事实认定之规范体系和实践样态须走向彻底的“严格证明”,意味着证据能力规则,亦即证据方法和法庭调查程序两方面规则之法治化、规范化、严格化。大数据证据之规范体系,亦须以此为核心目标。因此,本文将在清晰界定“大数据证据”概念的基础上,阐发其内部构造和本质特征,进而在严格证明框架下研讨“大数据证据”之属性及其审查判断要点。


二、大数据证据的基本特征与内部构造


      什么是“大数据”?只有回答了这一问题,对“大数据证据”的研究才能有的放矢。令人遗憾的是,现有研究大数据证据的前沿文献对这一问题或避而不谈,径行分析“大数据证据”之应用价值与方法16;或泛泛而谈,将并不具备大数据证据实质要素的各类证据信息都纳入到大数据证据的范畴17。这种研究进路,导致前文提到的“GPS坐标”,“连续多天”的“网吧实名制登记记录”等,都被错误地作为大数据证据来对待。然而,这些证据材料的提取过程,只是信息技术语境下的信息捕获;其所包含的信息量也非常有限(一个经纬度、连续几天的上网记录)。进一步看,这些信息含量非常有限的证据材料之所以被误认为“大数据证据”,只是因为其系提取于大数据信息系统。然而,这些信息一旦提取,便与其所出身的系统独立开来,可以直接作为书证或电子证据单独提交法庭,因此它们都不具有大数据证据的特征。

       那么,我们前文提到的“e租宝案”中存储于200多台服务器上的海量数据,以及“伪基站”设备内的2077579个非重复IMIS号是否属于“大数据证据”呢?这就需要我们引入两组科学标准进行综合研判。首先,我们引入顶级咨询公司麦肯锡提出的“大数据”是指“体量超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集” [3]1这一概念。该定义存在一定的主观性,并未将大数据界定为大于几TB的数据,而是以不同部门领域及其适用的数据软件中常见的数据集大小为标准。使用此种定义,可将“大数据证据”界定为数据体量超过了办案人员及其典型数据处理方式管理和分析能力的证据。这一定义强调了大数据证据“数据体量巨大”这一重要特征。依据这一定义,可以轻松将“e租宝案”中存储于200多台服务器上的海量数据,以及“伪基站”设备内2077579个非重复IMIS号定义为“大数据证据”,因为这种证据类型虽然是从大数据集中提取而来,但是其提取部分仍具有海量性,从而导致其在信息体量上具有大数据证据的特征。也就是说,如果我们面对的是一种无法单独提交的数据信息,例如从非结构化数据库中通过算法才能得出的数据结论,那么我们就只能将生成该证据的“大数据集”也一并作为证据提交。

       除此之外,经过比对、过滤、去重后的这2077579个非重复IMIS号码的数据报告,可以归入“大数据证据”项下吗?这时,我们有必要进一步引入国际数据中心(IDC)提出的,关于大数据是“旨在通过实现高速捕获、收集、分析,以经济地从多样的极大量数据中挖掘价值” [4]这一概念。这一概念强调大数据证据是利用大数据技术和体系生成的证据,是从大数据平台挖掘、分析而形成的,但其生成之后本身并不一定具有“数据体量巨大”这一特性。具体而言,就是运用大数据技术在大数据集(往往是大数据平台)中直接进行算法分析,并生成法庭可以直接认知的结果报告,这时,算法分析结果与算法分析之基础数据集之间无法分割,因此须把大数据集(大数据平台)整体向法庭移交。在这个意义上,上述经过比对、过滤、去重的2077579个非重复IMIS号码的数据报告也属于“大数据证据”之组成部分。但是,如果作为大数据集的整个数据平台不具备整体移交的可行性,那么,单独提交的算法分析结果或者数据报告便不再具有证据法意义上的大数据证据之属性。那些“直接从所谓‘大数据平台’‘大情报系统’获取得到的数据或结论,如对端手机号码的实际使用人、犯罪嫌疑人行为轨迹与案情在时空上高度吻合等” [4]信息,同样不具有大数据证据之特征。这类证据虽然脱胎于所谓的大数据平台,但若要将其作为证据使用,便须将其所依托的整个大数据平台提交法庭,否则这些证据的真确性无从验证,事实认定者也就无从对其产生确信。然而,整个大数据平台数据体量极大,且时刻处在运行之中,将其整体提交法庭极为困难。相较而言,将这种信息用作侦查线索,在其指引下收集、固定其他多种证据并形成证明体系显然更为可行。例如,在涉毒案件中,侦查人员往往通过大数据平台进行研判,以确定犯罪嫌疑人的物理位置并实施精准抓捕,而抓捕后,用于锁定犯罪嫌疑人人身同一性的证据,并不包括该大数据平台的研判结论,该数据分析结果只构成抓捕线索18。而本文开篇提到的侦查机关作为人身同一性认定证据的、基于海量数据生成的“人脸比对结果”,也属于这种证据形式。此时,法庭对大数据集及其算法都没有进行实质审查,直接接受该等人脸比对结果,违背了证据收集运用规范,违背了证明标准条款(《刑事诉讼法》第55条第2款第2项)。

       由上文的分析不难发现,大数据证据同时具有以下两个特征:第一,作为证据的原始数据集体量巨大,无法以人力在可容忍时间范围内读取;第二,原始数据集需通过大数据分析转化为信息体量有限的大数据报告,方能为事实认定者所感知。不符合这两点本质特征的证据,直接构成书证或电子数据,无需纳入大数据证据范围加以讨论。这两点本质特征表明,大数据证据不是不可分割的同质整体,它由大数据集及大数据集之算法分析报告两部分构成,本文将这种构造特征称为大数据证据的二元内部构造。如前所述,大数据集之整体均与案件具有关联性,因此该整体都是证据,与此同时,由于该大数据集体量庞大,其运用以转化为法官所能感知的分析报告为前提。因此,大数据集之算法分析报告也是大数据证据不可或缺的组成部分。


三、大数据证据的二元实物证据属性


      在明晰大数据证据之本质特征和二元构造的基础上,值得讨论的是大数据证据的属性。当前有关大数据证据属性的学理讨论,多是以证据法定分类为基点展开。但是,我国证据的法定分类是同时考虑不同证据类别的内在属性及其应用上的便宜需要的结果,不具有周延性。因此,本文主张以学理分类为讨论的起点。我国学理上普遍接受的证据分类四对范畴,是“实物证据与言词证据”“原始证据与传来证据”“直接证据与间接证据”“不利于被告人的证据与有利于被告人的证据”。在证据法理论上,每对范畴中两种类型的证据都具有审查判断上的系统周延性。

      对“大数据证据”而言,具有理论价值的是讨论其属于实物证据还是言词证据。大数据集属于电子数据,系实物证据之一种,自不待言。例如,在侵犯公民个人信息案件中,侦查机关提取的被侵犯的海量公民个人信息本身显然属于实物证据中的电子数据。那么,侦查机关基于这些信息所出具的“大数据报告”19等还能被认为是属于实物证据吗?

()大数据报告与鉴定意见具有本质区别

      在理论研讨中,基于其技术性特征,“大数据报告”往往被认为与言词证据中的鉴定意见具有某种意义上的亲缘性。如刘广三教授认为:“我们通常所说的电子数据,是一种互联网产生的静态数据。但资金大数据分析运用了模型分析,加入了电脑逻辑,可视为一种动态的数据,与我们以往认识的电子数据是有区别的。我认为最好把资金大数据分析纳入司法鉴定范畴。”[5]刘品新教授认为:“大数据证据无疑是一种专业性或科学性很强的证据,其结论部分的意见表达是普通人无从凭借常识就能理解的。而在我国现行法律框架中,只有鉴定意见与之相符。”“将大数据证据(报告)纳入鉴定意见之列,既具有形式上的亲缘性、可比性,也满足司法追求经济性的原则,司法人员可以相对容易地援引鉴定意见的审查判断规则去处理大数据证据的效力。” 20这些观点从根本上看都是基于归类便宜的考虑对大数据报告的证据属性提出意见,却并未深入分析大数据报告与鉴定意见在本质属性上的区别。

      本文认为,大数据报告在生成过程上与鉴定意见存在本质区别。这种区别决定了,大数据报告不可能属于鉴定意见之一种。

       ——大数据集中的海量数据,是大数据报告的信息源。计算机对该信息源进行数据清洗、筛选、加工、比对、碰撞等数据分析过程后,生成分析结果。计算机在完成这一工作时,利用的是以生成目标数据为导向的元算法(必要时还包括基于元算法通过机器学习机制生成的迭代算法)。这一过程本质上是按特定标准对源数据进行逻辑归纳的过程。计算机在此起到的是扩充人类算力、加速逻辑归纳的作用,算法在此并不提供任何补充的信息。在信息源和元算法都控制不变的前提下,计算机所生成的分析结果应当具有高度稳定性,亦即由计算机开展的指向特定目标的大数据分析,具有可复现性。此种可复现性,可作为检验大数据分析结果的标准(大数据报告可复现性原理)。

      ——对于鉴定意见,检材中的信息是其信息源,拥有专业知识的鉴定人员从其专业角度“读取”检材中所含有的各种维度的信息,并运用其专业知识中所包含的命题,得出关于该检材的鉴定结果。这一过程,本质上是以其专业知识中包含的经验性归纳结论为依据、以其从检材中“读取”的信息为基础进行类推的过程。一方面,鉴定人员的专业素养、知识背景和能力影响了其从检材中“读取”信息的全面性和准确度,同时影响其在特定检材信息上运用学科普遍规律的妥适性;另一方面,鉴定人员之专业学科所提供的经验性归纳结论,一般不是全称命题而是特称命题,鉴定人员在这种以特称命题为主要形式的学科规律性认识指导下,对检材所提出的并不是逻辑演绎的必然性结论,而只是一种带有学科性质的类比和推测21。因此,即使对同一检材针对同一鉴定目的,由不同学科背景和专业程度的人员进行鉴定,可能得出不同的鉴定结论。由于鉴定无法通过复现检验其准确性,人们只能依据对鉴定人的当庭质证结果,依据一定的法律标准对鉴定结论之证明力进行评判(鉴定意见不可复现性原理)。



1 大数据报告和鉴定意见的生成过程对比 


       结合上面的论述,本文将大数据报告和鉴定意见各自的形成过程概括为上图1。总的来说,大数据分析过程中用到的算法具有固定性和可复用性;报告的生成过程是纯粹的归纳推理,结论具有较强的稳定性和可复现性,因而可以“符合论”之客观标准,以大数据分析过程之整体复现为方式进行检验——在这一过程中,没有任何“意见”容身之余地;鉴定意见的生成过程是类比推理,其结论受到鉴定人专业知识、学术观点乃至科技发展水平的局限——这一过程中,鉴定人“意见”的填补是不可或缺和殊为关键的,这也就意味着,“鉴定意见的科学性、真实性和权威性,在很大程度上不取决于鉴定意见本身,而依赖于鉴定人的主体属性、鉴定过程和判断能力” [6]。因而,在充分的直接言词原则环境下,对鉴定意见的证明力,只能基于以人证调查为模型的质证程序22由事实认定者作出法学评判。

        从法规范上看,鉴定意见作为证据类型的本质特征就在于鉴定人填补法庭所不具备的专业知识。因而,不存在这一专业知识之填补过程的证据类型,不可能构成鉴定意见。正是基于这种明晰规范性概念之分界的考虑,2021年新《最高法解释》删去了电子数据“有疑问时”送交鉴定的规定23,而其他司法解释文件在提及电子数据的鉴定时,只明确对“电子数据涉及的专门性问题”,应当送交鉴定或检验24。显然,如果电子数据在个案中并不涉及专门性问题,便不落入应当送交鉴定的范围。而大数据集之所以无法由人力直接读取,并非因其在内容上艰深晦涩、只能通过填补专业知识才能理解,而只是因其体量庞大,如以司法实践中可支配之人力进行读取,将无法在可容忍时间范围内完成,故必须通过计算机算力予以加速。这一过程并不涉及“专门性”问题,因而从规范层面看,大数据分析本身亦不必也不该纳入鉴定意见的范畴25

()大数据报告与实物证据具有共同属性

      在认定大数据报告并不属于鉴定意见的基础上,值得分析的是,大数据报告与实物证据具有何种共性,使其能够并应当归入实物证据的范畴呢?

       本质上讲,大数据证据中的规律性是客观的,只是这种客观规律常常需要通过算法来反映。这正如物证、书证可以用不同的表达方式来反映,如物证可以用图片方式展示,也可运用放射线对其内部结构进行三维剖析,书证中的外文可以进行翻译表达,还可以或截选或概括的方式展示运用,但这些都不会影响其作为实物证据的本质属性。算法之于大数据,无非是其特有的表达方式之一。根据算法得出客观结果,是一种对事实的呈现,并不含有规范或价值判断。本文认为,大数据报告同样是实物证据,大数据报告是大数据证据作为实物证据发挥证明作用的运用形式,具备实物证据运用形式的典型性。

       一方面,大数据报告是大数据集的显化运用形式。我们知道,实物证据中所包含的信息,只有在能被司法人员感知的前提下,才能发挥证明作用。对于那些其外在属性能直接为司法人员所感知的实物证据,如具有某种显性物理属性的物证(比如辛普森案中带血的手套)、以司法人员通晓之语言撰写之书证等,可直接以其原本形态(原物、原件)发挥证明作用。但对那些内在属性并不能直接为司法人员所感知的实物证据,如证物上残留的指纹、以司法人员不通晓之语言撰写之书证、保存有证据资料的U盘等,须显化为司法人员所能直接感知的形态后,方可发挥证明作用,如通过荧光照相技术对指纹进行拍照提取、对书证进行必要的翻译、利用计算机对U盘中的数据进行读取或进行摘要打印等。本文将这种将实物证据所包含信息转化为司法人员所能直接感知之形式的运用方式称为实物证据的“显化运用”。并且认为,显化运用是这部分实物证据的运用常态。大数据是一种不能为司法人员所直接感知的证据:不但数据本身必须通过计算机进行读取,而且直接读取的大数据由于体量庞大,由司法人员人工逐条审查并不现实,只能通过算法显化,在与证明目的相关联的维度上读取大数据中所包含的信息,生成大数据分析报告,以为司法人员所感知26。因此,大数据报告是大数据这一不能为司法人员所直接感知的实物证据类型转化运用的形式,具有实物证据运用形式的典型性。

       同时,大数据报告具有实物证据的多维选择特性。我们知道,实物证据是以实际的物质形态而存在或表现的证据,而此种物质载体上实际蕴含着多维度的大量信息——物证的每种理化属性、书证中的每个字符、电子数据中的全部主文、附属信息和关联痕迹,都承载着信息。而实物证据的运用中,实际上只是与证明目的相关联之维度上的信息——而并非实物证据所能承载的各个维度的全部信息——在发挥作用。例如,从凶案现场提取之带血作案刀具,其外观和附着血迹、指纹等发挥证明作用,而该刀具的熔点和导电性等物理属性不具证明作用;网络诈骗案件中的微信聊天记录,其中指向诈骗事实的内容发挥证明作用,而穿插期间的问候、闲谈等内容则不发挥证明作用。可见,提取实物证据中对具有相关证明作用的部分信息进行选择性运用,是实物证据的又一运用常态。本文将实物证据的这种运用特点称为实物证据的多维选择特性。

       大数据证据中包含海量与案件具有关联性的信息,却往往并不能直接服务于证明目的。例如,在通过网络窃取公民个人信息的案件中,所窃取之个人信息所构成的数据集整体构成证据,但对证明目的而言,具有意义的并非“具体哪些公民的个人信息被窃取”,而是“被窃取的个人信息实际数量”。因此,大数据证据的运用,关键在于提取该数据集与证明目的相关联之方面的属性。例如,通过算法对上述被窃取公民个人信息之数据集进行清洗和比对,可统计出被窃取之公民个人信息的数量。运用算法对大数据证据特定属性进行分析并呈现为大数据报告,即是大数据证据作为实物证据而具有多维选择特性下的经典证据运用形式。

由此可见,大数据报告具备实物证据运用形式的典型性,故宜认定为实物证据。大数据证据由大数据集和大数据报告构成。大数据集是实物证据,大数据报告也是实物证据;与此同时,两者并非彼此独立的。在算法控制不变的前提下,大数据集与大数据报告具有高度稳定的对应关系。在这一意义上,大数据证据具有二元实物证据属性。


四、大数据证据的客观校验标准


       由上文分析可发现,大数据证据具有二元实物证据构造,也就是说,大数据证据与鉴定意见存在本质区别,大数据集本身系实物证据,而经由算法分析形成的大数据分析结论亦构成实物证据。与此同时,在算法控制不变的前提下,数据集与数据分析结论的对应关系亦保持高度稳定。这种特殊构造决定了,大数据证据须通过合法性、算法目的符合性和分析结论正确性三重客观校验,方可具备证据能力。而在证据能力问题上,本文将继续通过大数据证据与鉴定意见的对比,展开关于大数据证据客观校验标准的论述。

()完整性校验标准

       我们知道,如果鉴定检材的来源和保管链条未经依法记载固定,那么便无法确认其在鉴定前或鉴定后是否遭到偷换、篡改或毁坏,鉴定意见之真实性将无从验证。如果鉴定主体不具有法定的鉴定资格,或鉴定程序违背法律的规定或者专业规范,那么鉴定意见之准确性将无从确保。如果鉴定意见文书缺乏封存性证明要件,如骑缝章、签名等,那么鉴定意见内容之真实性将无从验证。因此,法律对鉴定检材、鉴定主体、鉴定意见提出了一系列形式性的要求(《最高法解释》第98条27)。这些要求从其实体内容上看,不具有直接保障个案中鉴定意见准确性的机能,但提出了排除鉴定意见证据资格的抽象标准。也就是说,这些要求实际上构成了法律对鉴定意见赋予证据能力的形式性前提条件。对大数据证据而言,则大数据集、算法和大数据报告三者都必须保证其数据内容未曾受到篡改。具体而言,大数据集是整个大数据证据的根基,其一旦受到篡改,整个大数据证据的证据资格将无所附丽;算法是大数据证据的中枢,其一旦受到篡改,算法符合性校验将无从展开;大数据报告是大数据证据的表征,其一旦受到篡改,事实认定者从大数据证据中所感知的信息将直接受到扭曲。因此,必须保障送交法庭的大数据集的完整性,必须保障送交法庭的分析算法的完整性,还须保障送交法庭的大数据报告的完整性,否则,整个大数据证据将不具有证据能力。

       我们知道,实物证据有瑕疵、可能严重影响司法公正的,应当予以补正或者作出合理解释;不能补正或者作出合理解释的,对该证据应当予以排除(《刑事诉讼法》第56条第1款)。对大数据证据而言,证据排除规则运用之特殊性主要在于其技术方面。大数据往往通过分布式存储技术分散保存于位于多个物理位置的存储介质上,因此难以扣押原始存储介质(《电子数据规定》28第8条),只能提取电子数据并计算完整性校验值(《电子数据规定》第9条)。在这种情形下,电子数据外部载体审查判断之关键在于对该数据之依附载体的封存状态与保管链条之审查(《电子数据规定》第18条)。内部载体审查判断之关键在于电子数据完整性校验值之比对(《电子数据规定》第23条)——技术上,尽管大数据体量庞大,但其中任何一字节数据的变动,都会引发该校验值之变化。

       对外部载体而言,大数据证据——无论是大数据集还是算法、大数据分析结论——提取后存储介质之封存状态及保管链条无法确认的,构成瑕疵电子数据,经补正或作出合理解释的,可以采用(《电子数据规定》第27条),否则不具证据能力。对内部载体而言,大数据证据——无论是大数据集还是算法、大数据分析结论——完整性校验值发生变化的,表明该电子数据内容与提取固定时相比已发生变化,此时该等数据之真实性已无法保障,故不得作为定案的根据(《电子数据规定》第28条)。还须注意,大数据证据之二元构造决定了,对大数据集及大数据报告(包括算法和大数据分析结论)两者均须进行上述外部载体和内部载体的审查判断。

      在法庭调查中,对大数据集、算法和大数据报告数据完整性的校验,可通过比较数据完整性校验值的方式进行。在证据收集、固定规范中,应当要求对三者在大数据分析中首次出现的时间戳与当时相应的校验值进行封装。在此基础上,法庭上如对三者发生异议,可随时进行比对,必要时可以展开现场校验。

()算法目的符合性校验标准

       由于鉴定意见不具有可复现性,在对鉴定意见的审查判断中,对鉴定行为的科学性,包括鉴定主体所采用的鉴定方法是否正确、是否适合于达成特定的鉴定目的,只能通过询问鉴定人,调查鉴定方法、鉴定过程、鉴定行为、鉴定依据等手段,间接地对鉴定人的水平和能力作出“法学评判”。如同前文所述,鉴定意见在生成过程中,须填补鉴定主体的专业知识。因此,在检材本身控制不变的前提下,所填补的专业知识的科学性和鉴定主体运用该专业知识的妥适性都会影响结论的准确性。例如,所采用的鉴定方法可能潜藏相对更高的错误率;所依据的科学理论并未得到广泛认可或已被新的理论替代或淘汰;鉴定主体可能在识别鉴定指征和运用鉴定方法时存在疏忽等。这些情形都可能对鉴定意见的准确性产生关键影响。然而,这些情形是否必然否定鉴定行为的科学性,并非由法庭能够直接判断。因此,只要鉴定主体、方法等符合鉴定意见合法性规范的要求,即使出现这些情况,也不能仅以此为根据排除鉴定意见的证据能力,只能在证明力的层面上对鉴定行为科学性可能存在的疑问予以考虑。

       由此可见,虽然与鉴定意见类似,对“大数据分析行为”的科学性,也需要进行检验,即检验其算法是否符合大数据分析目的。例如,某项大数据分析的目的是“既不重复又不遗漏地”统计涉案银行流水信息中所涉及的银行账户数量,而如果该大数据证据中的算法并不能有效排除重复出现的银行账户,那么此种算法便不符合大数据分析的目的。但是,与鉴定意见不同的是,对大数据证据算法的目的符合性,还可以直接进行科学性校验,且此种校验得出的结论,只有是非之分,并无程度之别。也就是说,与某种鉴定方法“相较而言更”适合于特定鉴定目的的情形不同,算法要么符合大数据分析之目的,要么不符合,不存在中间地带,不可能出现“不太符合”或“较为符合”的情形。这是由算法本身的性质决定的。算法是明确定义的计算过程,其以某个或某组值为输入,并以一个或一组值为输出。因此,算法亦可被视为解决特定的计算问题之工具,对这一“问题”的描述即构成对算法“输入-输出”关系的指定[7]1。换言之,算法是运算目的的数学表达,而运算目的则是算法的自然语言描述。两者在数理内涵上只存在一致与不一致两种样态。

       那么,在具体操作层面,如何开展算法目的符合性校验呢?在算法源代码可以开示的情形下,可以通过类似白盒测试(white-box testing)的技术路线,通过直接检查算法内部技术构造,亦即校验其中每一运算步骤的数理内涵及每一运算步骤之间的关联关系,以最直接的方式实现对算法之目的符合性的校验。通过这种校验,可以实现对算法中不符合运算目的的内容精准定位。在实践中,由于客观条件的限制,仍然存在相当比例不能通过开源算法达成运算目的,或算法提供者基于保护商业秘密等目的不愿提供算法源代码的情形。在这些情形下,鉴于无法实现对源代码的直接读取,只能对算法进行黑盒测试(black-box testing)。黑盒测试之基础在于,“如果算法对每一输入的实例,都能给出正确的输出结果,那么,该算法便是正确的”[7]23。进而,可以通过对该算法输入大量实例,观察其是否输出错误结果。如果算法输出了错误结果——哪怕只有一次——亦说明该算法存在错误,无法通过目的符合性测试。黑盒测试不要求测试者具有程序设计方面的专业知识,因此,在能获得算法程序的前提下,控辩审三方均可对算法进行黑盒测试。

      应当注意的是,一般而言,这种校验只对算法正确性具有推定效力而起不到证明作用。这是因为,在白盒测试中,尽管理论上可以实现对被测试算法的完全覆盖,但是,一方面,在复杂算法中,实现对算法内部运算路径的遍历将带来较高成本;另一方面,测试者的注意力水平是有限的,就像审校者无法保证经其校对的文件中不含有任何错误一样,白盒测试的测试者也无法保证通过其测试的算法必然具有完全的目的符合性。而在黑盒测试中,由于用于测试的输入实例的数量是有限的,因而其往往无法保证对算法实现全覆盖式的检测。因此,黑盒测试只能实现“成功的测试每增加一次,我们对软件正确性的不确信程度便降低一分”[8]。总之,白盒测试和黑盒测试的可靠性都要求其在各自技术路线上对待检验算法实现穷尽式覆盖,然而这两种穷尽在现实中往往都是不可行的[9]12。但是,白盒测试或黑盒测试可以有效指出算法中出现的错误。因此,算法符合性校验是一项排除性校验,亦即通过符合性校验并不表明算法必然正确;但无法通过符合性校验的算法,亦即在白盒测试或黑盒测试中被指出存在错误的算法,必然不具有目的符合性——在这一种情形下,该大数据证据便不具有证据资格。

()大数据报告正确性校验标准

       在对鉴定意见的审查判断中,无法实现对鉴定“结论”之正确性直接作出科学评判。这一方面是由于鉴定作为对过去发生事实之推测,不具有可复现性,另一方面是因为法庭缺乏形成鉴定意见所需的科学知识。因此,对鉴定“结论”的检验,实际上只能立足于对鉴定意见生成过程中所填补之专业知识的检验。这种检验只能间接地通过询问鉴定人、开展二次鉴定、请有专门知识的人出庭就鉴定意见发表意见等方式进行;以通过这些方式获得的信息为“中介”,事实认定者作出对鉴定“结论”正确性的间接判断。本质上,对鉴定意见的审查判断,只能以法学标准代替科学标准。

       与对鉴定意见的审查判断不同的是,如前文所述,大数据报告系对大数据集之特定属性的客观反映,因此,大 数据报告的正确性应当以“符合论”之客观标准检验。具体而言,大数据报告所述情况符合大数据集实际情况的,大数据报告具有正确性,反之不具有正确性。

       如何在实际操作层面落实这一校验标准呢?第一,一般而言,由于大数据本身数据体量巨大的特点,难以通过人力检验对其实现纠错。但这并不能排除所有例外情况。当通过人力对数据集进行不完全检验,已经得出与大数据报告相矛盾的结论时,大数据报告显然不具有正确性。第二,当事人提出技术构造更为简单的算法——且该算法因技术构造较为简单而能通过穷尽式白盒测试证明符合运算目的的——通过该算法得出的运算结论与大数据报告所载结论不符的,大数据证据不具有正确性。第三,当事人提出多种具有目的符合性的算法,且这些算法得出一致结论,但该结论与大数据报告所载结论不同时,应启动进一步调查。


五、结语


       在大数据证据涌向法庭的时代背景下,理论界必须作出有力回应。否则,以“技术”之名,控方主张将可能透过“大数据”“算法”等看似不容置疑的“科学概念”潜入证明体系,证据裁判原则将受到挑战。如果说对鉴定意见质证中以法学标准代替科学标准是法律实务界由于专业知识之匮乏而不得不采取的妥协,那么在计算机算力加持下,法律实务界人士对大数据证据独立进行验算、质证都将成为现实。在大数据技术体系下,人类有能力通过技术平台掌握更多数据化认识工具,对世界的认识将越来越脱离对主观意见和推测的依赖并走向客观化。而将大数据证据认定为实物证据并按符合论等标准对其进行真实性评判,正是刑事司法程序正视大数据所带来之认知变革的第一步。


参考文献

[1] United States v.Lizarraga-Tirado 789 F.3d[Z].9th Cir.2015.

[2] 白阳,陈寂.“e租宝”非法集资案真相调查[N].检察日报,2016-02-01(2).

[3] McKinsey & Company.Big Data:the next frontier for innovation,competition and productivity[J].McKinsey global institute,2011(5):1.

[4] GANTZ J,REINSEL D.Extracting value from chaos[J].IDC iView,2011(3):6.

[5] 何家弘,邓昌智,张桂勇,等.大数据侦查给证据法带来的挑战[J].人民检察,2018(1):54-57.

[6] 陈瑞华.鉴定意见的审查判断问题[J].中国司法鉴定,2011(5):1-6.

[7] THOMAS H.CORMEN,et al.Introduction to algorithms[M].MIT Press,2009:1-2.

[8] NEIL WALKINSHAW,GORDON FRASER.Uncertainty-Driven black-box test data generation[J].International conference on software testing verification and validation,2017(3):253.

[9] GLENFORD J.MYERS,TOM BADGETT,COREY SANDLER.The art of software testing[M].New Jersey:John Wiley & Sons,2012:12.


下一条:庄乾龙:刑事案件中大数据整合行为定性及其适用规则

关闭