元轶：证据制度循环演进视角下大数据证据的程序规制——以神示证据为切入-中国政法大学诉讼法学研究院

浏览次

一、大数据证据的局限性与神示证据的程序价值

所谓大数据，简要概括就是“体量超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集”。这一概念较为直观的描述了大数据信息容量极大的本质特点。而突显大数据算法特质的概念，则由国际数据中心（IDC）提出，它们认为，大数据就是“旨在通过实现高速捕获、收集、分析，以经济地从多样的极大量数据中挖掘价值”。这一定义将大数据集与大数据算法结合阐释，认为大数据不仅具有信息容量极大的特点，还包括通过“大数据集”挖掘、分析而形成的“算法结论”。以这一定义为基础，笔者认为，大数据证据应由“大数据集”和“大数据算法结论”两部分构成，也就是说，“算法结论”作为大数据证据的一种客观反映，与作为大数据证据本体的“大数据集”密不可分，在这种二元一体结构下，二者共同构成大数据证据。

因此，大数据证据具有客观性、关联性强的证据属性，还具有助力司法、双方信服、预警犯罪等优势。然而，正如维克托·迈尔·舍恩伯格所指出的那样，大数据时代所据以进行的不再是随机样本，而是全体数据；不再追求精确性，允许混杂性；思维依据的归责不再是因果关系，而是相关关系。而大数据证据的局限性也由此而生，首先，大数据证据的证明力愈强，其被隐匿、修正的可能性就愈高，这也符合经济学的成本收益理论，因此，针对大数据的这一局限性，“在开展大数据侦查过程中应当通过数据清洗、多库交叉检验等方式验证数据的真实性。禁止包括侦查机关在内的数据使用者、管理者共享、传输无法验证真实性、过时的相关数据，同时数据使用者与管理者也负有及时修正虚假、过时信息的相应义务。”其次，大数据证据存在的非结构化存储和网状结构运行等对接问题，对于我们期待的对司法的有效助力，无疑是一种客观局限。再次，大数据证据的局限性还体现在其数据处理过程的隐秘性，包括其数据挖掘、数据碰撞等大数据分析方法的模糊性等问题。最后，大数据证据还存在证据偏在、检验困难等问题。

而所谓神示证据，顾名思义，就是借助神的旨意来裁判案件，其方式既包括我们较为熟悉的，在一定程度延续至今的“神誓法”，还包括要求案件当事人接受某种特定考验的“神判法”，而神判的具体形式又分为“单向神判和双向神判两类：前者通常由被指控的一方当事人接受神判，包括热铁神判、沸水神判（汤釜神判）、冷水神判、抽签神判、圣餐神判、吞食神判、苦水神判、十字架神判、烛光神判等；后者要求当事人双方接受神判，主要指司法决斗”。公元6世纪，一位天主教执事和一位异教的祭司通过用手在滚烫的热锅中取出戒指的方式来解决他们的教义分歧。检验正式开始前，人们发现天主教徒在手臂上偷偷涂抹了有魔力的香油。正当真教会的荣誉摇摇欲坠之际，一个来自拉文纳的陌生人从人群中走出来，将自己的手伸进沸水里。据说这个新来的名叫海厄森斯的人将手在水里摸索时，还慢吞吞地告诉旁观者，水到底部的时候有点冷，在顶部却很温暖。不到一小时，他就安全地把戒指捞了上来。然后，他的对手也想试试运气，却把手指到手肘的肉全煮掉了，骨头都露了出来。“那么，”都尔主教格雷戈里严肃地宣布，“争议就此解决了。”这就是所谓的沸水审。同样，在东方，有所谓的盟神探汤—把手放进开水中，然后查看烫伤的痕迹。而热铁审，则是牧师先给烧红的铁块洒上圣水并说道：上帝保佑，圣父！圣子和圣灵请降临这块铁上，显示上帝的正确裁判吧！再让被告人手持热铁走过9英寸的距离，最后被告人的手被包扎起来，三天后进行检查，若有溃烂的脓血则视为有罪。这就是“具有原始愚昧和野蛮色彩”的神明裁判，我们普遍认为“神明裁判制度是古代证据制度和司法鉴定技术不发达的产物，是基于人们对于鬼神的崇拜和对自然界现象的无知认识以及对死亡的恐惧而产生的，没有任何科学性和合理性可言。”我们还可以将更多的负面标签加载其上，诸如恐怖、落后、无知、非理性等等。然而，神示证据其实具有一系列程序价值，包括绝对公开、消极仲裁、严查作弊、当庭宣誓、自由证明、程序分流、最后救济、以及共同认可等，下面我们将根据这些程序价值的不同权重予以分别阐述。

首先，其中最显而易见的几项程序价值是绝对公开、消极仲裁和严查作弊。以前述沸水审为例，其一，程序绝对公开—海厄森斯在众目睽睽之下，将沸水里的戒指打捞上来，还慢吞吞地告诉旁观者水的温度；其二，消极仲裁，都尔主教格雷戈里只负责宣布判决结果：“那么，争议就此解决了。”其三，严查作弊—涂抹香油之类的作弊手段被严查。可见，在神明裁判中，裁判者始终保持消极仲裁的地位，案件的当事双方也都处于平等的诉讼地位，并且，神示证据对造假情形严密防范，在程序上设计各种防范手段，如神明裁判过程中的互示制度等。其次，神示证据还具有当庭宣誓和自由证明的程序价值，其开创的具有浓厚神秘色彩的神誓制度，成为后来许多国家法庭审判必不可少的程序设置，无论是证人，还是当事人，只要出庭提供证言，都会履行这一程序；而所谓的自由证明，是相对于后来出现的法定证据制度而言，即边沁所推崇的自然证明体系。再次，神示证据还具有非常重要的程序分流价值，我们知道，神示证据具有择疑难案件而适用的特性，神明司法的对象并非所有争端，通常是那些双方各执一词，裁判者莫衷一是的案件，才会成为神示裁判适用的对象，即所谓的疑案。例如，汉谟拉比法典第2条规定，在法庭上，当一方控告另一方犯有某种罪行，然而提不出证据，被告一方也拿不出反驳的证据。这时，法官才宣布把被告一方扔进幼发拉底河中，如果沉溺了，证明被告一方有罪，没收其全部家产归原告一方；假如不被淹死，则证明无罪。那就处死原告一方，同时把原告一方的财产没收归被告一方所有。而在中国古代，皋陶治狱，也是罪疑者令羊触之。《墨子》“明鬼”篇中也有这样的记载：齐庄公下面有两个臣子王里国和中里徼，打了三年官司，案件无法判决，齐庄公想把他们都杀了，却怕冤枉了无辜者，想把他们都放了，又怕放纵了有罪者，于是他让这两个人准备一头羊，到齐国的神社去宣誓。由此可见，“神判的功能主要是在穷尽其他证明方法无法证明案件事实、法官对事实存在与否不能达到确信状态时，作为最后的救济手段。”并且，在神判中失败并不能视同为自白。最后，也是最为深刻的程序价值在于神示证据的共同认可，神示证据虽然没有威严的法庭，没有法袍、法槌和高高的椅背，但却能够使得争议双方对神明裁判共同认可，从而保障了神明裁判这一让争议双方都能够信服的第三方证明体系的运行，从而快速有效的解决纠纷。事实上，在上述疑难案件中，双方对事实各执一词，裁判者也莫衷一是，在这种情形下，选择“神明裁判”这种纠纷解决机制，表面上看是非理性的，但其实是最为公平有效的解决方式，因为在疑难复杂案件中，事实在各方那里都是振振有词的罗生门，如果双方都不妥协，那么最不坏的办法就是证据神示，而非后来纠问式等诉讼模式下那些所谓发现真相的手段。相反，如果没有了可以让双方信服的第三方证明体系，神明裁判也就无从维系了。这也成为神示证据后来崩溃的根本原因。正如那时巴黎圣母院的一位神学家所质疑的那样：为什么雇佣战士进行决斗的人总是雇请经验老到的斗士，而不是消瘦的老人？当三个被告被指控同一项罪行，因而需要轮流拿炽热的烙铁时，为什么经常是最后拿的那个人不容易留下伤痕？这说明此时人们已经不再相信第三方神示证据可以凌驾于双方之上，神明裁判也就连同上述一系列程序价值和纠纷解决功能走下神坛。而在后来的以言词这种主观证据形式为主导的诉讼程序中，定分止争这种价值导向被认为只是一种相对价值，而发现真相则成为最高价值，由此，疑难案件中解决纠纷这种相对价值被发现真相这样一种绝对价值所替代，也就为后来刑讯等证明方式的出现埋下了伏笔，而神示证据体系的一系列价值功能也就渐行渐远。

综上所述，表面看来，一个是我们俯视的神示证据，一个是我们仰视的大数据证据，二者不可同日而语。而本质上，二者的运行方式是相似的，功能效果是相似的，面临的问题也是相似的。何家弘教授曾指出认识案件真理的两条路径：一条是由别人告诉你；一条是你自己去发现。他认为“由别人告知”是古老的神示证据的主要特点。而大数据这种证据形式，同样是“在海量数据的基础上分析出事物之间的客观规律和相互关联，让收集的海量数据自己说话”，也就是说，大数据证据和神示证据一样，都具有“主动告知”的同质性。因此，如果要实现前述大数据证据的一系列变革图景，就需要正视其背后的一系列问题与挑战，而指引我们预见和应对这些问题的古老钥匙，正是神明裁判制度。神明裁判的一些古老方法和规则可以对新的尚不成熟的人工智能审判遇到的类似问题有所裨益，正如毛利人古老的纠纷解决方法成就了现代西方的恢复性司法。下面，我们就将针对关键几个方面的变革问题展开剖析，以期在大数据证据时代，能够有效借鉴神示证据时代的程序价值。

二、实物证据演进视角下大数据证据的程序算法保护

大数据证据首先带来的是实物证据的客观稳定性。“电子数据是从视听资料中分离出来的一种证据形式”，而大数据证据又是电子证据的一种演进，一条条的电子数据累积而成大数据。因此，作为电子数据集合的大数据证据同样属于实物证据的类别，只是在数量级和复杂性上与前者存在差别—“大数据证据以海量电子数据凝练的规律性认识发挥证明作用”，其中的规律性是客观的，只是这种客观规律常常需要通过算法来反映。这正如物证、书证可以用不同的表达方式来反映，如物证可以用图片方式展示，可以对物证的内部结构进行三维剖析，书证中的外文可以进行翻译表达，还可以或截选或概括的方式展示书证，但这些都不会影响其实物证据的本质属性。因此，有学者将电子证据的叠加视为大数据的来源，但却将大数据证据排斥在实物证据之外的观点是值得商榷的。因为，算法之于大数据，无非是其特有的表达方式之一。根据算法得出客观结果，是一种对事实的表达，而并非什么价值判断类的意见证据，更不是什么鉴定意见。也正因此，我们认为，在实物证据记载案件事实片段的程度上，存在一种发展脉络，即从物证、书证演进到视听资料，又从电子数据进化到大数据，在此，我们将其划分为四个层级（参见图1）。这一脉络，反映出实物证据在信息量上不断增长的过程；反映出实物证据不断加强其关联性属性的趋势。而这一趋势发展至大数据证据，终于实现其证据属性在客观性和关联性两大属性上结合的最高标准，从而彻底在证明力上超越主观性言词证据。

图片

图1 实物证据信息量增量趋势

而在大数据证据之前，无论是12世纪开始的欧洲大陆国家所实行的以法定证据为特征的纠问式诉讼以及后来以口供为中心的职权主义诉讼，还是英美法系以证人证言为主导的陪审团审判。它们在证据适用方面都是以主观性言词证据为核心而展开的。以曾经在欧洲大陆盛行的纠问式诉讼为例，其追诉犯罪主要依赖被追诉人的口供这种主观言词证据形式。那么，为什么会选择以口供为中心？盖因口供具备这样两个特征：一是距离犯罪构成核心要件最近，二是反映的信息量最多，因而被认为是关联性最强的直接证据，而口供在证据法上具有的这一独特价值，本无可厚非。但是，以口供为中心所引发的一系列问题却非常严重。从弹劾式诉讼演进到纠问式诉讼后，国家开始作为一方当事人介入刑事案件，它不再满足于消极仲裁的角色，这时，言词证据天然的具有极强可塑性的特点，就为刑讯开启了大门，控制这一证据之王的刑讯手段由此大放异彩。如欧洲中世纪常见的“烤脚刑”，就是将被刑讯者的脚涂上猪油放在火红的煤炭上慢慢炙烤，刑讯者用风箱控制热度，在问被刑讯者问题时会用隔板将被刑讯者的脚和燃烧的煤隔开，刑讯者如果不满意得到的回答，就将隔板拿开，再用火焰烧灼。圣殿骑士领袖杰克坤西就惨遭“烤脚刑”讯问，一直到他的脚被烤得只剩下骨头，而骨头最终居然散落在地上。其实，刑讯的残酷性即便是相比前述神明裁判中的热铁审、沸水审，也是有过之而无不及。“热铁神判、沸水神判这些名字虽然令今人闻之毛骨悚然，然而事实上也并非那么残忍……绝大多数人可以通过冷水和热铁神判……原因不难解释：以当时比较流行的热铁神判、沸水神判为例，经常从事劳动和使用武器的中世纪人民，双手都是又粗又硬的，即便放在热铁上或插进开水里，三天后一般也不会留下什么痕迹。如此神判，若与其消亡之后出现的那个“先进”替代—残酷的刑讯相比，只会显得温和。”正如英国历史学家罗伯特·巴特莱特所说：“操纵于上帝之手的审判，远没有操纵于人类之手的司法程序残忍。”也正因此，法国1670年法令将作为刑讯的拷问制度置于仅次于死刑的位置上。

上述类似案例不胜枚举，无需更多罗列，这里需要强调的是二者的关系问题，即“回答问题”与“施加压力”之间的关系—“如果不满意得到的回答，就将隔板拿开”。也就是说，无论是纠问式诉讼，还是后来的职权主义诉讼，口供这种主观性证据都使得追诉方可以根据待证案件的构成要件来重塑口供，而这种证明对象的人为设定，会导致相关言词证据信息分布严重偏移，出现一种“口供偏移现象”，即言词证据信息在人为设定的证明对象下聚集，此时，证据信息越多，偏移的结果也就越严重，最终，导致案件事实证明的误差越来越大。在我国，口供这种证据种类的全称是犯罪嫌疑人、被告人供述和辩解，这意味着审前阶段嫌疑人对追诉机关所做的各种陈述笔录和被告人在法庭上所进行的口头陈述之间，不存在证据能力和证明力上的区别，从而愈发导致这种口供偏移现象无法得到矫正。因此，虽然我们为口供确立了一系列原则规范，诸如不轻信口供，要将口供与其他证据平等对待等，并对其设立了最多的证据规则，诸如保障被告人权利的口供自愿法则、限制讯问笔录证据能力的传闻证据规则、防止刑讯逼供的非法证据排除等等，但口供的上述特性，导致追诉机关始终对口供类证据趋之若鹜。而更进一步，这种对口供的依赖会形成以既定口供为中心的诉讼证据结构体系—以逮捕措施为主导的强制措施结构体系，以讯问为首的侦查行为体系，以及以进一步防止串供为目的的被告人隔离体系，包括侦查阶段拒绝亲属会见、起诉阶段防止被告人阅卷、庭审阶段被告人单独席位制等（参见图2）。

图片

图2 以既定口供为中心的诉讼证据结构体系

因此，大数据证据的出现，将会导致对以口供为代表的言词证据需求的骤减，也就意味着，在大数据证据时代，我们耿耿于怀的刑讯现象，可能突然会销声匿迹。更为重要的是，前述以既定口供为中心的诉讼证据结构体系可能会得到一种矫正，即整个以口供为轴心的证据、侦查、强制措施三维体系，包括辩护保障制度都会发生结构性改变—不再需要为了防止串供而隔离被告人，无论是与自己案件卷宗的隔离，自己亲属的隔离，还是辩护人，甚至同案犯们。

然而，大数据证据所具有的客观性强的特质，在作为其最根本的证据属性的同时，也引发了严重的程序风险，即对于该实物证据客观性的保障问题。那么，对于大数据证据而言，其数据信息的保障与我们对于视听资料和电子数据客观性的保障有何不同呢？笔者认为，对于视听资料和电子数据类的实物证据，主要的作弊问题是其完整性也就是剪裁问题；而对于大数据证据，虽然有学者也注意到其完整性问题，指出“大数据并不在于样本绝对量的大小，关键在于全。”这无疑是具有一定警示作用的问题意识。但是，对于大数据证据来说，最关键的问题则是算法问题，而不是数据的周全问题。因为大数据证据在绝对意义上的数量之大，本身就具有周全的趋势，所以这一问题并不是关键，关键问题在于算法。在此，我们将通过视听资料证据由于其完整性引发的典型案例，来预判算法问题对于将来大数据证据的重要影响—1991年3月3日凌晨，美国洛杉矶的假释犯罗德尼·金酒后在高速公路超速驾车并拒捕，4名白人警察最后使用金属警棍对其进行殴打才制服了这名醉酒的黑人青年，这个过程的后半部分被一名叫霍利得的人拍下，并送往当地地方电视台，电视台把送来的81秒的录像剪辑为68秒，删除了其中罗德尼拒捕过程中攻击警察的镜头，之后提供给美国三大电视网及CNN。之后，加州地方检察官以“使用致命武器和不必要的暴力殴打嫌疑人”之罪名起诉至加州地方法院，1992年4月，洛杉矶郊区陪审团根据完整的81秒录像等证据作出孔恩警长、鲍威尔警官等4名警察无罪的判决。但是，当地群众收看的是68秒长度的录像，于是当然的相信这份有目共睹的实物证据，认为判决对黑人不公。于是在宣判2小时后，美第二大城市洛杉矶陷入一片火海之中，美国洛杉矶暴发20世纪以来最大的骚乱，震惊世界。这一天也是伊拉克接受美国停火条件，海湾战争结束的日子，美军以148人阵亡的代价重创伊拉克42个师。然而，因这段被剪辑了13秒的视听资料，却导致近百人死亡，数千人受伤，千余栋建筑损毁，洛杉矶成为“火中之城”，损失高达近10亿美元，并且在不足24小时蔓延到全美19个州。老布什总统被迫在电视上发表声明，保证将尽全力重新起诉4名白人警察。1992年5月，美国联邦地区法院对加州地方法院的上述无罪判决以新的罪名—“侵犯民权”进行了再审，并于次年4月再审改判孔恩警长和鲍威尔有罪，以侵犯了罗德尼·金公民权定罪，处以30个月有期徒刑，金因此获得380万美元赔偿。由此可见，类似视听资料这种信息丰富且客观性强的实物证据，其完整性一旦遭到篡改，后果非常严重，而对于大数据证据而言，不仅存在和上述视听资料同样重要的完整性问题，而且更为重要的问题是，还存在对大数据证据程序算法的恶意加工和恶意使用等问题。事实上，对于这一问题，最早给予给我们相关启示的就是神示证据制度，在神明裁判中，一直强调严查作弊，如施展魔术技巧、服用毒药或兴奋剂、在器械上做手脚等。因此，大数据证据客观性的保障，离不开对其数据信息的“严查作弊”。因此，未来对于大数据证据的立法保护，也就不应再局限于“致使刑事案件证据灭失”这种以保护完整性为目的的立法路径，而应该针对程序算法的恶意加工和使用问题也进行干预。

另外，上述案例所反映的问题还不止于此。如果反过来，并不存在完整的81秒的视频，而只有一个68秒的视频，那么我们就应当根据人们的普遍质疑，而重新审判。这同样是神判司法给我们的又一层启示，即如果结果出现重大偏差，人们可以根据各种正当理由重新进行一次或多次审判。同样，在大数据的语境下，即便不存在明显作弊的情形，但是当最终裁判与所有普通人的基本判断相左时，就应当得到修正的机会。

三、大数据证据关联性视角下事实裁判者的程序定位

大数据证据除了上述客观性强的特质之外，还具有信息量大的属性。也就是说，从证据关联性的角度来看，大数据证据具有信息全覆盖的趋向，能够为司法裁判提供有关构成要件事实的全方位数据信息。在此，我们以英美法刑事诉讼程序所依赖的证人证言这一证据形式为例，来观察在锁定证人伪证等问题方面大数据证据的预期价值。在震惊美国的凯西案中，被控谋杀自己女儿的被告人的母亲辛迪作证称是自己检索过“氯仿”关键词，因为怀疑自己的宠物吃了大量竹叶而生病，而竹叶中可能含有氯仿，所以上网查证留下痕迹。但指控方坚持认为是被告人凯西使用氯仿这一化学药剂使被害人陷入昏迷，继而实施谋杀，并举证说辛迪工作总部保存的辛迪工作电脑的出勤记录显示该关键词的检索时间，即2008年3月28日下午2点到5点，辛迪一直坐在自己的工作电脑桌前。最终，法庭既没有否定控方证据，也没有认定辛迪的伪证，而被告人凯西被无罪释放。本案中，如果存在关于被告人母亲在工作地点实际工作的动态大数据信息，则可以直接证明被告人母亲的伪证行为，并排除证据之间的矛盾。

而且，大数据证据还可以避免对于证言来说常见的外部影响，在大数据证据出现之前，法官经常会陷入因并无直接关联的外部因素的影响而导致的证据取舍困境。以辛普森案为例，该案控方核心证人福尔曼警官作证称，自己在第二现场即被告人辛普森家的车道上发现血迹，此外还在第一现场即被害人妮可的屋内发现一只黑色皮手套，上面检测出有两名被害人及被告人辛普森的血迹。同时，福尔曼称自己在作证之前的10年间从未用过“黑鬼”这个词来形容黑人。于是，律师通过与“是否曾经使用黑鬼一词”这一与本案无关的问题的交叉询问否定了福尔曼警官的所有证言—律师向福尔曼提问：“在1985年或6月的某个时候，你称一位非裔美国人为‘黑鬼’。是否可能是你自己忘记了呢？”福尔曼回答：“不，这是不可能的。”律师接着问：“你是在说你过去十年没有用过这个词吗，福尔曼警官？”福尔曼回答：“是的，正是这个意思。”律师又问：“你发誓说，在过去的十年里，你并没有把任何黑人当作黑鬼，也没有把黑人说成是黑鬼，福尔曼警官？”福尔曼回答：“正是这个意思，先生。”律师继续问：“所以，如果有人在这个法庭上宣称你曾称非洲裔美国人是黑鬼，他一定是骗子，对不对？”福尔曼回答：“对的。”其后，律师播放了一段录音，该录音显示，福尔曼曾反复使用“黑鬼”这个词41次。由此，福尔曼后来被控伪证，其关于辛普森一案的全部证言受到质疑，并成为导致检方最终败诉的主要原因。在此，我们看到整个案件证明程序陷入两难境地，而非简单的证言本身的虚假问题。因为，如果我们选择接受这些证据，整个证明体系的真实性必然会受到严重质疑。但是，如果我们选择全盘否定并全部排除这些言词证据，就会使我们离还原案件事实真相更远一步，正如检方在结案陈词中指出的那样，即使福尔曼是个种族主义者，这也不应影响证明辛普森有罪的证言的可信度。而大数据证据的出现，则可能改变英美诉讼程序长久以来对证人证言的上述路径依赖，从而有效避免由此导致的因证人品格等问题而引发的证明偏离现象。

由此可见，大数据具有的捕获、收集、存储大量信息的功能，使得诉讼中的大数据证据可以全面反映案件构成要件的相关事实，从而使得案件的争议焦点更清晰，疑点、难点更易得到确认。当然，这样的证据信息量也就必然需要人工智能技术的匹配，也就是说，大数据证据需要提供给人工智能进行分析识别。而更近一步，未来将会通过各种机器视觉、深度学习，自动识别案件诉讼材料，提取其重要信息并归纳整理、综合研判，直至自动生成裁判建议，从而有可能在大幅缩短审理期限的同时，实现彻底解放法官的诉讼变革图景。也许，被当代法律人一再嘲笑的马克斯·韦伯的梦想—“理想的司法模式犹如一台自动售货机，投进去的是诉状和诉讼费，吐出来的是判决和从法典上抄下来的理由”—将在大数据证据语境下被重新审视。

然而，大数据证据提供给人工智能进行分析识别，将司法工作人员从诉讼材料中解放出来的变革图景，其背后其实隐藏着人类法官被彻底取代的危机。大数据为什么需要匹配人工智能？因为人工智能可以用传统人类无法处理的方式来处理大数据集，也就是说，人类法官是无力处理这些大数据证据的。首先，许多大数据信息都是以非结构化数据的形式存在的，且跨越大量学科门类，这对于人类法官而言是无力应对的；其次，大数据具有复杂、海量、多样的特点，这就意味着大数据提供的事实信息越多，数据量就越多，碎片化的信息也就越大，而这种碎片化的信息对于人类认知是没有意义的，但对于人工智能而言则并非如此；而更为关键的问题在于，从语言学的本质视角来看，人类思维的语言是线性结构的，而大数据则自始就是网状结构的。大数据思维和人类思维是完全不同的两种思维。英国学者维克托评价说，“认识论意义上大数据分析运用的相关性理论是超脱于人类经验判断的‘数据经验’”算法作为特有的人工智能分析方法，缺乏人类认知意义上的“规律”可循。因为这是一种机器算法，而非人类算法。例如，美国沃尔玛超市的大数据分析显示，每到周末来购买啤酒的人高概率的会去买尿不湿。而包括沃尔玛超市的数据分析人员在内的我们所有人，却始终认为啤酒和尿不湿是两个完全不相关的商品。上述案例所反映的原理正是大数据与传统人类裁判者思维的不同，前者关注证据信息间的相关性，即被量化后的证据信息间的数值关系，它面向“结果”，直接给出实质判断，也就是说，它直接将判断结果摆在我们面前，而人类更关注原因，即裁判的理由、分析的过程，并且不能接受一种不处于因果关系解释链条中的“结果”。其实，大数据可能预测犯罪，甚至在临时起意的犯罪中，连行为人自己尚不确切知道自己下一步会做出什么行为的时候，大数据却可以提前知晓。这其中的原理就如同大数据能够准确的预知周六傍晚那个去购买啤酒的人百分之九十以上的概率会拿走那袋尿不湿一样。而其中的相关性，不适用因果关系证明逻辑，这种相关性，只有数据显示的结果—一种可以高于排除合理怀疑证明标准的数据结果。而这也就意味着，在以剧烈冲突为特征的刑事犯罪中，在事实真相常常会与我们一般的常识经验和理性逻辑相背离的疑难复杂案件中，会出现当人工智能已经认定根据相关大数据证据已足以定罪，而我们的法官却抓着犯罪构成要件，尤其是其中的因果关系不放，因为法官的思维无法理解啤酒和尿布之间的关联性。因此，面对如此复杂的大数据证据，传统的庭审程序是无法应对的，继续使用传统的法官方法分析这些数据证据已不可能。因此，最终没有能力接受复杂、海量、多样的非结构化大数据信息的人类法官，也就没有资格以此为基础进行审查判断，而惟一有能力进行此项裁判的，只能是接触过所有大数据证据信息的人工智能。这其实是神判司法早已给就我们的启示—面对深不可测的神示证据信息，不存在实质意义上的人类裁判者，司法官员应当被严格限制在形式上的庭审主持之中。

四、程序规制视角下大数据证据的排除规则

正如前文所述，“神判的功能主要是在穷尽其他证明方法无法证明案件事实、法官对事实存在与否不能达到确信状态时，作为最后的救济手段。”大数据证据也同样是在控辩双方争执不下的疑难复杂案件中适用，也就是说，在被告人既没有认罪，法官也无法依据普通证据作出裁判时。并且，这时大数据证据适用的结果，一如神示证据，应为双方所直接接受。因此，将来司法审判最为重要的变革就是，大数据证据时代将不再存在主观性证据时代控辩双方各执一词、互不相信的情形，由于存在大量客观的电子数据累积，使得双方信服的第三方证明体系被构建，从而让案件的裁判结果变得明朗化，使得双方都能心悦诚服的接受最终裁判。也就是说，大数据证据审判再次实现了一种超越于人的审判，恢复了神明裁判中双方共同认可这一诉讼功能。

但是，大数据证据面临着一系列检验困境。首先，大数据证据的海量性就导致其本身的不可检验性，现在“每一天我们创造出250万的三次方比特的数据”，这样庞大的数据量不仅对于往往形单影只的辩护方而言无力查验，就是对于有着公权力资源保障的控诉方而言，也同样无能为力。其次，大数据计算处理过程极为复杂，无论是裁判者还是当事人，都不可能对其有确切的理解。更为重要的是，大数据证据的数据处理过程是不可见的，众所周知，算法本身是不公开的，但是，即便公开算法，对于具体案件中控辩双方当事人来说，也没有意义，因为后者不可能也没有必要去分析算法本身的问题。也就是说，双方当事人不仅不可能分析大数据证据本身，也不可能分析算法本身。因此，如果对大数据证据的原始数据信息，尤其是对其数据处理过程进行修改，导致数据信息处理发生变化并影响最终结果时，这种影响将无法通过人类理解的因果关系规则进行反向检验。如前所述，因为大数据证据所提供的信息结论，并不以因果性为基础，它所呈现的只是数据之间的某种相关性，这种相关性背后的逻辑关系或演绎方法是被回避的。也就是说，数据累积所显现出的关联性虽然是稳定的，但是我们对它的成因是无法解释的，因此也就无从质疑和检验其最终结果。最后，大数据证据的处理结果是一体给出的，就是说，在人工智能的驱动下，无论是案件的事实认定，还是刑罚的处遇，都一并给出，这种打包给出判决结果的判决形式，更进一步加剧了案件当事人对诉讼结果的检验困难。

由此可见，对于大数据证据这种新型证据形式必须针对其上述特殊性予以专门的外部程序规制。事实上，由于大数据证据的运行完全由人类设计和控制，那么就必然会引发控辩双方对其运行程序和最终结果的担忧。例如，从事调查报道的非盈利性新闻编辑机构ProPublica在对COMPAS的评分体系进行研究分析后就指出“黑人被告人有45%的可能性比白人被告人得到更高的评分”。事实上，由于神示证据具有的过程神秘性和结果不可解释性，尤其是过程和结果之间的特殊关联性，使得神判司法的全部过程一直遵循严格的程序规制。表面上看，神判司法的当事人双方都尊重判决结果的原因在于法律源于神意，以及人们对神的誓言的笃信，“誓言使多少事情得认定，它的圣洁性多么富有效力。”而其实根本的原因在于，“神判的整个过程包括神判的启动、进行、结果的得出乃至对神判结果的解释等都是在双方参与的情况下公开完成的”，这才导致不仅是举证一方认可己方证据，对立方同样相信其证据。“把一个人投入水中，或沉或浮一目了然；手是否被烫伤更是不言自明。这些明白清晰的现象，任何人都无法随意解释。”在这里，虽然对结果的解释是确定的，任何人都无法随意解释，但是，将一个人投入水中或者烫伤他手的过程和最后将其定罪的结果之间的关联性是人们都无法理解的，也正是这种“不可理解”，导致必须要求神判司法遵守严格的证据公示和程序透明原则，包括对当事人的行动、时间、强度等所有方面都必须公开。由此可见，要想实现前文所述的大数据证据的变革图景—“双方信服和裁判结果明朗化”，就必须以大数据证据的严格程序规制为基础，只有让大数据证据遵循严格的程序规制，才可能让“双方都心悦诚服的接受最终裁判”。具体而言，虽然公开全程大数据运算过程没有可能，也没有意义，但是将裁判者和当事人能够理解的大数据证据的外观处理过程予以公开，保证整个运算过程外观的程序透明，并且对该算法系统过往的错误率进行全面公示，则是必要的外部程序规制手段。例如，如果该算法系统的错误率如果超过10%，也就是超过我们传统的最高证明标准的话，就应当引发对该大数据证据的整体排除程序。笔者认为，大数据证据以往算法结果的错误率、错误纪录及其具体信息，以及以往错误产生之原因等数据信息必须予以公开，并且双方当事人可以就此问题获取专家的意见和解释，也就是说，不仅要在个案程序中实现程序公开，而且在纵向的倒查程序中，也要实现对数据信息以往算法错误率的相应追溯，从而保障对大数据证据这样一种复杂证据形式在程序意义上的特殊外部规制。而这，也正是我们应从神明司法中借鉴的基本原则之一，同时，这也将成为未来智能司法所将承受的考验之一。

相应的，如果违反这种程序规制，则应当设立必要的程序性制裁措施，即专门针对大数据证据的排除规则。这种制裁规制不同于我们熟悉的现有的英美法系的非法证据排除规则。已有的英美法系的非法证据排除规则主要指向对言词证据虚假性的警惕，其关注点主要在非法言词证据的排除上—“在目前确立的非法证据排除规则中，无论从排除的对象还是从排除的力度来看，非法言词证据都是非法证据排除规则针对的首要目标。”然而，基于大数据证据的排除规则，则应更多的着眼于整体物证形式及其相关程序，成为一种专门针对整体物证形式的一体的排除规则。也就是说，大数据证据中没有受到程序污染的证据信息，如果因为其他证据信息受到污染，那么基于大数据证据间高度的相互关联性特点，所有大数据证据只能一并予以排除。

事实上，在排除规则的适用上，神示证据有着不断丰富其严格程序规制的历史：从起初要求的语调平稳、不得口吃，不得错用或忽略任何一个词，到其后对仪式和场所以及出席人数的要求，再到后来，任何形式的犹豫或惶恐都会被直接认定为诉讼的整体失败。这正如马克斯·韦伯所评价的那样：（在神判司法时代）如果相关的问题没有以规定的准确形式表达，魔术（指神示证据）就不会提供正确结果。由此可见，对于大数据证据这一凭借人力已然无法认知的新证据形式而言，需要一种并非针对单个物证瑕疵而言的特殊的程序性制裁规则，而这一规则尚需不断细化和完善，其体系化的构建任重而道远。

除此之外，大数据证据带来的更为不可思议的变革则是对犯罪的预测。犯罪预测一直是犯罪学研究的重要问题，现在，借助大数据，不仅可以实现不同于传统证据事后收集程序的瞬时证据传递，不仅可以对犯罪群体和可能发生犯罪的重点区域进行监控从而得以预防犯罪，还可能通过对个体过去表现的解释来预测未来发生的行为，实现之前只能尝试通过颅相学或神经科学进行探索的犯罪学努力。在大数据证据语境下，通过分析当事人以往日常行为和使用习惯，利用云计算、搜索引擎和“非结构化数据”等分析手段，分析包括用户日常使用的文本文件、电子邮件、图片、视频、语音等数据信息，甚至可以通过植入或感应的方式，深入人脑，直接读取和分析人类大脑信息。因为未来的人工智能是一个万物之网，现实中见到的一切具体事物，都是这个物联网的某个节点和终端，人的行为、物的流转，甚至通过激素水平表现出来的人的情绪，都是数据。由此，大数据将为我们临摹出一幅全息犯罪影像，这幅电子数据证据拼图，就可能在犯罪尚未发生之时，实现对个体犯罪的独立预测。

最后，如果未来大数据在犯罪尚未发生之时，就拼接出犯罪的全息图画，即可以预测犯罪，那么接受大数据证据的裁判甚至预测，其实在法哲学的层面上拷问着这样一个根本问题，即这种在犯罪发生之前就完成了其“证明”的预测，如何继续秉持我们对犯罪人存在自由意志的假设。也就是说，如果预测即证明，那么大数据预测的同时也就完成了的案件事实的证明过程，将必然颠覆作为个体承担法律责任之基础的自由意志假设。因此，这其中更为深层的问题在于，这种预测必须建立在一种新的审判信仰之上，即一种基于大数据的人工智能审判的新信仰。过去，人们曾拱手将审判权交于神意，是因为认可他们高于人类，那么，当大数据证据出现，并带来客观预测结果，人们是否能够接受让与这个新的万物之灵以判断之匙？

综上所述，神示证据对新的大数据证据具有多重启示和借鉴意义，在前文重点分析的基础上，可以进一步总结如下：具有一系列程序价值的神示证据，在大数据证据遭遇算法质疑、尤其是其中的因果关系质疑的情形下，可以借鉴神示证据的全程公开和严查作弊等程序特点，来保障其算法的可接受性；对于人类法官无法理解的非结构化数据及网状运行结构等问题，可以借鉴神示证据，将裁判人员严格限制于形式上的庭审主持之中；借鉴神示证据的程序透明原则，可以消解大数据证据由于其数据隐秘性、处理方法模糊性等局限带来的控辩双方信赖性问题。

你在这里