许可:数据爬取的正当性及其边界

一、问题的提出

在世界数字化转型的格局下,“数据”已跃升为与土地、劳动、知识并驾齐驱的关键生产要素。2021年3月,第十三届全国人民代表大会第四次会议批准并发布了《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》,“统筹数据开发利用、隐私保护和公共安全,加快建立数据资源产权、交易流通、跨境传输和安全保护等基础制度和标准规范”成为我国直面数字时代的顶层设计。如果说“数据的价值是其可能所有用途的总和”,那么,旨在实现数据再利用(re-use)的流通机制自然成为数据要素市场的重中之重。
数据流通机制包含两种不同路径:一是多方基于合同安排,通过“开放应用端口”(open API)进行的数据共享;二是一方通过爬虫软件自动抽取他方数据库数据,其表现为“网页抓取”(web scraping)、“屏幕抓取”(screen scraping)等数据爬取形式。不论是数据共享还是数据爬取,实践中均已衍生众多法律纠纷。其中,数据共享以“各方合意”为前提,相关争议的化解可诉诸合同规则,2016年“新浪微博诉脉脉不正当竞争案”和2019年腾讯就“微信昵称、头像、好友关系链数据”诉抖音、多闪不正当竞争案即为适例。相形之下,作为单方发起的“非合意数据流通”,数据爬取引发的讼争更加频繁和激烈。从2016年“大众点评网诉百度不正当竞争案”,到2017年“深圳谷米公司诉武汉元光公司不正当竞争案”,再到2019年“新浪诉饭友不正当竞争案”,数据爬取已成为数据之争的主战场。随着数据中蕴含的个人信息权益、经济利益和公共安全问题的凸显,数据爬取的“刑事化趋势”也开始出现。自全国首例爬虫行为入罪案“上海晟品网络科技有限公司、侯某某等非法获取计算机信息系统数据案”到2019年天翼征信、杭州存信数据、新颜科技、魔蝎科技等多家数据公司被公安机关查处,数据爬取正遭遇一场整治风暴。
作为数据流通的主要途径之一,数据爬取的历史与互联网的历史一样长久。就此而言,如何妥当划定数据爬取正当性边界,不但关乎各方权益,更关乎网络空间数据流通的大局。遗憾的是,由于《民法典》第127条对数据仅作了宣示性规定,数据爬取的规制不得不诉诸泛化了的《反不正当竞争法》第2条暨“一般条款”以及《刑法》中的非法获取计算机信息系统数据罪或侵犯公民个人信息罪。私法规则的缺失使得数据爬取陷入动辄得咎的困境,严重阻碍了数据流通。在《数据安全法》《个人信息保护法》制定的历史关口,这一问题显得越发急迫而重要。为此,本文试图跳出数据权属进路的窠臼,运用权益权衡的方法,在数据类型化的基础上,细化并比较数据爬取方和被爬取方的权益,发现“社会福祉最大”或“社会伤害最小”的数据爬取规则,以期有裨于我国立法。还需说明的是,虽然本文聚焦于对数据爬取的私法反思,但基于刑法谦抑原则,相关结论同样有助于有罪无罪的刑法判断。

二、数据爬取的私法进路:从“权利界定”到“权益权衡”

(一)数据爬取中的权利界定
如欲止争,莫过于定分,此即“权利”界定之目的。其中的经济逻辑至为简明,即面对有限资源,民众必然竞相攫取其租值,若无定分,则各方为所欲为,一方面相互争斗,内耗成本陡增;另一方面诱发过度利用,终令资源耗费殆尽,其不良后果即所谓“公地悲剧”。循此,数据爬取纠纷可视为因数据权属不明所引发的数据争夺之一,而解决之道无疑是明确数据权属。然而,关于数据权属的讨论,学界至今聚讼纷纭,司法判决亦无定论。不论是数据个人所有、平台所有、个人与平台共有,抑或数据归属于公众的观点均在一定程度上言之成理,但也面临着难以普遍化的质疑,因而不能当然地适用于数据爬取这一特殊场景。
1.权利进路的不足
其一,数据的事前界权成本过高。数据的共同生产特征、互动性和流动性,使得立法者难以在不同主体之间清晰划定数据权属。以智能交通为例,联网汽车所收集的道路、交通和驾驶行为数据究竟归属汽车所有人、汽车使用者、汽车制造商、感应器制造商、导航服务提供者,或是建造道路的政府?至今远没有形成共识。不仅如此,鉴于数据来源的多元归属(multi-homing)、易复制性与使用上的非竞争性,多个主体针对同一数据均能主张不同权利,这令在特定数据上建立特定主体排他权的努力困难重重。但是,这并不意味着数据无法界权。因为界权并非只能通过“立法”的方式,法院在具体情景下的事后判决,甚至诉诸社会规范和商业惯例的权利定分,均是数据界权的可能方式。
其二,即便能够界权,也无法明确数据权利的具体内容。将数据想象为有体的物,进而将数据权属想象为对数据的所有权,是常见的误解。正如科斯在《联邦通讯委员会》一文中指出:无线通讯的财产权利,与其说是电波的所有,毋宁说是“可以特定方式使用设备发送讯号”。这是因为,电波就其物理性质而言,本就相互干扰,试图通过确定权属来完全去除干扰是不可能完成的工作,亦非社会之所欲。财产法处理的现实问题历来都是:如何将一宗财产上潜在的各种利用机会在不同的使用人之间进行分配,以使得各使用人之间能够并行不悖地利用该宗财产?对此,不妨用科斯所举示例说明。就法律是否允许枪弹越过他人土地的问题,如果仅仅着眼于是否侵害他人土地所有权,只能徒劳无功。因为,即使是为了吓跑林地供人打猎的野鸭而在自己土地开枪,也属于所有权的滥用。据此,关键不在于权属,而在于枪支使用的限制。以此观之,数据归属于谁和谁对数据享有何种权利之间有着难于逾越的鸿沟,希冀通过数据权属解决爬虫问题,往往治丝益棼。
其三,即使能够确定数据的权利内容,也无法回答在数据爬取中何方更应受到保护。一旦从静态的“归属于谁”视角,转向动态的“行为为何”视角,我们就能发现:数据的权利是多元化和场景性的。它们正如一个个木棍(sticks),每一个都是独立而平等的存在,同时,每一束权利互不隶属,无法通过先定的、绝对的位阶高低来确立优先保护对象,而只能在实际情景中对各方当事人的权益实施具体比较后才能确定。那种“假定某人是所有权人,然后便开始寻找这个人,最后宣布他受到绝对保护的做法”是错误的,因为争议的焦点不是数据的权利归属,而是确证何者享有更优、而非最优的权利。而这,只有在实践场景中综合考量各种要素,方可最终确定。
2.权利进路的转变:以美国法为例
在作为互联网先发国家的美国,数据爬取所引发的争议已经超过20年,而其中展现出了鲜明的发展脉络,即从强调被爬取方的单方授权,向权益权衡的进路转变。《1986年计算机欺诈与滥用法》(CFAA)第1030(a)(5)(A)(2008)条是美国规制数据爬取的主要条款。根据该条,“未经授权”故意访问计算机或超过授权访问权限,从任何受保护的计算机获取信息;或者“故意造成程序传输,并且对未经授权且受保护的计算机造成损害”均构成违法行为。在西南航空诉Farechase公司的案件中,西南航空公司主张其在每一个网页均明确警告并禁止数据爬取,Farechase公司爬取数据的行为违法,并最终获得法院的支持。不过,这种将“授权”简单诉诸被爬取方单方声明的做法,日益受到法院的挑战。2013年,在世界最大信息分类网站Craigslist诉 3Taps公司一案中,被告从Craigslist处爬取并聚合广告信息进行二次展示,Craigslist提出:用户协议的使用条款有禁止爬取的明确内容,被告的爬取行为应予禁止。然而,法官并不认同该条款对被告的拘束力,却转而认为:Craigslist已经明确告知被告不得“出于任何原因”访问其网站且设置了技术壁垒切断访问的行为,足以认定3Taps公司的爬取系“未经访问”。在判例变化的背后,是美国法院对数据爬取的态度变迁:从最终用户协议、网页上的警告、弹窗、产品或服务备注等事前明示措施,到密码认证以及事后的函告、技术手段,“未经授权”的司法门槛日益严格。
2019年,hiQ Labs诉领英公司禁止其数据爬取案尘埃落定,标志着美国法院已突破权利路径的思维,将公共利益引入数据爬取的权衡之中。美国第九巡回上诉法院认定:鉴于领英数据访问权限的默认状态是允许自由访问的,即使领英后续禁止hiQ Labs获取领英用户的公开信息,hiQ Labs的行为也不构成“未经授权”。法院进一步指出:作为一家为客户提供雇员评估服务的公司,hiQ Labs的服务基础是对市场上公开获取的数据进行统计分析,如果允许拥有大量公开数据的领英公司选择性禁止潜在竞争者获取这些数据,则将造成不公平竞争的结果。该案彰显出:被爬取方单方意思和技术措施不再能发生法律上禁止他方数据爬取的效果,其对数据的封闭将面临反不正当竞争法、宪法第一修正案、开放互联网之公共利益的挑战。
(二)数据爬取中的权益权衡
与权利界定进路迥异,数据爬取的权益权衡主张在规制数据爬取之时,暂时悬置数据权属的争议,转而对数据爬取的事实和后果作实质性思考,并基于社会福祉的衡平测试(balance test),作出审慎的判断。如果说权利界定进路将权利视为实体法事前确定的“实质性权利”,那么权益衡量进路则持一种“程序性权利观念”,即将“权利”看作有关其产生、解释、适用和实施的动态过程和运行程序中的规则和原则体系。就此而言,权益权衡进路体现了拒绝概念和一般原则的“后果论”态度;另一方面,它所关注的后果并非个案中当事人的胜诉或败诉,而是裁判规则所确立的规范性行为模式的社会意义,由此与个别司法(ad hoc)截然不同。还需补充说明的是,权利界定进路并未完全排斥权衡,事实上,《民法典》第132条“权利不得滥用原则”同样发挥了划定权利正当性边界的功能。不过,该原则强调权利人的主观恶意和客观违法后果,而权益衡量并不考虑权利人的心理状态,仅根据比例原则予以利益平衡,故两者仍然是相对独立的法律方法。
1.数据爬取的正当性
数据爬取权益权衡固然源于权利界定进路的不足,但究其根本,它建立在一种更深刻的认识之上,即蕴含于数据爬取中的数据自由流通是数字社会的重要价值。在历史上,作为事实的符号化呈现,数据一般被认为处于公共领域,是任何人可以收集、运用的公共资源。即使在知识产权出现之后,事实或思想也没有纳入法律保护的范围,任何人对事实、数据或碎片化的信息均不享有权利。在此情形下,基于本身的开放性、公共性,数据通过自由流通来实现社会化利用。随着互联网的到来,网络空间互联、互通、互动的特征进一步强化了电子化数据的流动。“互联”(interconnectivity)意味着网络运营者应在“认证”和“兼容”的条件下达致计算机、局域网、万维网之间的互联互通。凭借着“端对端”(end to end)的设计原则,现实空间的无数主体可以利用互联网实现彼此间数据的瞬时流动和无缝共享。互联网这种技术架构从根本上颠覆了传统“点到面”的信息传播方式,实现了海量信息的开放式传递。由此,在时空压缩的网络空间中,“互通互动”成为网络数据的底层逻辑。
作为一种新型生产要素,数据价值的发掘有赖于数量上的规模(volume)、类型上的多样(variety)和流通上的高速(velocity)。数据碎片化分布在信息空间、物理世界和人类社会三元结构中,为了全面刻画人、事、物的面貌,需要充分发掘和利用海量、异构、多维数据之间的关联,并在此基础上实现数据的交织性(hybrid)和超维性(hyper)。这一从“孤立数据”到“全局数据”的过程,不但令数据变得更丰富、更精确,而且为人人之间、人机之间的深度融合奠定了基础。一旦“数据”转变为“数聚”,在“涌现性”(emergence)的作用下,数据由小生大,由简入繁,一些独立于个别数据的整体特性开始出现,换言之,数据的聚合绝不是1+1=2的加总,而是通过相互作用不断演化,生成了1+1>2的新结构。就此而言,数据已经不再是事实的映射,而是能够指导当下、预测未来、引领发展的“数据洞察”(data insight)。在涌现性的“一般演化框架”下,数据经由流动的复制、连接、分解、再组织和适应性学习,完全有可能诞生出前所未有的“数据智能”(data intelligence),它与大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术结合,赋予我们探求数据空间中未知部分的能力,在之前彼此隔绝的领域里孕育出巨大的机会,推动世界的数字化转型。
数据自由流通原则已经被国际规则和各国法律所认可。联合国教科文组织(UNESCO)宪章第1(2)(a)条中“运用文字与图像促进思想之自由交流”这一观念,构成了互联网时代的基石。在美国,认为“数据即言论”(data is speech)的观点渐成主流,在“邓白氏诉格林莫斯征信公司案” 以及后续一系列案件中,美国最高法院指出,创造、传播、出售、使用信息属于宪法第一修正案的保护范围,信息数据的自由流通(free flow)对于市场和社会而言必不可少。恰如美国哈佛大学教授本克勒教授所言:“信息应当可以自由交换,而不是维持封闭性。”在大西洋彼岸,欧盟《一般数据保护条例》(GDPR)第1条就明确将“个人数据自由流通”列为与“个人数据保护”同等重要的立法目标。GDPR的“数据自由流通原则”(data free movement principle)在欧盟《非个人数据自由流通条例》(Regulationon the Free Flow of Non-personal Data)中被重申。欧盟相信,数据的自由流通将在实现数据驱动的增长和创新方面发挥重要作用,为此应根据透明度和互操作性原则,制定欧盟自律行为守则,在数据开放标准的基础上发展有竞争力的数据经济。我国《数据安全法(草案)》第10条亦旗帜鲜明地申明了“数据跨境安全、自由流动”的基本原则。在“北京微梦创科网络技术有限公司与云智联网络科技(北京)有限公司不正当竞争案”中,我国法院亦对数据自由流通予以认可,指出:“基于互联网领域公平、开放、共享和促进信息自由流动的原则,其对某些搜索引擎机器人所釆取的阻断行为,应当有正当、合理的理由”。
数据爬取是实现数据流通的重要方式。作为自动提取网页的程序,数据爬取所使用的数据爬虫(web crawler)是搜索引擎须臾不可离的工具,甚至可以说,倘若没有数据爬取,用户必将迷失在浩如烟海的互联网信息之中。同样,对于中小企业而言,数据爬取有助于它们接触到单凭一己之力难以获得的数据资源,从而越过规模效应的天花板。当今,数据爬取早已超出搜索引擎的单一功能,开始向风险控制、税务稽查、财务审计、精准营销、舆情分析、内容分发、网络态势感知以及科学研究等领域迈进。在某种意义上,数据爬取帮助我们采取行动,而不只是获得碎片化的信息。正因如此,数据爬取在网络数据流通中占据着相当大份额。美国著名网站Law360统计指出,2013年,数据爬取占据网站访问量的18%,占互联网总流量的23%。截至2017年4月,在英文网站中,排名前三的流量分别是Google、YouTube和Facebook,而汇总不同来源的数据是它们成功的关键。在我国同样如此,腾讯安全云鼎实验室数据显示:2018年,中国互联网上真实用户流量只有57.8%,机器爬取流量高达42.2%。
2.数据爬取权益vs拒绝数据爬取的权益
数据爬取所蕴含的数据流通价值赋予其正当性。据此,对数据爬取方而言,数据爬取未尝不是一种应受法律保护的权益。可是,“甘瓜苦蒂,物无全美”。数据爬取在最大化数据价值的同时,也引发了一系列消极后果:网络流量过载、未经授权地收集个人信息、企业数据被不当复制和窃取、破坏安全防护入侵网络,不一而足。正如梅夏英教授所指出的:数据分享并不是无条件的,基于分享的“互惠”才是互联网赖以生存的基础生态规则。所以,数据爬取权益的另一面,是对数据爬取的有条件限制,或者说是被爬取方拒绝爬取的权益。
当认识到数据爬取和拒绝数据爬取都是法律权益之时,我们自然就能摒弃庇古的经济学,即以定理式或推定(prima facie)认为造成损害的数据爬取方应负责任,并回到科斯“权益/损害相互性”的框架下。简言之,造成损害的人,不一定要负赔偿、缴税或禁止活动等法律责任,因为这是两个不相容活动之冲突,若是造成损害的活动价值高,则造成损害之人则有理由不承担不法责任。在权益相互冲突的环境下,数据爬取还是不爬取都是相互性的。从数据被爬取方的视角看,数据爬取给他带来固有利益损害;但从数据爬取方的视角看,为了避免给数据被爬取方造成损害,就会导致自身积极利益减少。因此,问题的关键在于:是允许数据爬取方损害数据被爬取方,还是接受数据被爬取方损害数据爬取方?显然,答案绝非简单的是或否,而应揆诸具体场景,作出适切判断。为避免裁判的恣意,落实论证责任,建立可信赖的法之预期,下文尝试着借鉴德国法学家罗伯特·阿历克西的“权重方程”( weight formula),为数据爬取的权衡建立一个统一的分析架构。

三、数据爬取中权益权衡的分析框架

(一)权益权衡的思考基准
法律如何化解数据爬取权益和拒绝数据爬取权益的冲突?在法律经济学看来,答案至简:权益的配置当以社会福祉最大化为鹄的。社会福祉的判断有两种标准可供选择,一为“帕累托效率”(Pareto Efficiency),即若采取某项措施可以增加一些人的福祉,却没有人的福祉因而减损,质言之,有人受益但无人受害,就是有效率的;二为“卡尔多-希克斯效率”(Kaldor-Hicks Efficiency),即若采取某项措施会导致有人受益而某些人受害,但只要总社会利益(或边际利益)高于总社会成本(或边际成本),就是有效率的。由于“卡尔多-希克斯效率”假定了受益者“有可能”补偿受害者,它又被称为“潜在的帕累托效率”。在数据爬取权益冲突的框架下,爬取方和被爬取方往往是零和博弈,不太可能出现帕累托效率的局面。由此,通盘考量各方所获得净收益的“卡尔多-希克斯效率”便成为数据爬取权益权衡的基准。用科斯的话来说,是允许甲损害乙,还是允许乙损害甲,判断标准的关键在于避免较严重的损害。
当我们从收益最大化的波斯纳进路,转向成本最小化的科斯进路之后,相关理论分析不但更具操作性,而且能与公共哲学中的“最小伤害原则”相吻合。正如阿罗“不可能定理”所揭示的,任何民主程序都无法保证完美反映出多数人的偏好,因此,与其满足多数人的利益,毋宁将受损者的损害降到最低,从而使公共选择的利益分配尽量接近和谐和公正,并进而有效地促进社会合作。其内在理由是:人们“不要什么”比“要什么”更重要,前者涉及安全和自由,后者涉及奢华利益的增长。“最小伤害原则”事实上遵循着古老的中国智慧:“两害相权取其轻”。
(二)权益权衡的法学方法
区别于普遍运用的“涵摄”,权益衡量的方法是权衡。所谓“涵摄”,即将个案置于法律规则之下,从前提中演绎出法律判断。与此相反,“权衡”基于法律原则,而非法律规则。如果说法律规则是明确的命令,其适用是“全有或全无”(all or nothing)的,那么原则则有着分量的意义,作为一种“最优化命令”,其要求在事实上与法律上可能的范围内最大可能地被实现。确定一个原则相对另一原则所能实现的适当性程度的方法就是“权衡”。原则权衡和权益权衡异曲同工。正如德国法学家拉伦茨所指出:“权利也好,原则也罢,假使其界限不能一次确定,而毋宁多少是开放的、流动性的,其彼此间就特别容易发生冲突,因其效力范围无法自始确定。于此,司法裁判根据它在具体情况下赋予各该法益的重要性,来从事权利或法益的衡量。然而,法益的重要性在立法上往往并不清晰,从而无法据此作出有效的衡量。因为受制于立法者的有限理性,立法的滞后性及社会关系的发展变化,人的确不可能依据哲学方法对那些应当得到法律承认和保护的利益作出一种普遍有效的权威性的位序安排。”普遍体系的不存在,使得权益权衡始终面临缺失理性、正确性、客观性的批评。为了回应这一点,阿历克西提出了“权衡法则”(Law of Balancing)。
在阿历克西的理论中,权衡法则与“狭义比例原则”(均衡性原则)密切相关,后者要求特定手段增进的公共利益与其造成的损害成比例,其本质上是一种目的必要性原则,旨在分析某个正当目的究竟有没有必要实现。在权益冲突的场景下,“权衡法则”被进一步表述为:在某一特定条件下,不能实现或侵害一种权益的程度越大,则实现另一种权益的重要性必须越高。根据该法则,权衡可以分为三个阶段:第一阶段是对一种权益不被实现或损害的程度判断;第二阶段是实现另一种相冲突权益的重要性确定;第三阶段要回答的是,实现另一种权益的重要性是否足以证明损害或不实现第一种权益是正当的。
(三)权益权衡的操作方程
权衡法则的提出只是完成了方向性的工作,为了使之更具可操作性,进而使得权衡结果更加具有相对客观性,可以借鉴法律经济学中成本收益分析方法,计算出一种权益实现的程度相对于另一种权益损害的比例值,这就是阿历克西的权重方程。
Wi,j= Ii·Wi·Ri/Ij·Wj·Rj
其中,Wi,j是指权益Pi相对于权益Pj的具体分量(weight),如果其大于1,则表明Pi优先于Pj,即在具体条件C下,权益Pi更应受到保护;如果其小于1,则表明Pj优先于Pi,即在具体条件C下,权益Pj更应受到保护;如果其等于1,则两者无法计算优劣,存在结构性权衡游动空间。Ii系采取措施实现权益Pj而对权益Pi的损害程度(interference),Ij亦然。Wi和Wj分别指与具体条件C无关的权益Pi和权益Pj自身所具有的抽象重要程度(weight)。Ri指在具体条件C下,采取措施实现权益Pi或者未实现另一种权益Pj在规范上及经验上的确定性程度(reliability),Rj亦然。为了能够更加技术性地考量,阿历克西用轻度(l)、中度(m)、重度(s)三个刻度来描述I、W、R的程度。显然,要想计算出Wi,j的大小,必须对l、m、s进行数学赋值。在“边际替代率递减规律”(law of diminishing marginal rate of substitution)作用下,当偏向一种权益时,其在边际上损害另一种权益的正当性就会逐渐下降。因此,l、m、s不可能是线性的等差序列,如1、2、3,而只能是幂次的几何序列。由于损害程度和抽象重要程度往往不断加深,故可用20、21、22表示其l、m、s。相反,规范上及经验上的确定性一般从“确定”“可成立”“非明显错误”一路走低,所以可用2-2、2-1、20表示其l、m、s。
权重方程中立足个案场景的损害程度(I)、权益抽象重要程度(W)、认识上的盖然性(R),使权益权衡有了约束框架和客观标准。从此角度出发,我们不妨将权重方程变换为如下等价式:Wi,j=Ii/ Ij·Wi/Wj·Ri/Rj,即“实体损害程度的权衡”ד权益抽象重要程度的权衡”ד认知盖然性的权衡”。由此,只需针对权益Pi和Pj相应的I、W、R进行一一对照,就能很容易得出Wi,j。
(四)数据爬取的权重方程
数据爬取的权益权衡同样应延续上述理路。简言之,数据爬取的法律规制应立足于社会福祉最大化的理念,数据爬或是不爬,不应仅从静态秩序和消极安全出发,而应认识到数据价值的动态实现,在数据爬取方和被爬取方之间,择受损害最大者保护。鉴于数据权衡所涉及的权益类型多样,在使用权重方程时,有必要从两大权益(Pi和Pj)冲突转向多种权益(Pin和Pjn)冲突问题,因此而得出“完全扩张之权重方程”:
W(i1+i2+…+in),(j1+j2+…+jn)=(Ii1·Wi1·Ri1+Ii2·Wi2·Ri2+…+Iin·Win·Rin)/(Ij1·Wj1·Rj1 +Ij2·Wj2·Rj2+…+Ijn·Wjn·Rjn)
最后必须指出,数据爬取权重方程的运用,不可避免地遭受到一种普遍的质疑,即由于对I、W、R的变量进行刻度赋值没有准确的标准,在赋值时存在较大的随意性,无论是判断抽象分量,还是确定损害程度和经验前提均存在很大的主观性。对该批评的简单回应是:如果不从法律适用的正确性,而是从“理由优先于结论”的法律论证正当性出发,不妨认为权重方程借助强度、权重、认知确定性这些定序变量的权衡,增加了说理的透明性和辩驳性,避免了价值分析的空洞化,由此增强了对思考者以及其他人的说服力,至少不会比其他人拍脑袋比大小更加草率。更重要的是,权重公式必须以前提条件的具体化为基础,这意味着相关数值的量化受制于现实,并可被现实所检验。但这并不意味着其思维方式是个案式的,相关结果可呈现出“类型效应”,从而对同类型的其他案件产生影响。基于此,下文将从数据爬取的不同场景出发,作出精细化的权衡。

四、数据爬取权衡方程的类型化

根据数据主体的不同,数据可分为企业数据、政府数据和个人数据。所谓“企业数据”,即企业在生产经营数据中生成、存储和处理的数据,包括元数据、引用数据、主数据、企业结构数据、交易活动数据、交易审计数据等。所谓“政府数据”,即由政府收集、储存和处理的数据,包括信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等领域的公共数据,也包括涉及军事、外交、国防领域、国家安全的秘密数据。所谓“个人数据”,即涉及个人信息的数据,是指以电子方式记录的与已识别或者可识别的自然人相关信息的数据。需要说明的是,上述分类只是韦伯意义上的“理想型”,事实上,同一个数据集往往同时包含多种类型数据。但是,这并不妨碍我们基于抽象分类,对数据爬取加以类型化权衡。
(一)对企业数据的爬取
企业数据是数据爬取最主要的对象,在此情景下,首先要厘清的是究竟有哪些相互冲突的权益?
1.数据爬取方的权益(Pi)
对于数据爬取方而言,其权益根源于数据自由流通的基本原则,并表现为数据再利用的权益(Pi)。正如维克托·迈尔-舍恩伯格和肯尼思·库克耶所指出的,大数据的价值不再来源于基本用途,而是源于其二次使用。在大数据技术中,人们将重新定义数据用途、重组数据集,进而创造全新数据利用机会的活动称为“反演数据”。2009年,在甲型H1N1流感爆发前几周,谷歌使用了亿万用户的检索词准确预测了流感发生的地区和州。在芝加哥,测算广告牌价值是又一成功应用:通信公司收集用户位置信息的主要目的是确定手机信号覆盖情况,但在新的场景中,广告公司通过采集在特定地点所有手机用户的信息,能计算出开车经过特定广告牌的人数,进而为商业决策提供依据。
数据再利用不只是商业的需求,更可能上升为法律权益。欧盟GDPR第20条确立了“数据访问与携带权”,据此,数据主体有权获取个人数据的副本,并有权将该等数据副本传输至其他方。针对个人数据之外的企业数据,德国马克斯·普朗克创新与竞争研究所特别主张欧盟应建立“数据访问权”。这是因为,在数字经济领域,特定市场参与者(如初创企业、供应商等)不具有自行生产或者收集这类数据的可能性,而生产或收集数据的公司,通常没有动力授权潜在的竞争对手访问它们的数据,致使前者无法获取研发新的或改进旧的产品或者服务所必需的数据。所以,在竞争法无法提供整体性解决方案的情形下,为第三方设立“数据访问权”是数据自由流通的正当要求。
2.数据被爬取方的权益(Pj)
数据爬取可能侵害数据被爬取方的一项或多项权益,按照从互联网物理层、数据层到信息层,最后到社会关系层的顺序,诸多权益包括:
(1)计算机信息系统安全(Pj1),即被爬取方有权禁止他人利用技术手段侵入计算机以及相关和配套的设备、设施(网络),以维护系统整体安全。
(2)数据安全(Pj2),即被爬取方有权禁止他人破坏、删除、妨碍他人正常访问数据,以维护数据的完整性和可用性。
(3)商业秘密(Pj3)。企业对其收集或生产的数据多主张商业秘密保护,例如,新浪微博《开发者协议》第1.6条约定:“用户数据指用户通过微博平台提交的或因用户访问微博平台而生成的数据。用户数据是微博的商业秘密”。但是,并非所有的经营数据都能成为“商业秘密”,其必须满足“不为公众所知悉、能为权利人带来经济利益、具有实用性并经权利人采取保密措施”的条件。
(4)著作权(Pj4)。数据经过集合和汇总,可能成为编辑物、汇编物、集合作品或合成作品,也可能是一般著作权在计算机环境下的底层代码。在2009年Facebook, Inc. v. Power Ventures, Inc.案中,法院认为,纵使所爬取的网页内容不受著作权保护,但由于爬虫必须暂时性复制显示网页事实内容之程式码,因此也可能涉及著作权侵权。
(5)数据收益(Pj5),即被爬取方因数据使用所获得商业利益。该“权益”在“淘宝诉安徽美景信息科技有限公司不正当竞争案”中,被法院以“竞争性财产权益”的名义所支持。对该权益的侵害在法律上表现为非因绝对权利受损而发生的“纯粹经济损失”,也就是因爬取方使用数据导致被爬取方财产价值稀释、利润下跌等金钱上的不利益。
3.双方权益的抽象重要程度(W)
法律的体系化结构为每一种权益大致安排了位置,从而可以通过位阶关系来化解权益之争,但在价值多元化和现实变动不居的当代,这种价值谱系必然是“柔性秩序”。这意味着不同权益的抽象重要程度在某些情形可被逆转,其只具有初步的优先性,在权衡方程中的I和R介入后,下位权益有可能超越上位的权益。数据爬取方的权益Pi和数据被爬取方的权益Pj3、Pj4、Pj5可归于效率和发展价值,数据被爬取方的权益Pj1、Pj2则属于安全价值,在《网络安全法》《数据安全法(草案)》确立的“安全与发展”并重原则下,两者系同等位阶。其中,商业秘密(Pj3)、著作权(Pj4)被《民法典》明确纳入知识产权的范围,而数据收益(Pj5)亦是数据利益之所在。同时,鉴于这里的安全或效率均不涉及基本人身权利,在法律体系中应属于中等重要价值。基于此,相关赋值如下:Wi、Wj1、Wj2、Wj3、Wj4、Wj5=2。
4.双方在特定条件(C)下的损害程度(I)和认知盖然性(R)
(1)数据爬取方权益(Pi)
数据爬取方不能爬取时的损害程度受制于数据来源是否唯一:当相关数据事实上或经济上不可能从被爬取方以外第三人处获得时(条件Ci1),数据再利用的权益荡然无存,其损害最大,Ii=4,在此情形下,对爬取方的损害具有高度认知盖然性,Ri=1(100%);相反,当相关数据可能从被爬取方以外第三人处获得时(条件Ci2),数据再利用的权益仍受到损害,但可以通过其他途径弥补,其损害中等或低度,Ii=2或1,在此情形下,爬取方损害的发生同样具有高度认知盖然性,Ri=1。
(2)数据被爬取方的计算机信息系统安全权益(Pj1)
数据被爬取方计算机信息系统安全权益的损害往往是“一失万无”,若爬取方采取UA、模拟软件接口等方式侵入被爬取方的计算机系统,或者采取避开、突破计算机信息系统安全保护措施的其他技术手段,未经授权或者超越授权去获取数据,则其损害最大且有高度认知盖然性,即Ij1=4、Rj1=1。
(3)数据被爬取方的数据安全权益(Pj2)
就数据被爬取方数据安全而言,其损害因爬取的频度、时间、数量的不同而有所差异,在一般情况下的爬取不对数据安全造成损害,但在“过度爬取”造成网站负荷过大,大量正常用户请求堵塞的情况下(条件Cj1),被爬取方的损害较大且认知盖然性高,Ij2=2、Rj2=1;若对数据造成破坏(条件Cj2),则极可能构成对数据安全权益的“严重侵害”,此时被爬取方的损害极大且认知盖然性高,Ij2=4、Rj2=1。
(4)数据被爬取方的商业秘密权益(Pj3)
对数据被爬取方商业秘密的损害大,Ij3=4,但其秘密性要件导致了其保护范围的不确定性,Rj3=1/2。
(5)数据被爬取方的著作权益(Pj4)
对数据被爬取方著作权的损害大,Ij4=4,同时,鉴于著作权的外延比较明确,其损害有着规范上和经验上的明确性,Rj4=1。
(6)数据被爬取方的数据收益权益(Pj5)
数据被爬取方数据收益所受影响因爬取方的数据使用方式不同而有所差异,考虑到数据“弱竞争性”特征,爬取方对数据的使用一般不会减少或损害相关数据的价值,但当双方存在竞争关系且“实质性替代”了被爬取方的经营内容时(条件Cj3),则会带来实际损失。例如,在“大众点评网诉百度不正当竞争案”中,法院认定:百度地图和百度知道大量使用大众点评网的点评信息,替代大众点评网向网络用户提供信息,会导致大众点评网的流量减少,攫取了大众点评网的部分交易机会。不过,由于其并未完全排除被爬取方的使用,故Ij5=2。此外,该等损害多是或然性的,其在经验上存在不确定性,Rj5=1/2。
5.企业数据爬取的权衡结果
将上述变量带入“完全扩张之权重方程”,经计算可得下述结果:
第一,在以下情形中,双方权益权重比W恒小于1,即被爬取方优于爬取方得到保护,此时应禁止爬取:(1)数据爬取方侵害计算机信息系统安全;(2)在条件Ci1下,爬取方侵害著作权或严重损害被爬取方数据安全或同时造成多种权益损害,且实质性取代了被爬取方的数据业务的;(3)在条件Ci2下,爬取方严重侵害被爬取方的数据安全或侵害著作权的。
第二,在以下情形中,双方权益权重比W恒大于1,即爬取方优于被爬取方得到保护,此时应允许爬取:(1)在条件Ci1下,爬取方未侵害计算机信息系统安全、数据安全、著作权(即使可能侵害了商业秘密或者实质性取代被爬取方的数据业务)的;(2)在条件Ci1下,爬取方未侵害计算机信息系统安全、著作权、商业秘密,亦未严重侵害被爬取方的数据安全(即使可能实质性取代被爬取方的数据业务)的;(3)在条件Ci2下,爬取方未侵害被爬取方的计算机信息系统安全、数据安全权、著作权、商业秘密,且并未实质性取代被爬取方的数据业务的。
第三,在以下情形中,双方权益权重比W等于1,即被爬取方和爬取方平手,裁判者可自由裁量:(1)在条件Ci1下,爬取方未侵害计算机信息系统安全,且未实质性取代被爬取方的数据业务,但严重损害被爬取方数据安全权益或侵害著作权,又或者使用“过度爬取”方式侵害商业秘密的。对此,笔者建议,对数据安全严重侵害的爬取将破坏数据的“源头”,应予禁止。但对著作权和商业秘密的侵害,可借鉴欧盟《数据库法律保护指令(1996)》第8条,设立强制许可制度,允许爬取方在支付合理补偿后使用。(2)在条件Ci1下,爬取方未侵害计算机信息系统安全、著作权,但使用“过度爬取”方式侵害商业秘密,并实质性取代被爬取方的数据业务的。在此情形下,爬取方采取“搭便车”的手段不劳而获,背离了基本的商业道德,应予禁止。(3)在条件Ci2下,爬取方未侵害计算机信息系统安全、著作权、商业秘密,未严重侵害被爬取方的数据安全,未实质性取代被爬取方的数据业务,但存在过度爬取行为的。对此笔者建议,鉴于数据爬取方已对其他访问者造成不便,应予禁止。但考虑到一律禁止在实践上存在难以认定的难题,不妨要求双方遵循“协商—通知”程序处理,通过强制性的磋商过程,以合同形式达成共识,降低交易成本。
第四,在条件Ci2下,爬取方未侵害被爬取方的计算机信息系统安全、数据安全、著作权、商业秘密,但将数据用于与被爬取方相竞争的目的之时,双方权益权重比W大于等于1。此时需要审慎权衡爬取方对被爬取方优先与否。对此,裁判者应首先假定爬取应予允许,然后再综合考量被爬取方对数据的资源投入、双方市场势力、禁止爬取对爬取方的损害、爬取数据数量和频次、爬取方是否构成对被爬取方业务的实质性取代等多方面因素,最终作出判断。例如,在爬取方前期投资巨大的情形下,应禁止爬取;在爬取方大量或即时抓取,实质替代被爬取方业务的情形下,应禁止爬取;在双方地位严重不对等,禁止爬取对爬取方的损害远大于爬取对被爬取方的损害的情形下,则应允许爬取。
(二)对政府数据的爬取
随着政府的数字化转型,国家机关从传统上最大的信息所有者和控制者,向最大的数据收集者、存储者和处理者转变。研究表明,我国的法院文书、知识产权登记数据、企业工商信用数据、个人信用数据、建筑监管数据、公共交通数据、医疗挂号数据已经成为爬取的重点。
1.数据爬取方的权益
在爬取政府数据的情形中,除上文所述“数据再利用权益”(Pi1)以外,数据爬取方的另一项重大权益是宪法上“知情权”(Pi2)。近年来,政府数据开放获取制度在全球范围内蔚然成风,《联合国电子政务调查报告》显示,迄今,联合国193个成员国中已有139个推出了开放数据平台或目录,我国亦位列其中。2016年,《国家信息化发展战略纲要》提出构建统一规范、互联互通、安全可控的国家数据开放体系。2018年,中央网信办等单位联合开展公共信息资源开放试点工作,在建立统一开放平台、明确开放范围、提高数据质量、促进数据利用等方面建规立制。尽管政府数据开放和政府信息公开之间存在若干差异,但后者仍然是前者的前提和基础。2019年修订的《政府信息公开条例》第1条开宗明义地表明,政府信息公开制度旨在保障公民、法人和其他组织依法获取政府信息,建设法治政府,充分发挥政府信息对人民群众生产、生活和经济社会活动的服务作用。在此意义上,就如政府信息公开,数据开放同样是宪法性权利——“公民知情权”的具体化。在我国政府数据公开不足、标准不统一、不可机读、缺乏API端口的客观制约下,数据爬取成为落实数据开放和知情权的重要途径。
2.数据被爬取方的权益
与上述企业被爬取方的权益相似,国家机关亦存在“计算机信息系统安全”(Pj1)和“数据安全”(Pj2)两种权益,但不同的是,国家机关还享有与国家利益、公共福祉相关的两种权益:(1)“重要数据”安全(Pj3),即政府对“一旦违反国家意志泄露、窃取、篡改、毁损、丢失或滥用,就可能危害国家主权、公共利益和群体安全的数据”的特别权益,它属于宏观数据安全的一部分,其边界由《网络安全法》和未来的《数据安全法》划定;(2)国家秘密(Pj4),即政府对《保守国家秘密法》下绝密、机密、秘密信息的权益。
3.双方权益的抽象重要程度(W)以及在特定条件(C)下的损害程度(I)和认知盖然性(R)
按照宪法性基本权利优先于一般民事权利、社会公共利益优先于私人财产利益的规则,爬取方的数据再利用权益位列次级,而爬取方的知情权和被爬取方的诸权益相对优先,据此,Wi2、Wj1、Wj2、Wj3、Wj4=4,Wi1=2。
与企业数据爬取类似,政府数据爬取方的损害程度也取决于数据来源是否唯一。不过,由于公民知情权还可以通过向国家机关提出申请的方式行使,在被禁止爬取时,其受损程度相对较轻。详言之,当相关数据事实上或经济上不可能从国家机关以外获得时(条件Ci1),数据再利用权益损害程度Ii1=4,知情权的损害程度Ii2=2,其损害均有高度认知盖然性,Ri=1;当相关数据可从别处获得时(条件Ci2),数据再利用权益损害程度Ii1=2或1,知情权的损害程度Ii2=1,其损害亦均有高度认知盖然性,Ri=1。对于国家机关而言,其“计算机信息系统安全”(Pj1)和“数据安全”(Pj2)损害程度和认知盖然性与企业数据的被爬取方相同,不加赘述。至于“重要数据”安全(Pj3)和“国家秘密”(Pj4),由于其数据外延相对确定,同时,泄露本身便构成了损害,因此,Ij=4、Rj=1。
4.政府数据爬取权衡的结果
将上述变量带入“完全扩张之权重方程”,经计算可得下述结果:
第一,在以下情形中,双方权益权重比W恒小于1,即被爬取方优于爬取方得到保护,此时应禁止爬取:(1)爬取方侵害计算机信息系统安全、重要数据安全或国家秘密中的一项或多项的;(2)在条件Ci2下,爬取方严重侵害了数据安全的。
第二,当爬取方未侵害计算机信息系统安全、重要数据安全、国家秘密,且并未严重侵害数据安全之时,双方权益权重比W恒大于1,即爬取方优于被爬取方得到保护,此时应允许爬取。对此,若爬取行为有碍于其他用户访问,可以借鉴“使用者付费”原则和公物法上“特许利用”原则,要求爬取方支付一定费用另行开启API端口,以平衡爬取方和社会公众的利益冲突,有效配置公共资源并避免造成市场主体之间的不公平地位。欧盟2020年提出的《数据治理法》(Data Governance Law)亦采纳了这一思路,其第6条明确规定:公共部门可以就数据再利用向企业收取费用,但该费用应是非歧视性的、相称的和客观合理的,且不得限制竞争。
第三,在条件Ci1下,爬取方严重侵害数据安全,但并未侵害计算机信息系统安全、重要数据安全、国家秘密之时,双方权益权重比W等于1,即被爬取方和爬取方平手,裁判者可自由裁量。鉴于当前大量政府数据应公开而未公开,笔者建议尽量发挥“技术赋权”的积极效果,除非爬取方恶意删除或篡改政府数据,否则应当允许其爬取,以推动数据开放和知情权的实现。对此,美国QVC Inc. v. Resultly LLC.案可资参考。在该案中,法院认为,尽管原告主张被告爬取速度高达每分钟40,000次造成网页宕机,但后者的爬取行为并无瘫痪店商网页运作之动机,因此并无损害之故意,无须发布禁令。
(三)对个人数据的爬取
1.数据爬取方和被爬取方的权益
在数字化生存的时代,人们的一举一动,甚至是所思所想均已化身为数据,被计算机一一记录,成为存储和爬取的对象。对于数据爬取方而言,其权益依然是“数据再利用”(Pi)。对于数据被爬取方而言,其权益除了上述“计算机信息系统安全”(Pj1)和“数据安全”(Pj2)外,还享有如下权益:(1)个人信息权益(Pj3),即个人对能够识别其身份或与之合理关联的信息,主张他人依法取得、确保信息安全、公开透明合法使用的权益。(2)隐私权(Pj4),即个人享有的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息受法律保护,不被他人以刺探、侵扰、泄露、公开等方式加以侵害的权利。
2. 双方权益的抽象重要程度(W)以及在特定条件(C)下的损害程度(I)和认知盖然性(R)
根据前述价值位阶,爬取方的数据再利用权益(Pi)与被爬取方的“计算机信息系统安全”(Pj1)和“数据安全”(Pj2)均属财产性权利,因而,Wi、Wj1、Wj2=2。与此相对,个人信息权益和隐私权均属于自然人的人格利益,有着更重的分量,故Wj3、Wj4=4。
一如前述,爬取方的损害程度与数据来源是否唯一密切相关,此处不再赘述。而被爬取方的损害程度则有待详述。其中,就隐私权而言,当爬取数据关乎“个人不愿意将其暴露于公众视野之中的有关医疗、基因、性生活、健康检查、犯罪前科、行踪轨迹等私密信息”时,爬取行为就意味着非法窥探、监视和收集,对人格尊严和人身自由的损害程度极高且有高度认知盖然性,因而Ij=4、Rj=1。就个人信息而言,若爬取数据涉及“一旦泄露就可能导致个人受到歧视或者人身、财产安全受到严重危害的敏感信息(如种族、民族、宗教信仰、身份证件信息、财务账号)”时(条件Cj1),则爬取的损害程度极高且认知盖然性高,故Ij=4、Rj=1;若爬取对象只是上述敏感信息外的一般信息时(条件Cj2),其损害程度较低但认知盖然性高,Ij=2、Rj=1。
此外,个体受损害程度还与信息状态密切相关,在个体信息被合法公开或爬取方已经获明确授权的场合,在“私密—公开”的两分法下,爬取自然无损隐私权,但问题是:爬取可公开访问(public available)的信息是否会损害个人信息权益?近年来,美国法院所发展的“马赛克理论”(mosaic theory),强调个人信息经过堆叠、组合、分析后,可能产生大于单独个人信息的效果,从而产生新的个人信息损害可能。但另一方面,正如批评者所言,“马赛克理论”也面临着其他信息范围和危害发生可能性难以确定的问题。因此,可令爬取公开信息时(条件Cj3)的Ij=2,认知盖然性Rj=1/2。
3.个人数据爬取权衡的结果
将上述变量带入“完全扩张之权重方程”,经计算可得下述结果:
第一,在以下情形中,双方权益权重比W恒小于1,即被爬取方优于爬取方得到保护,此时应禁止爬取:(1)爬取方侵害计算机信息系统安全(一般同时侵害了数据安全或个人信息权益)的;(2)爬取方侵害了个人敏感信息权益或隐私权的;(3)在条件Ci2下,爬取个人一般信息的。
第二,在不侵害计算机信息系统安全、数据安全、隐私权的前提下,对个人公开信息的爬取,双方权益权重比W大于等于1,此时需审慎权衡爬取方对被爬取方优先与否。对此,裁判者应先假定爬取的正当性,正如北京互联网法院在“孙某某诉百度、搜狐个人信息、隐私权案”中所指出的:“为鼓励网络信息的利用和流通,对于网络公开的一般个人信息,应推定权利人同意公开”。只有在如下情形下,才应考虑禁止爬取:(1)个人明确拒绝爬取后继续爬取的;(2)爬取方将所爬取的信息与其他个人信息相互结合,开展对个人权益产生重大影响的处理活动的。
第三,在条件Ci1下,爬取方未侵害计算机信息系统安全、数据安全、个人敏感信息权益或隐私权,对个人一般信息的爬取的,双方权益权重比W等于1,即被爬取方和爬取方平手,裁判者可自由裁量。对此,笔者建议不适用“明示同意”规则,而应适用“默示同意”规则,即除非个人明确拒绝,应当允许数据爬取。但为了保障用户“选择退出”(opt out)的权利,数据爬取方或个人数据收集者应当履行必要的通知义务。
(四)数据爬取的正当性边界
从以上分析可以得出在不同情形下对不同数据爬取的权衡规则,具体总结详见下表。
表  数据爬取的正当性边界
图片
图片

还需要说明的是,由于个人数据、企业数据、政府数据会相互杂糅和转化,当数据爬取对象涉及不同数据类型时,须逐一作出权衡。以物联网数据为例,其既包括与个人有关的地理位置数据、用户反馈数据等个人数据,也包括与机器状态有关的企业数据,对该数据集的爬取,就需要同时衡量个人数据爬取和企业数据爬取的双重正当性。如果有任一权衡结果是被爬取方应受到保护,则爬取即应禁止;换言之,只有所有结果均显示爬取方优先时,才应支持数据爬取。不过,有规则恒有例外。在爬取含有个人数据或企业数据的政府数据且权衡结果彼此矛盾,即爬取方可以爬取政府数据,但不能爬取其他数据之时,仍有待二次权衡。这是因为,政府数据流通不但富有独一无二的公共价值,而且爬取方有着宪法上知情权的重大权益。以裁判信息公开为例,美国“公共信息理论”(public information theory)和“公共监督理论”(publicsupervision)一致认为:“确保公众的知情权和监督司法权比维护个人的隐私和声誉更为重要”。故此,不妨借鉴《浙江省公共数据开放与安全管理暂行办法》第14条的规定,当政府数据爬取的权衡结果不尽一致时,应禁止数据爬取,但是,若不允许爬取会对公共利益造成重大影响的,应例外地认可爬取之正当性。

结语:我国数据和个人信息立法的建议

网络爬虫并非“害虫”。正如美国Sandvig v. Sessions案的判决书所言:爬取只是数字时代更便利的信息收集工具,它与使用录音机而不是记笔记,或者使用智能手机的全景摄像而不是用传统相机别无二致。但毋庸讳言,不当的数据爬取确实有可能损及企业权益、个人权利和国家安全,所以需要问的与其说是是否禁止数据爬取,毋宁是在何种场景下应禁止。对此,既不能期待整齐划一的答案,也不能陷入一事一议的窘境,而必须基于统合的分析架构,仔细衡量数据爬取各方的权益,最终作出体系性和操作性兼备的制度回应。
基于上文分析,笔者尝试遵循数据流通的理路,从数据爬取切入,就我国《数据安全法》《个人信息保护法》立法提出一得之见。
(一)数据立法:从产权规范转向权衡规范
在数据要素市场建章立制的过程中,“数据产权如何明晰”成为一个关键问题。然而,本文分析表明,至少在非合意的数据流通中,数据产权并不是必需的,因为这里的症结并不在于法律上数据归属于何方,而是如何判定是爬取方还是被爬取方享有更优的权利。就此而言,赋予被爬取方排他性和支配性的权利,看似给出了简单的答案,结果却可能妨碍了数据资源有效流转和利用。所以,与其汲汲于数据产权,不如改弦易辙,转向权益权衡。在立法技术上,可以在《数据安全法(草案)》第29条“任何组织、个人收集数据,必须采取合法、正当的方式,不得窃取或者以其他非法方式获取数据”的基础上,划出更清晰的红线,禁止侵害计算机信息系统安全、重要数据安全、隐私权、个人敏感信息权益的爬取行为。同时,可仿效《民法典》第998条,引入动态系统论机制,将数据来源是否唯一、数据是否公开可得、爬取是否过度、爬取数据是否用于相竞争目的等因素纳入判断是否禁止爬取的考量范围。这里的立法不仅应列举各个因素,还需要根据因素重要性进行顺序的排列,将重要的因素置于较前的位置,以便在法律适用中明确综合考量的权重。
(二)个人信息立法:正当利益条款的引入
如何平衡个人信息保护和数据利用之间的关系,是《个人信息保护法》的首要定位问题。《个人信息保护法(草案)》第1条即将“保护个人信息权益”和“保障个人信息依法有序自由流动”作为二元并置的立法目标,第13条拓展了个人信息合理使用的范围,细化了公共利益例外的情形(公共卫生事件、履行法定义务、法定职责、新闻报道等),并将“为订立或者履行个人作为一方当事人的合同所必需”纳入正当事由。更重要的是,其从根本上改变了《民法典》下“个人同意+特定免责”的个人信息使用模式,转向融知情同意在内的“多元合理事由模式”,以实现承载于个人信息之上的多元价值。但遗憾的是,这一思路未能贯彻于《个人信息保护法(草案)》第28条关于“爬取已公开的个人信息”的规定中。根据该条并结合第19条,爬取方不但负有普遍性的告知义务,而且在超出公开用途的合理范围以及对个人造成重大影响的情形下,还需要另行取得同意。如前所述,这对于爬取方显然过苛。究其实质,实因立法者过于坚持“个人信息知情权、决定权”(《个人信息保护法(草案)》第44条),而未能基于数据自由流通作出权衡判断。在欧盟GDPR中,体现这一权衡的莫过于第6条项下的“正当利益规则”(legitimate interests),即如果对个人数据的处理对于控制者或第三方所追求的正当利益而言是必要的,则企业可以处理个人信息,除非要求对个人数据进行保护的数据主体利益或基本权利及自由超过了上述正当利益。
正当利益规则的适用可以分为如下四个步骤:(1)目的测试:企业所追求的是否是正当利益?这里的正当利益必须是合法、明确、具体和真实的利益。(2)必要性测试:对于该目的而言,个人数据处理是否必要?该必要性应从目的关联性和最小收集原则理解。(3)权衡测试:个人权益的保护是否优先于企业追求的正当利益?此时需要考虑个人数据的类型、个体的合理期待、数据使用方式。(4)方式测试:企业能否有额外的保护措施,例如去识别化或加密技术的使用、强化透明性、个体选择退出权的授予等,以防免对于个人所造成的不当影响。
基于欧盟的经验,建议在《个人信息保护法(草案)》第13条的六项正当性事由之外,增加“正当利益事由”,同时豁免爬取公开个人信息的普遍通知义务,仅在通过数据融合的方式处理个人信息并可能对个人权益造成重大影响之时,才需要履行告知同意程序。正当利益规则的引入不但契合了个人信息作为非绝对权的性质,而且有助于化解公开个人信息爬取、客户和雇员数据使用、推广营销、欺诈防护、集团内部转移、网络安全等情形下处理个人信息的窒碍,从而更灵活、更适切地回应技术迭代和经济发展,避免因过度保护个人信息而戕害了数据的自由流通。