研究 | 滥用爬虫技术的法律风险及其应对（上）

2025-03-08 本站作者【字体：大中小】

网络爬虫技术简介_网络爬虫技术_网络爬虫实战

对于被特许人尚未开店或未实际经营的特许经营合同，被特许人可以行使“冷静期”内的单方解除权，有明确法律规定，而若被特许人已经实际开店经营，能否以特许权人存在违约行为进而行使单方解除权及加盟费退还请求权，具有一定争议。本文以笔者亲身经办的数十起特许经营合同纠纷系列案件出发，尝试探讨类案审判逻辑，以期抛砖引玉。

引言

网络爬虫作为一种算法技术，本身具有中立性，并不当然违法，但是网络爬虫行为毕竟体现了行为人的主观意志，如果滥用该技术，就会招致法律风险。从网络爬虫行为的行为特性、爬取对象和效果上进行判断，法律可能因网络爬虫行为的不正当性而给予否定评价。近年来，不论是网络爬虫的民事纠纷案件，还是刑事案件都在逐步增多，在此情形下，网络爬虫们更应厘清网络爬虫的法律界限，防范相应法律风险。

一、网络爬虫从“技术中立”到“网络害虫”的演变

（一）网络爬虫概述

2007年4月9日，涉案房屋取得《竣工验收备案表》。

网络爬虫，英文为Web Crawler，简称爬虫，也被称为网络蜘蛛、蜘蛛爬虫（Web Spider）或网络机器人（Web Robot），是按照一定的规则在网页自动抓取信息的程序或脚本。从通俗意义上理解，网络爬虫就是确定好目标网站，模拟人工访问网站，向网站发出请求，爬取网站数据，保存数据，这个过程会不断重复，直到达到某种预定的结果为止。

网络爬虫实战_网络爬虫技术简介_网络爬虫技术

注：在WWW上，每一信息资源都有统一的且在网上的地址，该地址就叫URL（Uniform Resource Locator,统一资源定位器），它是WWW的统一资源定位标志，就是指网络地址¹。

网络爬虫按照使用目的进行分类，可分为三类：

一是通用爬虫，又称全网爬虫，一般通过部分URL扩充到全网，爬取范围较广，通常是搜索引擎抓取整张页面里面的所有内容；

二是聚焦爬虫，又称主题网络爬虫，与通用爬虫相比，聚焦网络爬虫只会抓取页面中特定的局部内容，而且抓取的这部分内容一定是与预定的目标结果有关的，更具有针对性；

三是增量式爬虫，是指按照一定的频率对已下载的网页检测网站中数据更新的情况，并只会抓取网站中更新出来的数据，从而保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。

概言之，不同类型的网络爬虫可以实现不同的目的，其本质都是模拟人类上网并将简单的重复劳动变成自动化，都是通过网络爬虫自动实现对目标站点和目标信息的批量获取，包括信息采集、数据存储、信息提取，从而大大提高收集数据的效率和准确度，也可以促进数据的流动。因此，在互联网飞速发展的早期，网络爬虫是促进数据流通的重要工具，同时也被视为不带立场的中立技术。

（二）网络爬虫从“技术中立”到民事“违法”和刑事“犯罪”

2007年4月9日，涉案房屋取得《竣工验收备案表》。

在大数据时代早期，人们基于数据流通需要，加之网络爬虫被视为中立的技术，因此网络爬虫技术一直处于野蛮生长状态。直至2016年，快播案将“技术中立”“技术无罪”推上舆论的风口浪尖，一时之间大家开始重新审视“技术中立”问题，此后随着快播案以负责人被定罪落幕，至此，通过中立的技术实施的违法犯罪行为开始逐步进入法律视野。

但其实早在2012年，以技术中立著称的网络爬虫已开始走向民事“违法”，只是当时司法实践中对都倾向于“技术无罪”，因此许多民事争议案件都历经好几年的诉讼才有最终定论。如：自2012年开始，百度与360之间展开了长达8年的不正当竞争诉讼，最终360因违反Robots协议²，强行抓取百度旗下百度知道、百度百科、百度贴吧、百度旅游等网站内容，最终被裁定赔偿百度 70 万元。2016年大众点评起诉百度不正当竞争纠纷案，据大众点评诉称百度通过爬虫技术获取大众点评上的用户评论数据，导致大众点评用户流量减少，侵害大众点评的正当权益，故大众点评向百度索赔8000万元；该案经一审二审法院审理后判决百度赔偿大众点评经济损失300万元及合理费用23万元。

在网络爬虫可能导致民事“违法”的同时，网络爬虫也开始涉嫌刑事犯罪。2017年，北京海淀区人民法院审理并裁判了全国首例利用“爬虫”技术非法入侵其他公司服务器抓取数据，进而实施复制被害单位视频资源的案件³。2018年，深圳市中级人民法院审理并裁判了被害人武汉“车来了”APP运营主体向公安机关报案的“酷米客”APP运营主体通过非法手段入侵其后台抓取数据案，最终“酷米客”的相关负责人被判非法获取计算机信息系统罪。2020年的杭州某蝎公司因使用爬虫技术非法获取公民个人信息罪被定罪处罚，罚款3000万元⁴。而且，网络爬虫的刑事犯罪日渐增多，呈扩张趋势。

上述案例正好说明，司法实践中对待网络爬虫观点从开始的网络爬虫技术中立，并无好坏之分，到后来的网络爬虫行为是以网络爬虫技术为基础同时体现行为人主观意志、会受到市场商业环境和商业偏好的影响，有善恶之别的转变⁵。但同时，司法机关在判断案件时也应当考虑数据作为现在社会的重要资源，要平衡数据权利保护和数据共享，网络爬虫技术的发展是有利于促进数据流通的，因此刑法应当保持其谦抑性，防止入罪太门槛太低，避免过度适用刑法。

二、滥用爬虫技术的民事法律风险

近年来，网络爬虫在民事领域的法律风险主要体现在不正当竞争纠纷、知识产权侵权纠纷、侵犯公民个人信息、合同纠纷等。本文以“网络爬虫”为关键词，通过威科先行案例库进行检索，最终得到有效民事案例84个（截至2023年10月13日），其中知识产权和不正当竞争纠纷案件占了78件，是民事案件总数量的92%，是网络爬虫在民事领域的主要法律风险，而侵犯公民个人信息主要是刑事案件和刑事附带民事案件，因此在民事领域的法律风险本文集中论述不正当竞争纠纷和知识产权侵权纠纷案件。

（一）滥用爬虫技术与不正当竞争

2007年4月9日，涉案房屋取得《竣工验收备案表》。

在大数据时代，数据资源作为兵家必争之地，甚至出现了破坏市场竞争秩序的无序竞争，一些企业利用网络爬虫技术直接获取其他企业数据的情况常有出现，在这种情形下，网络爬虫逐渐进入竞争法视域。

（1）违反robots协议抓取网站内容，可能构成不正当竞争。

虽说网络爬虫是模仿人类上网获取信息，将重复的人类劳动转化成机器自动获取信息，只要不侵犯与数据相关的权益按理说不具有危害性，但是过多的网络爬虫或过于频繁抓取网站内容极容易造成受访网站的服务器过载，影响网站正常运行，同时也存在网络爬虫过多抓取无用的网页信息，降低抓取效率。因此，robots协议应运而生，许多网站所有者开始通过robots协议明确告知爬虫哪些内容可以爬取，哪些内容不能爬取，一方面可以防止网站服务器过载和更好的促进信息共享，另一方面提示网络爬虫抓取内容的界限，维护自身对网站内容享有的合法权益。

其中比较典型的案例就是百度与360之间的不正当竞争案。

在该案中百度认为奇虎运营的360搜索引擎违反百度的robots协议，擅自抓取、复制百度网站相关页面并生成网页快照复制件存储于360自身服务器中，并在网络用户点击360搜索的搜索结果页中来自百度网站的链接的标题时直接向网络用户提供其复制存储在自身服务器上的“网页快照”等行为构成不正当竞争；而360认为则百度在《互联网搜索引擎服务自律公约》（以下简称《自律公约》）签署后，将其他主流搜索引擎robots协议纳入白名单，唯独无正当理由拒绝将360纳入白名单，亦构成不正当竞争。

该案诉讼历经八年，在2020年7月3日北京市高级人民法院作出(2017)京民终487号民事判决。在该判决书中确定的裁判宗旨有以下几点：1.肯定了《自律公约》作为行业内的公认商业道德和行为标准，对签署的各方均具有约束力；2.Robots协议是行业内公认的和应当被遵守的商业道德，因此，360违反百度的Robots协议构成不正当竞争。3.在《自律公约》签署后，百度无正当理由有针对性、歧视性地对待360，用Robots协议不合理的限制360在百度抓取信息，妨碍了信息自由流通，也违背了robots协议设立初衷，亦构成不正当竞争。诸如此类的案件，还有大众点评与百度的不正当竞争纠纷案、车来了与酷米客之间的不正当竞争纠纷案等等。

由此可以看出，Robots协议作为一种行业惯例，违反Robots协议可能构成不正当竞争。当然，如果网站所有者滥用Robots协议，妨碍正常的竞争秩序，同样有可能构成不正当竞争。

（2）爬取和利用公开或非公开数据的行为侵害被爬虫方的合法权益，构成不正当竞争。

在经典案例(2017)京0108民初24512号案中，超级星饭团未经许可，运用技术手段擅自抓取新浪的数据，并在“超级星饭团”App中向其用户推送和展示来源于新浪微博明星微博的十五类动态数据，且使用户无需登录新浪微博即可全面查看明星微博动态，对新浪微博相关服务构成实质性替代。最后，法院判定超级星饭团构成不正当竞争，主要有如下理由：1.超级星饭团用非法手段破坏或绕开平台设定的访问权限爬取非公开数据，该行为具有不正当性；虽然网络平台对他人的抓取公开数据的行为负有一定的容忍义务，但超级星饭团大规模且采用非正常手段、破坏性手段爬取公开数据，其爬取行为仍具有不正当性。2.因数据来源不合法故后续在涉案App中推送、展示的使用行为亦不具有正当性基础。3.微博平台与用户约定了数据的归属，案涉数据不能被认定为用户个人的数据，且微博平台对数据的收集、整理、维护付出了相应成本，因此，微博平台对该平台的数据整体享有经营利益。4.超级星饭团侵犯了微博平台的合法权益，给微博平台造成损害，且在案涉数据方面构成对微博平台的实质性替代。

此外，在北京知识产权法院于2023年3月16日裁判的“抖音短视频抓取案——北京知识产权法院发布涉数据反不正当竞争十大典型案例之一”中，法院也有类似观点，均认为互联网运营平台对整体数据享有商业利益，用不正当手段爬取和利用公开或非公开数据的行为仍构成不正当竞争,可视为法院对滥用爬虫技术的禁止。

（二）滥用爬虫技术与知识产权侵权

2007年4月9日，涉案房屋取得《竣工验收备案表》。

网络爬虫可能因爬取的数据类型不同而侵犯不同的法益，当爬取的数据类型是他人的知识产权时，则有可能构成侵害著作权侵权纠纷、专利权侵权纠纷、商业秘密等。

（1）侵犯他人著作权。著作权，也称版权，其保护的对象是文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果，即作品。在网络时代，利用爬虫技术侵犯他人著作权的典型表现是侵害作品信息网络传播权纠纷，如：在广州互联网法院2023年4月21日裁判的(2023)粤0192民初2956号民事案件中，爱锝公司未经授权通过其所运营的微信公众号发布包含被诉侵权摄影图片的文章，使公众可以在其选定的时间和地点获得案涉摄影作品，侵犯了必信公司对该摄影作品享有的信息网络传播权，最终爱锝公司被判承担相应的侵权责任；北京市海淀区人民法院2020年5月26日裁判的(2018)京0108民初19310号民事案件中，千杉公司利用网络爬虫技术爬取了优酷视频享有独家信息网络传播权的作品，最终被法院判决承担40万的赔偿责任。

（2)侵犯他人商标权、商业秘密等。除了著作权，在知识产权领域，企业对数据享有的权利包括商标权、商业秘密等权利。网络爬虫在爬取网站内容时，如果附带的将他人的注册商标也一并爬取，并在自己的网站上或平台进行商标性使用，同样也会构成对他人商标权的侵害。此外，如果爬取的数据是他人的商业秘密，则可能构成商业秘密的侵权，也需要相应承担侵权责任。

（三）民法领域对网络爬虫的法律规制现状

2007年4月9日，涉案房屋取得《竣工验收备案表》。

从上述案例可以看出，网络爬虫是大数据时代的新兴产物，而法律具有滞后性，因此在民事法律领域并无针对网络爬虫的违法责任的规定，司法机关在审理网络爬虫侵权案件时大多适用原则性条款或兜底条款。

（1）在竞争法领域，司法机关主要是通过《反不正当竞争法》第二条所确定的诚信和公平经营原则，以及要遵守商业道德等规定来达到规制不正当竞争行为的目的。因此，robots协议和其他互联网行业公约在司法实践中的法律地位实际等同于“应遵守的商业道德”，违反的，可能构成不正当竞争。《反不正当竞争法》第二条规定：“经营者在生产经营活动中，应当遵循自愿、平等、公平、诚信的原则，遵守法律和商业道德。本法所称的不正当竞争行为，是指经营者在生产经营活动中，违反本法规定，扰乱市场竞争秩序，损害其他经营者或者消费者的合法权益的行为。”

此外，司法机关还会根据《反不正当竞争法》第一条“为了促进社会主义市场经济健康发展，鼓励和保护公平竞争，制止不正当竞争行为，保护经营者和消费者的合法权益”所确定的保护公平竞争、维护经营者和消费者的合法权益来判断被诉行为是否有利市场竞争。例如：在百度与360的案件中，法院认为百度滥用robots协议不合理的限制360爬取数据，不仅阻碍市场竞争，还损害了消费者合法权益，因此认定百度构成不正当竞争。在超级星饭团与微博的案件中，法院认为超级星饭团侵害了微博对所争议的数据享有商业利益，不利于市场竞争，最终也认定超级星饭团构成不正当竞争。

除此之外，在2017年修订《反不正当竞争法》新增了利用网络实施不正当竞争行为的具体行为表现，符合该条规定的具体情形的，也可能构成不正当竞争。《反不正当竞争法》第十二条规定：“经营者利用网络从事生产经营活动，应当遵守本法的各项规定。经营者不得利用技术手段，通过影响用户选择或者其他方式，实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。（一）未经其他经营者同意，在其合法提供的网络产品或者服务中，插入链接、强制进行目标跳转；（二）误导、欺骗、强迫用户修改、关闭、卸载其他经营者合法提供的网络产品或者服务；（三）恶意对其他经营者合法提供的网络产品或者服务实施不兼容；（四）其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。”

（2)在知识产权领域。由于法律并未规定网络爬虫侵犯知识产权的行为表现，因此在该领域，司法机关还是适用知识产权保护的相关法律来判定是否构成侵害知识产权。

注释

1、来源于百度百科：

%E6%A0%BC%E5%BC%8F/10056474?fr=ge_ala，最后访问时间2023年10月28.

2、robots协议又称爬虫协议，机器人协议，是指网站所有者通过一个置于网站根目录下的文本文件，即robots.txt，告知搜索引擎的网络机器人/网络爬虫哪些网页不应被抓取，哪些网页可以抓取，其本质上是受访网站与搜索引擎之间的一种交互方式。

3、(2017)京0108刑初2384号刑事判决书

4、(2020)浙0106刑初437号刑事判决书

5、童云峰.大数据时代网络爬虫行为刑法规制限度研究[J].大连理工大学学报:社会科学版, 2022, 43(2):88-97.

本文作者

刘诗瑾、周晓明