北京电视台《第三调解室》合作单位--北京伊志律师事务所

警示案例

北京房产继承律师|恶意爬虫案件频发,专家呼吁规制非法爬虫

来源: 北京伊志律师事务所 作者: 北京伊志律师事务所 2024-08-09 09:50:43 1130
北京房产继承律师|  民主与法制网讯(记者 庄德通)近年来,网络爬虫“爬取数据”成为了一个“现象级”问题,相关司法案例不断出现。据不完全统计,近些年涉及网络爬虫的司法案件达十余起,其中既包括民事案件,如:2016年脉脉爬取新浪微博诉数据案、2016年今日头条移植新浪微博数千条内容案、2017年南京码注网络科技有限公司(以下简称:码注公司)爬取阿里巴巴数据案、2019年刷宝App爬取抖音短视频数据案、2019年“极致了”网站爬取微信公众号案等,还包括刑事案件,如:2021年6月,逯某和黎某非法爬取淘宝网近12亿条用户信息等。      这些案件在近些年呈现日渐增多趋势。这与互联网技术与网络经济业态的不断迭代更新,数据已成为科技创新的必备要素,密不可分。在大数据时代,爬虫爬取他人数据的法律边界在哪里?如何规制恶意爬虫肆意爬取的行为?      近日,长三角数据合规论坛(第三期)暨数据爬虫的法律规制研讨会在上海举行,聚焦爬虫技术与数字产业影响,以及恶意爬虫的民事责任和刑事合规等话题。      论坛上,上海市人民检察院研究室副主任陈超然表示,检察机关正在积极推动企业合规改革试点工作,数据合规是关注热点。现在爬虫爬取数据案件非常普遍,包括新浪诉脉脉案、大众点评诉百度等很多类似案件,当一个网络平台或者个人通过技术手段抓取别的平台数据的时候,这种行为是否合法,平台数据主体是谁,归谁使用,值得深入研讨。      杭州长三角大数据研究院副院长郭兵则表示,数据爬虫作为一个中立性的技术,已经在互联网产业领域广泛应用,但是如果爬虫技术不当应用,对于其他竞争者的合法权益造成损害,甚至涉嫌违法或者犯罪,对于产业的健康发展也会产生非常大的负面影响。      爬虫技术中立,但爬虫技术应用侵权严重      从技术角度看,爬虫是通过程序去模拟人类上网或者浏览网页、App行为,让其高效的在网上抓取爬虫制造者所需要的信息。      欧莱雅中国数字化负责人刘煜晨表示,大多数网站拒绝爬虫访问,其中的原因既包括商业利益考量,也包括自身网站运营安全的考量。除了可能爬到网站的不愿被爬取的数据以外,网站经营者往往还会担心爬虫干扰网站正常运营。      非正规爬虫通常不会进行压力控制,爬虫自动持续且高频地对被爬取方进行访问,服务器负载飙升,这会给服务器带来“难以承受”之重,应对高并发经验不足的网站,尤其是中小网站可能会面临网站打不开,网页加载极其缓慢,有时甚至直接瘫痪。网站经营者面对“凶猛”的网络爬虫时往往苦不堪言。      小红书法务负责人曾翔表示,恶意爬虫案例经常发生在内容平台和电商平台。在内容上更多被爬取视频图片文字网红互动数据用户行为数据,在电商领域更多被爬取商家信息和商品信息。内容平台一般而言会约定相关内容知识产权应当是归发布者或者发布者和平台共同所有,这些爬虫没有签订协议获得用户授权,如何获得知识产权,涉嫌对知识产权的破坏。平台通过投入激发很多创作者的创造力,如果爬虫很轻易获得再去抄袭、改编,损害很大。      在码注公司爬取阿里巴巴数据案中,前者未经后者同意,擅自获取阿里巴巴平台上店铺数据,包括1688店铺、主营产品、商品数量、联系人、联系地址、诚信通开通年限、信用等级等数据,并据此建立自身数据库。      在杭州互联网法院审理斯氏公司运营的“极致了”网站爬取微信公众号案件中,法院查明,“极致了”网站爬取三类数据,包括:微信公众号的账号信息;用户在微信公众平台上发布的数据内容;用户与公众号的互动信息。      新浪集团诉讼总监张喆表示,无论是爬虫还是实现其他目的的技术本身都是中立的,但爬虫技术的应用不是中立,技术应用都带有应用者的目的。这个时候不应该评价技术原理,而是需要评价技术用来干什么,这个行为手段到底是不是具有正当性。      现实中,恶意爬虫爬取数据的目标清晰,通过爬虫爬取数据建立数据增值服务,从而获益。然而,所建立的这类数据增值服务往往与被爬取方形成直接的竞争关系,甚至可以形成某种替代关系。      在“极致了”网站爬取微信公众号案件中,法院认为,“极致了”官网提供微信公众号及文章搜索、展示等服务,已经构成对微信公众号部分数据内容服务的实质性替代,构成不正当竞争。虽然被告行为在短期内或许可以满足极为少数群体的需求,但如果对被控行为以及类似行为不予规制,将会损害创作者的创作环境,使得社会整体内容生产萎靡,消费者对优质内容的需求也就无从保障。      上海浦东法院知识产权庭法官徐弘韬表示,数据是内容产业的核心竞争资源,内容平台经过汇总分析处理后的数据往往具有极高的经济价值。如果要求内容平台经营者将其核心竞争资源向竞争对手无限开放,不仅有违“互联互通”的精神实质,也不利于优质内容的不断更迭和互联网产业的持续发展。      无视robots协议“君子协定”,恶意爬虫“破门而入”      提及网络爬虫,robots协议是绕不开的话题。robots协议(也称爬虫协议)的全称是“网络爬虫排除标准”,网站通过robots协议明确警示搜索引擎哪些页面可以爬取,哪些页面不能爬取。该协议也被行业称为搜索领域的“君子协定”。      刘煜晨表示,当网络爬虫访问一个网站,通常有一个robots协议,它像一个牌子立在自己房间门口,告诉外来人谁可以过来,谁不可以过来。如果你过来,哪些房间可以进,哪些房间不可以进,也就是哪些页面可以爬,哪些页面不可以爬。但是,这只是一个君子协议,只能起到告示作用,起不到技术防范作用。      实践中,恶意爬虫爬取时不遵守网站的robots协议,并可能爬取到不该爬的数据,这种情形并非孤例。      徐弘韬表示,爬虫就像是一名访客,robots协议只是房门上悬挂的“请勿入门”告示牌,而非一把锁。因此robots协议可谓是防君子不防小人——谦谦君子来到门前,看到这个告示牌会停下脚步,但不法之徒仍可能破门而入。      虽然网站可以去指定相应策略或技术手段,防止爬虫抓取数据,但爬虫也有更多技术手段,来反制这种反爬策略,即反反爬策略。      刘煜晨表示,反爬和爬取的技术一直在迭代,在技术领域,没有爬不了的网站,所有对外公开的网站、App,只要人能访问,绝对能爬得了,只有他愿不愿意爬和多难爬的问题。越大厂的App或者网站越难爬,反爬机制多。      徐弘韬认为,应当尊重网站预设的robots协议,如果违反robots协议强行抓取数据,可能导致在行为正当性上给予负面评价。      在斯氏公司爬取微信公众平台数据的案件中,微信公众平台设置有robots.txt文件,禁止任何网络爬虫抓取该平台信息内容。法院认为,robots协议从诞生至今为互联网行业所普遍遵守,成为互联网行业自律维持网站与搜索引擎之间利益平衡的一种有效的行为规范。被告斯氏公司违反robots协议擅自抓取微信公众号的数据信息内容,违反诚实信用原则。同时,微信需要投入较大成本维系和构建微信公众平台,从而获得相关数据信息,而被告通过规避微信对robots协议文件的设置而抓取大量的数据信息,抓取行为难谓正当。      然而,现实中,恶意网络爬虫制造者抗辩时,往往将robots协议限制爬取与数据流转联系起来。      徐弘韬认为,robots协议与数据流转有两个问题需要考虑:第一,“互联互通”与数据共享之间的度如何把握;第二,当下各互联网产业经营者采取的robots协议策略是否可能导致数据孤岛局面的出现。互联互通的实质在于确保数据有序流转,而不是强行要求互联网产业经营者对己方平台内的数据资源对竞争对手全开放。在“互联互通”的语境下,“有序”和“流转”同等重要、缺一不可,需排除假借“互联互通”妨碍公平竞争、危害用户数据安全的行为。      数据价值凸显,恶意爬虫爬取数据问题突出      恶意爬虫爬取数据案件频发的背后,与数据的价值极具增加并成为市场竞争重要的资源,以数据为核心的市场竞争愈发激烈密不可分。      华东政法大学教授高富平表示,进入大数据时代,数据价值再次凸显,现在的爬虫技术已经从原来的网页爬虫进入到底层数据的爬取。随着数据价值凸显,数据爬虫问题就变得越来越严重。      恶意爬虫爬取数据还多发生在互为竞争的同行之间。在“酷米客”起诉“车来了”案件中,武汉元光科技有限公司为了提高其开发的智能公交 “车来了”App在中国市场的用户量及信息查询的准确度,利用网络爬虫技术大量获取竞争对手深圳市谷米科技有限公司同类公交信息查询软件“酷米客”App的实时公交信息数据后,无偿使用于其“车来了”App软件,并对外提供给公众进行查询。      深圳市中级人民法院审理上述案件时认为,谷米公司系“酷米客”软件著作权人,对该软件所包含的信息数据的占有、使用、收益及处分享有合法权益。未经谷米公司许可,任何人不得非法获取该软件的后台数据并用于经营行为。元光公司利用网络爬虫技术大量获取并且无偿使用谷米公司“酷米客”软件的实时公交信息数据的行为,具有非法占用他人无形财产权益,破坏他人市场竞争优势,违反了诚实信用原则,扰乱了竞争秩序,构成不正当竞争行为。      在大数据时代的背景下,愈来愈多的市场主体投入巨资收集、整理和挖掘信息。业内人士担忧,如果任由网络爬虫任意地使用或利用他人通过巨大投入所获取的数据资源,将不利于鼓励商业投入、产业创新和诚实经营,甚至可能直接违背了数据来源用户的意愿和知情权,最终势必损害健康的竞争机制。      高富平认为,如果网站合法积累数据资源,都应该属于网站生产端可以控制的数据资源,是它的资产,他可以控制它的使用。对于数据财产权希望能够提出数据的控制者权,数据的控制者是基于自身控制,可以自己用,也可以给别人用,只要法律上承认合法的数据生产者能够实际控制,只能通过他的许可使用方式来开放数据的使用。      徐弘韬认为,对于非搜索引擎爬虫的正当性判别,还要考虑是否足以保障用户数据的安全性。包括身份数据、行为数据等在内的用户数据,从属性来讲不仅仅是经营者的竞争资源,同样具有用户的个人隐私属性,而此类数据的集合更涉及社会公共利益。如果以危害用户数据安全性为代价抓取数据,将在行为正当性上被给予负面评价。      高富平认为,更重要的是承认数据的生产者控制者可以基于其商业目的来开放数据,让其积极通过许可使用、交换交易等方式,让更多人享用数据服务。期待能够在未来确认数据所有合法生产者有控制权、使用权。北京伊志律师事务所是经司法局批准的合伙制律师事务所,是一家在民事诉讼、房产纠纷、交通事故、刑事辩护、知识产权、企业法顾等领域颇具规模及成就的综合性律师事务所。伊志律师事务所拥有众多知名律师及专业人员。其中,多名律师毕业于国内外知名的法学院校。
伊志律师事务所位于北京市朝阳区朝外大街乙6号朝外SOHO-C座1209,优越的地理位置,便利的交通条件,安静、专业的办公环境为需求提供方便。
电话:010-84493343
微信:18401228075
电话:18401228075北京房产继承律师|

客服