最新公告
  • 欢迎光临可关玩日记,免费分享生活知识及创业资讯
  • 裁判文书网数据打包出售(裁判文书网使用方法)

    裁判文书网数据打包出售(裁判文书网使用方法)

    昨天,北京青年报从某网上商城看到,最高人民法院裁判文书网的数据标价从0.1元到1元不等出售。裁判文书网公布的判决书都是公开的。为什么要卖?网站获取裁判文书网数据有危害吗?

    在线销售数据

    价格需要通过“私聊”获得

    北青报记者在某网上商城看到,来自湖南、广东、山东等地的商家均声称出售裁判文书网的数据,其中不少商家声称其数据量超过6000万。裁判文书网公开数据显示,网上公布的裁判文书总数为7395万余份。如果商家声称的数字是真实的,商家可以提供绝大部分已公布的文档数据。

    很多声称可以出售裁判文书网数据的商家在商品描述中称,他们的数据是通过“网络爬虫”的方式获取的。所谓“网络爬虫”,又称网络蜘蛛、网络机器人,是按照一定规则自动抓取万维网上信息的程序或脚本。相当于一个自动访问网页并进行相关操作的小机器人。

    北青报记者注意到,虽然每个商家都在商品页面上注明数据价格为0.1元至1元不等,但每个商家都在文字说明中注明数据价格不受注明限制,需要通过“私聊”获取。

    一位出售裁判文书数据的商家表示,裁判文书买家需要的数据量从几千到上千万不等,有些买家因为打不开裁判文书网,不得不求助于数据卖家。“还是有很多同学买资料写论文。这种情况下,几千就够了,商用可能需要几百万甚至几千万。”商家也表示,每个月能接到四五单文档数据采集,价格和买家需要的数据量有关。“数百万条数据要花费数千美元。现在加密技术很严格,所以比较贵。”

    爬虫系统

    曾经让普通用户无法访问

    北青报记者了解到,一些技术机构通过网络爬虫系统获取裁判文书网数据的行为,给裁判文书网正常用户的访问带来了不便。不少网友在网上发帖称,在搜索裁判文书时,经常会遇到裁判文书网网站因为系统原因无法查询的情况。

    对此,最高人民法院在官网回应网民关于裁判文书网运行缓慢、故障频发的问题时表示,由于我国裁判文书网公开文书的数量和影响力不断增加,访问用户不断增加。同时,2018年5月初以来,大量科技公司通过爬虫系统无限并发访问非法获取裁判文书数据,导致网站超负荷运行,大量正常用户请求被屏蔽,部分页面访问缓慢或无法显示。

    今年5月,最高人民法院信息中心主任徐建峰在接受媒体采访时表示:“目前中国裁判文书网日访问量可达数千万,包括数据爬虫的攻击,我们的中心服务器压力很大。”

    “我们一直在监控它的应用,希望遇到问题能立即采取措施,但实在跟不上步伐,所以会出现停网维护运营的情况。”徐建峰表示,最高人民法院已经成立了专门的运维支持团队,对中国裁判文书网进行维护和管理,还将在技术和人力上加大投入。

    相关机构

    已经使用了各种方法来“爬回来”

    北青报记者获悉,在此之前,有关方面已经采取多种措施打击“爬虫技术”。最高人民法院曾发文称,为更好地保证正常用户的访问性能,有关方面已推出验证码形式的系统软件防爬功能。“验证码技术是防止爬虫的有效措施。当浏览次数在一定时间内达到一定数量时,将启用验证码机制进行验证。后续我们会不定期更新反爬虫技术,加强网站维护,提高网站运营的效率和稳定性。”

    此外,针对一位网友提出的裁判文书为什么不能按照“开放时间”作为检索条件进行检索的问题,最高人民法院表示,不设置“开放时间”作为检索条件的主要原因是爬虫系统会按照“开放时间”项抓取增量文书。“下一个反爬虫系统稳定可靠运行一段时间后,我们会适时考虑增加‘开放时间’检索项。”

    此外,最高人民法院表示:“由于之前的爬虫行为过于猖獗,无限制的暴力访问大大降低了正常用户的访问性能,我们采取了通过限制列表页面的翻页次数来防范爬虫系统的措施。”

    律师分析

    强行突破“防爬”技术或构成犯罪

    从事知识产权法律业务的金杜律师事务所律师曲淼曾就网络爬虫涉及的法律问题写过一篇文档。曲苗表示,从技术中立的角度来看,爬虫技术本身并没有什么不合法的地方。然而,随着数据产业的发展,数据抓取带来的各种问题和担忧也越来越多。太野蛮的爬虫可能会导致网站超载,导致网站瘫痪,无法访问。

    “由于爬虫的批量访问会给网站带来很大的压力和负担,所以很多网站运营者会采取技术措施,阻止爬虫批量获取自己的网站信息。针对这些技术手段,爬虫开发者可以通过优化自己的代码和使用IP池来规避上述技术措施,实现网站信息的批量抓取和复制。”曲苗表示,由于网络爬虫会按照特定的策略访问尽可能多的页面,使用爬虫会占用被访问网站的网络带宽,增加web服务器的处理开销,甚至无法正常提供服务。

    曲苗认为,根据《互联网反不正当竞争法》的相关规定,如果网站运营者已经采取了一定的反爬取措施,而爬虫控制者出于商业目的强行突破网站运营者采取的反爬取技术措施,客观上造成被爬取的网站无法正常运营,则可能构成不正当竞争。此外,强行突破某些被抓取方的技术措施,也可能构成犯罪行为。

    针对这种情况,北京市社会组织法律调解中心副主任张信年认为,“这些裁判文书是以司法公开为目的的免费公共资源。未经最高人民法院授权,商家出售裁判文书网络数据构成侵权。”