从行业惯例的角度分析robots协议的司法约束力

　　【摘要】robots协议也称爬虫协议、爬虫规则等，是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是，这个robots协议不是防火墙，也没有强制执行力，搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。那么，当百度基于robots协议诉奇虎不正当竞争时，法院该判令奇虎遵守robots协议吗？文章以此案例导出，通过对robots协议的法律性质作出认定，从行业惯例的角度去分析robots协议的司法约束力，并认为在法律缺失的条件下，符合习惯构成要件的robots协议应该得到遵守。
　　【关键词】robots协议；爬虫协议；搜索引擎；法律性质；行业惯例
　　一、案例简况
　　2012年8月16日，360搜索上线并成为360网址导航的默认搜索，360搜索将百度多项业务纳入搜索范围供用户选择，如百度知道，百度音乐，百度地图等纳入自己的综合搜索。这一行为遭到百度的强烈抵制，随后百度通过技术手段，令这些搜索请求无法通过360直达结果页面，而是跳转至百度首页，让用户重新搜索。双方的争议随后进入司法程序，2012年10月16日，百度将奇虎360 诉诸北京市第一中级人民法院。
　　百度不允许360搜索直接访问百度的内容，其依据的是国外成型已久的所谓搜索行业规范——robots协议。百度认为，百度知道、百科、贴吧等内容是百度所有的内网内容，百度有权决定其内容是否要被360综合搜索抓取与展示，而360综合搜索无视百度在robots协议中未对其进行授权的事实，对百度知道、百度百科等内容进行强行抓取，违背行业规范，涉嫌侵犯著作权、不正当竞争。奇虎360则认为，“robots.txt仅仅是指导和提示搜索引擎蜘蛛程序，善意的提示性TXT文件，既不是法规或标准，也不是合约，因而不存在违反与不违反的问题”。百度既是搜索引擎，也是内容网站，百度百科和百度知道等内容的robots协议仅针对360综合搜索，其他引擎如谷歌搜索则可以顺利抓取，这是一种歧视性的行为，是假robots协议之名阻止360进入搜索市场，是不正当竞争。并且，百度百科和百度知道等都是公开的信息，是网民一点一滴贡献出来的，允许其它搜索引擎抓取就正说明不涉及隐私的内容，不符合robots协议的适用范围。
　　本文无意探讨上述双方谁是谁非，只是借助这个案例，告诉大家什么是robots协议，通过对robots协议的法律性质作出认定，从行业惯例的角度去分析robots协议的司法约束力。
　　二、robots协议的法律性质
　　robots协议也称爬虫协议、爬虫规则等，就搜索引擎抓取网站内容的范围作了约定，当一个网站不希望其全部或部分内容被搜索引擎收录时，可以通过建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，搜索引擎则通过一种爬虫蜘蛛程序去自动依据这个文件来决定抓取或不抓取该网页内容。robots.txt类似于游览景区的指示牌，为搜索引擎蜘蛛程序爬行于本网站的路径进行提示，同时标明了哪些是开放景区（允许抓取），哪些游客止步景区（不允许抓取）。通常鉴于网络安全与隐私的考虑，每个网站都会设置自己的robots协议，来明示搜索引擎，哪些内容是愿意和允许被搜索引擎收录的，哪些则不允许。例如高校bbs类网站，如有不希望被搜索引擎收录的相关内容，最好设置robots.txt以指示搜索引擎的访问路径，从而限制其蜘蛛程序的访问权限，这就解释了为什么一些bbs的网站内容能被搜索引擎检索到，而另一些则不能。
　　Robots协议并非强制性法规，而是搜索引擎诞生后，互联网业界经过长期博弈，最终在搜索引擎与商业站点、公众知情权和用户隐私权之间达成的一种妥协。是为了互联网的和谐发展而制定的一种行业规范，是行业内一个约定俗成的协议，其根本性的权力来源是团体成员的理性契约与集体认同。正如Robots协议创始人Martijn Koster所言，该协议并不是有权机关制定的，不具有强制执行力，任何人都没有义务一定要去遵守这个协议。
　　事实上，robots协议在20世纪93、94年出现后，几乎被所有的搜索引擎采用，包括最早的altavista、infoseek，后来的google、bing，以及中国的百度、搜狗、搜搜等公司也相继采用这一规则并严格遵循。Robots协议限制搜索引擎的抓取内容，保护网站数据和敏感信息、确保用户个人信息和隐私不被泄露，对“人肉搜索”这类侵犯用户隐私的行为树立了一道屏障，为互联网的和谐发展起着重要的作用，如果某一搜索引擎被禁止访问某一网站全部或者部分内容，该搜索引擎蜘蛛程序就要绕开robots.txt而随意抓取该网站的内容，无视robots.txt的存在，这必然会导致信息提供者保护私有财产的权利无法得到保护和用户的隐私无法得到保障。
　　此外，中国互联网协会于2012年11月1日在北京举行《互联网搜索引擎服务自律公约》（以下简称“公约”）签约仪式，百度、360等12家搜索引擎服务企业现场签署了该公约。该公约第7条规定，搜索引擎企业要“遵循国际通行的行业惯例与商业规则，遵守机器人协议（robots协议）”，对于违反公约内容的，相关网站应及时删除、断开连接。从上诉公约内容来看，可以看出网络搜索行业自身已认可robots协议具有国际通行的行业惯例与商业规则的地位。
　　那么，行业惯例在像我国这样的成文法国家是否可被用来作为司法裁判的依据？惯例成为具有法律拘束力的习惯法应该具备些什么条件？robots协议又是否符合惯例构成要件，得到更强有力的法律保障？以下将逐一分析。
　　三、行业惯例的法律适用
　　在我国，法的正式渊源主要是制定法，系指国家机关依照一定程序颁布的，通常表现为条文形式的规范性法律文件，可以直接发生法律效力。法官审理案件，在查明案件事实后，首先要寻找制定法，即在现行法律体系的诸多法律规范中寻找所要适用的法律，或者在没有可资使用的法律时，根据现行法律体系以某种方式提供的素材确立一个规则，然后对所选定或确定的规则进行解释，最后将如此找到和解释的法律适用于争议。在本案中，既没有针对robots协议的现行的法律规定，也找不到相应的法律规则，这种情形就叫做法律漏洞。法律不可能囊括现实生活中的纷繁复杂的状况、也不可能立即对千变万化的社会关系做出调整，法律上的空白、监管的缺失在迅速更新发展的互联网显得更为突出。而对于出现法律漏洞的案件，法官不能因为法无明文而拒绝审判，所以只能依据法律漏洞补充方法创设规则。一般来说，法律漏洞补充方法具体包括：（1）依惯例补充。这是最首要的方法，依惯例包括依交易惯例、行业惯例和地方惯例。（2）类推适用。是指法官受理的案件法律没有直接加以规定，但根据该案的主要特征，与某法律规定的情况类似，因而适用规定类似情况的法律。类推，在刑法中因“法无明文规定不为罪”而被严格限制使用，但在民事裁判中却是各国法院普遍采用的漏洞补充方法。（3）目的性限缩。是指一个法律条文所涵盖的案型依立法目的衡量明显过宽，故应将不该包含在内的案型排除在法律文义之外。（4）目的性扩张。这一解释方法与目的性限缩正好是相反的。是指法律条文所涵盖的案型过窄，依立法目的将本不为该法律条文所涵盖的案型，包括于该法律条文的适用范围之内。（5）一般法律原则。即以诚实信用、公序良俗、禁止权利滥用等法律原则作为评价标准，以衡量本案事实。