国外

在搜索引擎和一些主流新闻出版商之间的争斗中,ACAP已经潜伏了好几年ACAP--自动内容访问协议 - 一直被一些新闻主管定位为重新建立他们认为已经失去内容的控制的基石然而,现实情况是,即使没有ACAP,出版商也有更多的控制权

一般来说,ACAP目前没有提供新的内容的“DRM”或许可机制

但系统确实提供了一些值得考虑的想法

下面,看看它如何衡量当前控制搜索引擎的系统ACAP于2006年开始开发,一年后正式推出10版(参见ACAP发布,Robotstxt 20阻止搜索引擎

)今年10月,ACAP 11发布了该组织表示,该组织已由全球1,250多家出版商安装,该组织由欧洲出版商委员会(Worl)支持d报纸协会和国际出版商协会如果这听起来相当令人印象深刻,请暂时提供一个现实检查但是首先,让我们将ACAP提高一点记得7月份,当汉堡宣言签署时150家欧洲出版商

简短声明基本上表示需要在互联网上增加知识产权保护,以保护高质量的新闻ACAP:拯救我们的内容!进入ACAP,作为实现汉堡宣言梦想的关键从欧洲出版商委员会发布的正式版本中,该委员会组织了宣言:我们需要搜索引擎认可ACAP,这是向承认内容提供商有权决定什么的一步欧洲委员会和其他立法者呼吁我们的行业不断提出解决方案 - 这里我们有一个,我们呼吁监管机构支持它

这引用来自Gavin O'Reilly,总裁世界报纸和新闻出版商协会,独立新闻和媒体集团首席执行官和ACAP主席对我来说,它看起来像是在互联网上的狂野西部

搜索引擎正在做任何他们想要的内容,出版商无法控制ACAP会给搜索引擎带来什么样的规则,如果某些政府机构强迫他们使用这些规则,那么这些规则将具有法律效力

搜索引擎狂野的西方实际上是驯服现实是,搜索引擎确实遵循规则,他们在过去15年中根据整个网络社区的反馈创建和增强了规则(而不是选择一组基本上不满的新闻)此外,在所有这些时间里,关于搜索引擎如何与新闻内容进行互动的诉讼相对较少只有一个在我的脑海中脱颖而出,比利时报纸因为被收录在谷歌新闻而赢得这一案件这是一场不必要的诉讼

可能已经使用现有控制措施避开谷歌新闻事实上,尽管“赢得”了诉讼,但这些文章最终还是试图利用现有标准重新加入谷歌新闻(参见谷歌的比利时论文;开始使用阻止标准)满足REP:15年的节拍是什么

现有的标准是什么

总的来说,它们被称为“机器人排除协议”或简称REP由以下组成:两个标准都存在于robotstxtorg中,但它们从未在那里更新过,也没有任何类型的官方组织或组织REP相反,搜索引擎单方面或集体扩展了REP多年来可以做的事情他们作为REP事实上的老板,尤其是谷歌如果谷歌做出改变,其他搜索引擎经常模仿它,我在其中使用了“robotstxt”这篇文章的标题主要是因为那些生活和呼吸这些东西的人经常被用作REP的两个部分的通用名称但是我将在本文的其余部分坚持使用REP一些ACAP在行动中足够的序言和背景让我们卷起袖子看看两个系统如何比较,从容易的东西开始如何使用REP阻止所有搜索引擎中的所有页面

你会制作一个这样的两行robotstxt文件:你会如何在ACAP中做到这一点

再说一次,只有两行:听起来很容易使用ACAP,对吧

好吧,不 ACAP在尽可能为发布商提供尽可能多的粒度的过程中,提供了我发现的令人眼花缭乱的选择.RED在两页上解释了它的部分ACAP的实施指南(稍后我会得到链接)是37页长但是所有这些粒度都是发布商需要重新控制的,对吧

现实检查的时间请记住那些1,250个出版商

谷歌新闻有超过20,000个新闻发布者列出,所以相对较少使用ACAP ACAP也将自己定位为(我已经加粗了一些关键部分):一个开放的行业标准,以支持所有类型内容的提供商(包括,但不限于,出版商)以可以由搜索引擎(或任何其他中介或聚合服务)容易识别和解释的形式传达许可信息(与访问和使用该内容有关),以便运营商系统地启用服务以符合个别发布者的政策那么,任何拥有网站的人都是发布者,那里有数百万个网站数亿,可能几乎没有发布者使用ACAP甚至ACAP支持者不要使用ACAP选项当然,没有动力使用ACAP毕竟,没有一个主要的搜索引擎支持它,所以为什么这些人中的大多数都这样做,那么让我们来看看有些人显示ACAP提供的控制权的真正动机即使他们还没有这种控制权,他们现在仍然可以使用ACAP来概述他们想要做什么让我们从爱尔兰独立的ACAP文件开始不要担心如果你不喜欢不明白,只是略读,我会解释:好的,看到那个顶部

这些实际上是使用robotstxt语法的命令它们存在是因为如果搜索引擎不理解ACAP,则机器人文本命令充当备份基本上这些行告诉所有搜索引擎不要索引网站上的各种内容,例如仅打印页面第二部分

这就是ACAP发光的地方爱尔兰独立报 - 这是ACAP总裁Gavin O'Reilly经营的媒体集团的一部分 - 能够表达他们希望搜索引擎会做什么,如果他们只承认所有的新权力ACAP提供了什么

他们做了什么

完全和他们使用robotstxt一样阻止这么多用于展示ACAP的潜在力量那么华尔街日报怎么样,由鲁珀特·默多克支持,他一直处于反谷歌的弯曲状态相同的情况 - 华尔街日报的ACAP文件是除了机器人文本命令显示的内容之外什么都没做

实际上,它做得更少至少机器人文本系统允许发现站点地图文件(更多内容如下)丹佛邮报怎么样

它没有ACAP文件,只是简单的旧常规robotstxt文件为什么那么重要

拥有丹佛邮报 - 迪恩·辛格尔顿的媒体公司的首席执行官最近表示,他将把他的一些内容从谷歌中删除(参见Hold On:更多论文是否真的加入了默多克的Google Block Party

)Singleton也是该公司的董事长

美联社最近一直非常反谷歌,也是ACAP的支持者所以如果ACAP允许出版商以某种方式表达目前没有的控制权,我会期待丹佛邮报成为海报儿童爱尔兰独立报和华尔街日报一起好吧,特洛伊每日新闻,ACAP自豪地列出使用其系统的组织之一怎么样普通发布者发生的事情来自其ACAP文件:同样, ACAP并没有被用来表达任何比robottxt命令中已经指出的更多的内容(第一部分)同样,robotstxt实际上超越了,因为支持ACAP没有T的“爬行延迟”指令帽子“请求率”和“访问时间”告诉搜索引擎只在凌晨时间到来

有一个轻笑,没有一个主要的搜索引擎识别这些命令同样,访问Hiltoncom robotstxt文件,你会看到一个类似但完全无法识别的命令:“不要在白天访问Hiltoncom!”Side-By-side,REP &ACAP OK,所以即使没有人使用特殊的ACAP控件,让我们至少看看一些关键功能,看看它们有多特别

下表列出了REP提供的反对ACAP在括号中,我注意到了两个系统中使用的关键命令,对于技术上倾向的链接,可以根据需要提供更多信息 在图表下方,我已经添加了更多解释,因为必要因为主要搜索引擎已经扩展了REP,如果至少Google提供了一个选项(因为它拥有最大的市场份额),我已经将某些区域视为“是”以获得支持我已经注意到Bing的情况由于雅虎搜索技术将被Bing收购,我没有逐项列出其控制产品,因为这些将针对ACAP的具体技术细节,请参阅此处的技术文档最简单的理解是2009年10月13日的实施指南另外看到两个爬虫通信部分,如果你想进一步深入了,那就是大图你可以看到,这两个系统都提供了一些东西和一些独特的东西每一个这都是我个人对差异的看法:Jeers To ACAP!阻止索引:ACAP在阻止抓取(一个字面上自动从一个页面到另一个页面的搜索引擎)和索引(一个搜索引擎制作一个页面的副本,以便它可以添加到一个可搜索的索引)之间做了一个奇怪的区别

搜索引擎,抓取和索引是同一个我很难看到分离这些隐藏的优势:对搜索引擎的精明者知道谷歌讨厌隐藏真实内容,这是显示搜索引擎与人类不同的行为看到它经常与垃圾邮件有关在很多情况下,人们向搜索引擎展示了误导性的内容,希望获得良好的排名一个例子是从1999年开始,当时联邦贸易委员会对一个隐藏内容的网站采取行动像俄克拉荷马州龙卷风一样的“无辜”搜索,而是将他们引导到色情网站出版商强迫搜索引擎允许隐藏真实内容的想法与报纸​​有点相似被迫写下任何一个主题要求写的关于他们的信息要使用的确切片段:类似于隐藏真实内容,允许网站所有者说出他们想要的关于页面的任何内容听起来很棒如果你是一个诚实的网站所有者当你是一个搜索引擎知道人们会如何误导,它不那么吸引人

此外,有时创建一个描述某人在上下文中搜索的内容是有帮助的 - 并且这并不总是发生在发布者定义的描述中

注释阻塞:很难解释这将如何工作Google的SideWiki是一个注释系统,评论与发布者的内容并排放在一个单独的窗口中

或者这是否意味着Google本身的注释,例如SearchWiki允许

是否允许发布商阻止人们在其他网站上评论他们的网页

这会阻止像Yelp那样审查业务,如果他们链接到他们

Digg是评级服务吗

这个选项是一个雷区的荣誉!最大片段长度:搜索引擎现在引用越来越多来自网页的资料,似乎能够限制它们可以使用多少似乎是一个好主意,应该被视为仅限元标记命令:许多控件,如阻止缓存或者片段不能在单个文件中完成现在,对于那些使用CMS系统的人来说,包括像WordPress这样的免费软件,将这些代码添加到每个页面都相对容易但是很高兴看到搜索引擎添加文件 - ACAP防止框架的方式对这些选项的广泛支持:我讨厌框架我很想看到一种方法告诉自动化工具,如URL缩短器,他们无法框架但是在搜索引擎中,框架非常有限谷歌使用图像进行处理,你可以阻止图像被编入索引时间,从而消除了框架它对缓存页面的作用相同,你可以阻止缓存加上,网站所有者很容易阻止任何类型的框架紧急删除:如果您是网站所有者,在保证的时间段内从索引中获取网页的系统将非常方便但是,这可能通过搜索引擎提供的网站管理员工具更好地处理,因为它们允许网站所有者主动触发删除,而不是等待爬虫的访问,这可能需要几天讽刺的是,在谷歌,他们有一个系统可以快速删除我两年前写的关于它的页面(参见Google Releases Improved Content Removal Tools)但是今天的文档很糟糕如果你没有登录就会解释如果你已登录,网站管理员版本的链接不起作用Google在2007年描述的整个功能已经消失 阻止页面的特定部分:谁希望所有导航都被编入索引,以及其他所有其他粗略页面

ACAP只允许对页面的某些部分进行索引雅虎已经提供了这个为什么不是其他的

嗯...允许的地方:这里的想法是你可以允许你的故事列在谷歌英国而不是谷歌法国,如果你想这可能不是一个坏主意,虽然这通常不是我倾向于听到的需求而是,网站所有者通常会尝试弄清楚如何将他们的网站与特定国家/地区相关联(Google有此工具)时间限制:您可以限制何时删除网页,应删除缓存副本以及更多使用ACAP Google一些支持在这里,虽然很少使用它,搜索引擎告诉我它似乎也没有必要从网站所有者简单地从网上删除他们自己的内容或阻止蜘蛛,准备就绪效果似乎更高效在任何一种情况下,这导致它从搜索引擎中删除Jeers To Search Engines!我认为编写本文最大的挫败感是知道搜索引擎确实为发布者提供了很多控制但是找到合适的文档很难在谷歌,你可以阻止翻译,但很难在提供给网站的帮助页面中找到这个页面所有者Bing有一种阻止预览的方法,但是我无法在其帮助中心内找到它

谷歌有一篇博文说bing支持nosnippets标签Over在Bing,我找不到这个记录的FYI,Jane&Robot有一个好的指南,可以帮助那些试图了解所有允许干杯搜索引擎的人! ACAP专注于发布商的选项愿望清单,通常可以通过其他方式完成

不想在搜索引擎中使用缩略图

好吧,我们会发出一个命令,即使只是阻止图像就可以解决这个问题相比之下,搜索引擎添加了来自许多不同网站所有者Sitemaps的声明的功能,以提供用于索引爬网延迟的URL列表支持更丰富的片段重复的内容工具,例如规范标签或参数合并他们应该获得比一些新闻发布者给予他们更多的信誉缺失的部分:许可你是否抓住了ACAP没有提供的最大选择

没有许可证支持请记住ACAP的O'Reilly如何讨论如何确保“内容提供商有权决定其内容和条款的变化”,ACAP实际上并没有提供更多的控制权

那里现在它没有给出版商更多的“权利”我的意思是,当你有一个完全退出搜索引擎的核选项时,你能拥有多少“权利”

这是我加粗的关键部分,ACAP应该以某种方式支持新商业模式的“什么术语”部分这个想法的一部分是你可能想要将你的头条新闻许可给一个搜索引擎,你的缩略图被许可给另一个搜索引擎,这就是全部在一些合作协议中捆绑起来引用ACAP常见问题解答:商业模式正在发生变化,出版商需要一种协议来表达访问和使用的权限,这种协议在新业务模式出现时具有灵活性和可扩展性ACAP在业务方面完全不可知模型,但将确保收入可以适当分配ACAP为整个在线出版社区带来双赢,承诺更高质量的内容和更多的创新和在线出版行业的投资ACAP适用于大型和小型甚至是个人这将使所有内容提供商受益,无论他们是单独工作还是通过出版商

没有出版商愿意和能力的未来o投资高质量的内容并获得投资回报是未来网络上没有高质量内容的未来我所经历的ACAP规范中没有提供任何类型的收入分配机制,更不用说某些类型的自动握手了一个发布者和一个搜索引擎来验证权限如果REP和ACAP文件可以谈话为了更好地说明这一点,这里是一个关于ACAP如何工作的“现实世界”对话我最近与Read 20邮件列表中的其他人分享了这一点我就是其中的一部分在讨论中,播放约翰马克奥克布洛姆已经开始的一些其他对话场景有几个人说他们发现它有用也许你也会这样,GOOGLE:嗨!我是谷歌 你能告诉我我是否可以抓你的网站

发布者:当然,但我可能会对你能做什么有一些限制GOOGLE:这很酷只是在特定页面上使用元机器人标签给我特定的命令PUBLISHER:嗯,在这个页面上,我不希望你展示一个缓存副本GOOGLE:太棒了,使用noarchive命令完成下一步是什么

发布者:在这个页面上,你必须始终显示我想要显示的描述GOOGLE:使用元描述标签我们会考虑这一点,但我们不能保证发布者:该死你只想统治世界GOOGLE:看,我们构建与人们搜索的内容相关的描述,动态如果我们在您的网站上找到一个页面,以响应特定的关键字,有时从您的网页“剪切”包含该字词的描述是有意义的,所以他们马上明白为什么你的页面与你的搜索相关并点击查看它这就是我们称之为片段的原因PUBLISHER:Dammit做我想要的你不是我的老板GOOGLE:嗯,我们也有人会说他们有孩子的相反,他们有成人游戏 - 比如色情片严肃的,真实的故事加上,我们是我们的老板我的意思是,如果我们宣布你必须按照我们想要的方式在你的出版物中审查我们,那就没问题了:让我们动起来吧在这个页面上,我不想要任何图像使用GOOGLE:使用robotstxt阻止他们完成PUBLISHER:这篇文章,我只想让你列出30天GOOGLE:30天后把它拉下来或者把整篇文章移到新的位置,然后留下摘要页面,如果您想要残余流量或阻止它或使用不可用的后元标记PUBLISHER:我只希望您列出此内容如果我与您有付费合作关系我的ACAP文件将向您声明GOOGLE:您与付费合作伙伴关系我们

出版商:嗯,还没有,但默多克承诺将来到GOOGLE:如果你与我们有合作伙伴关系,允许我们为你的内容编制索引,我们知道内部我的意思是,我们没有很多,我们不是在扫描网页和ACAP文件来跟踪它们ACAP甚至没有地方让你告诉我们这个,反正PUBLISHER:我没有合作但是我说你应该只索引我的内容,如果你有合作伙伴但是你一直在索引它GOOGLE:嗯,然后阻止我们当然你知道我们是否没有合作关系你可以使用robotstxt授权索引所有你想要的PUBLISHER:但我想要你许可我们的内容! GOOGLE:是的,我们得到了嘿,看看,你看到我们在机场的免费无线网络了吗

ACAP不是业务解决方案;搜索引擎,组织起来!总的来说,ACAP中有一些想法对于搜索引擎来说是有用的但是,ACAP之外还有很多想法对他们来说也很有用

在ACAP中我没有看到任何提供某种关键控制的关键控件

如果只有新闻出版商,那么他们所有的在线问题都将结束新闻出版商真正想要的是许可协议,并且考虑到谷歌已经有几个没有使用ACAP(参见Paywalls,合作伙伴关系和合作出版商的谷歌新闻的Josh Cohen ),我不能看到它以某种方式推进任何商业模式的变化当然搜索引擎需要更多地采取行动,但是现在是时候停止将人们引荐到没有人运行的REP网站了

是时候停止拥有他们各自网站内散布着无数的帮助页面是的,他们应该继续拥有自己的帮助页面(请参阅Google的网站站长帮助; Bing来自这里)但我会喜欢看谷歌和微软率先将材料整合到一个公共网站,也许是建立了Sitemapsorg