在我的既有意识中,检索模块的网页页面爬虫/蜘蛛/设备人(Crawler/Spider/Robot)只抓取网页页面的 HTML 编码,针对內部或外界的 JS 与 CSS 编码是1律疏忽的。因此大家也常常会说,Ajax 不好于检索模块的抓取,不好于 SEO。
由于在大家来看,检索模块爬虫终究并不是作用强劲的访问器,它没法运作 JS,也没法3D渲染 CSS。那些5彩缤纷的网页页面,在爬虫眼里但是是纯碎的文字流(或包括了断构标识的文字信息内容流)罢了。
但是,最近看到的两则有关 Google 的新闻,完全颠复了我对检索模块爬虫的认知能力。
1段来自 Google 资深工程项目师 Matt Cutts 的视頻吃惊了我。Matt 劝诫大家,不但文字与情况同色、字体样式尺寸设定为 0、用 CSS 掩藏文本这些这些招数早已是小孩科了,并且 Google 如今还能够鉴别根据 JS 来掩藏文本的舞弊方式。
在视頻中,1段含蓄的 JS 编码将某元素的 .style.display
特性设定为 'none'
,尝试掩藏那些只准备出示给检索模块、而不展现给客户的文本。Matt 表明,这类舞弊方法如今早已瞒不上 Google 了。
新闻2更为可怕,听说 Google 能够抓取 Ajax 內容!该文表明,给 URL 的 hash 一部分再加特殊的标志符(即 domain.com/#abc
改成 domain.com/#!abc
),会让 Googlebot 理解到该 URL 是1个 Ajax 网页页面(而非网页页面中的锚点),并开展抓取。
你将会对 Google 的这1技术性改善没是多少兴趣爱好,但你毫无疑问留意到了难题的实质:Googlebot 能够抓取 Ajax 內容,也便是说,Googlebot 彻底有工作能力运作网页页面中的 JS,并且作用健全!
假如这两则新闻全是真的,那末,从某种实际意义上说,爬虫的个人行为和工作能力早已与访问器愈来愈贴近了。这也代表着,检索模块爬虫将抓取更多的內容(包含 JS 和 CSS 文档),网站的总流量负载可能加大。
另外一层面,爬虫在抓取网页页面的全过程中也将造成更多的資源耗费——毕意仅仅解决文字信息内容的資源花销要远远小于详细地3D渲染网页页面和运作顾客端程序流程。
因而,我现阶段依然对这两则新闻将信将疑。难道说这是 Google 放出的烟幕弹?或是好事儿者炮制的虚假新闻?假如 Googlebot 真的早已具有了运作 JS 或3D渲染 CSS 的工作能力,那末以便将資源花销操纵在有效的范畴内,也许 Google 会在內部开启黑/白名单机版制?
假如担忧爬虫对主机总流量的腐蚀,也许能够考虑到在 robots.txt
文档中严禁爬虫对 *.js
和 *.css
文档的抓取。但是暂不确定性这样做是不是存在欠佳的不良反应。
也许也是有人会担忧,一切正常的网页页面合理布局有时也必须应用1些掩藏文本的方式,例如 【CSS 图代文】、【掩藏控制模块的 hx 标志信息内容】这些。这样会不容易被 Google 判断为舞弊呢?
我坚信针对像 Google 这样“聪慧”的检索模块来讲,它即然有工作能力让爬虫运作 JS 和 CSS,它也必定有工作能力来分辨甚么是舞弊、甚么是一切正常的合理布局必须。因此我感觉站长们大可无须慌乱,平时该如何就如何,身正不怕影斜,标准一直用来管束那些“非法之徒”的。
因此,针对一些 SEOer 来讲,这好像是个坏信息。假如她们还在考虑到是不是也有新的舞弊计划方案,那末我感觉实际意义不大。很明显,SEO 舞弊方式的存活室内空间将愈来愈小,与此另外,网站本身內容的使用价值才是 SEO 的真正基本。
旧意识 在我的既有意识中,检索模块的网页页面爬虫/蜘蛛/设备……
時间::58来源于:网站站长新闻报道创作者:seo试验室网编阅读文章……
時间::02来源于:企业网站建设创作者:seo试验室网编阅读文章:0次……
那时候我也愣住了,1直以来,做网站就想傍上百度搜索这颗大树……
短视頻,自新闻媒体,达人种草1站服务伴随着互联网技术的迅速……
以便进1步推动云计算技术自主创新发展趋势,创建云计算技术信……