網(wǎng)址URL規(guī)范化(URL canonicalization)是近一年來在Google搜索結(jié)果中出現(xiàn)的一個很大的問題。它指的是搜索引擎挑選最好的URL網(wǎng)址作為真正網(wǎng)址的過程。舉例來說,下面這幾個URL一般來說指的是同一個文件或網(wǎng)頁:
http://1mkt.net/index.html
http://1mkt.net/index.html
但是從技術(shù)上來講,這幾個URL網(wǎng)址都是不同的。雖然在絕大部分情況下,這些網(wǎng)址所返回的都是相同的文件,也就是你的主頁。但是從技術(shù)上來說,主機完全可以對這幾個網(wǎng)址返回不同的內(nèi)容。
當搜索引擎要規(guī)范化網(wǎng)址時,搜索引擎需要從這些選擇當中挑一個最好的代表。一般來說,你的主頁應該是固定的,只有一個。但是有的時候,在很多網(wǎng)站上站長在鏈接回主頁時,所使用的URL并不是唯一的。很可能在你的網(wǎng)站上,一會連到URL,一會兒連到URL/index.html。
雖然這不會給訪客造成什么麻煩,因為這些網(wǎng)址都是同一個文件,但是對Google來說卻是造成了困惑,哪一個網(wǎng)址是你真正的主頁呢?如果在你的網(wǎng)站上,不同的版本網(wǎng)址都大量出現(xiàn),那么這兩個URL可能都會被Google收錄進數(shù)據(jù)庫,這時就會造成復制內(nèi)容網(wǎng)頁。
所謂復制內(nèi)容網(wǎng)頁,指的是兩個或多個網(wǎng)頁的內(nèi)容是相同或大部分相似的。很多時候,復制網(wǎng)頁有可能是作弊手段。就算不是作弊手段的時候,搜索引擎通常也只會挑出其中一個返回搜索結(jié)果,而把其他的復制網(wǎng)頁都排在最后面,以至于根本找不到。
當你的網(wǎng)站出現(xiàn)網(wǎng)址URL規(guī)范化問題的時候,就有可能造成被懷疑為復制網(wǎng)頁,因而影響搜索引擎結(jié)果排名。
從Google的角度來說,他們正在發(fā)展所謂大爸爸數(shù)據(jù)中心基本架構(gòu),來解決包括URL規(guī)范化的問題。但誰知道能不能解決呢?
從站長的角度來考慮,你應該做兩件事:
1.你的網(wǎng)站內(nèi)部在鏈接到其他網(wǎng)頁,尤其是主頁時,只使用一種URL。不管是包含www或不包含www,你要由始至終只使用一個版本。這樣搜索引擎也就明白哪一個是規(guī)范化的主頁網(wǎng)址。
2.但是你沒辦法控制別的網(wǎng)站用哪一個網(wǎng)址連向你的主頁。所以你應該在你的主機服務器上,把所有有可能成為主頁網(wǎng)址的URL,做301重定向到你所選擇的主頁網(wǎng)址版本。也就是說,從下面這幾個網(wǎng)址
http://1mkt.net/index.html
http://1mkt.net/index.html
都要做301重定向到這個網(wǎng)址。很重要的一點是,如果你的網(wǎng)站出現(xiàn)了URL規(guī)范化的問題,千萬不能使用Google的網(wǎng)址刪除反饋表,來要求刪除其中的一個網(wǎng)址版本。比如說,你所要的是帶有www的版本
你千萬不能到Google的網(wǎng)站上填表,要求沒有www的主頁網(wǎng)址
http://1mkt.net
被刪除掉。因為那樣做的話,你整個的域名有可能被刪除6個月。
當然,除了包含www和不包含www的兩個版本以外,還有其他類型的URL規(guī)范化問題。比如有的時候,搜索引擎會去掉或加上網(wǎng)址尾端最后的斜線。有的時候會嘗試把大寫字母換成小寫字母,有的時候可能嘗試去掉會話ID(session ID)等等,這些都有可能造成網(wǎng)址規(guī)范化問題。