Yahoo!検索でindex.html表示、スラッシュエンドでインデックスされず、またはURLのみ

Yahoo!検索でおかしな現象を見掛けた。

SERPs(検索結果)で、index.html(またはindex.htm)が表示されている。

そして特に、サイトルートよりも、第二階層以下のディレクトリインデックスで問題が生じているようだ。

そこで、Yahoo!の「札幌 駐車場」検索で2ページ目に表示されている「札幌芸術の森 駐車場」を例にとって解説する。

なお、このサイトは、札幌芸術の森 リーガルにややこしいリンクのローカル規定を設けているが、このブログで誹謗中傷するわけではないので、勘弁願うことにする。

index.htmlを除くと日米Yahoo!検索で見つからない!

まず、Yahoo!で「札幌 駐車場」を検索する。

Yahoo!検索「札幌 駐車場」で2ページ目表示の「札幌芸術の森 駐車場」

上図のように、「index.html」が表示されている。

  • 札幌芸術の森 札幌芸術の森へようこそ 駐車場 http://www.artpark.or.jp/map/parking/index.html

通常のサーバーはDirectoryIndexを設定しているので、index.htmlを除いても同じページが表示される。

  • 札幌芸術の森 札幌芸術の森へようこそ 駐車場 http://www.artpark.or.jp/map/parking/

この程度であれば、実害はない。

だがしかし、Yahoo!で「index.html」を除いて「www.artpark.or.jp/map/parking/」を検索してみると大変なことになっている。

Yahoo!で「index.html」を除いて検索してみると…

検索されないとはどういうことだ?

念のため、米Yahoo!でも同じように検索してみる。

米Yahoo!での「index.html」を除いた検索結果

「site may not exist」って余計な一言がついているし…

さて、スクリーンショットを付けここまで書いてきたが、ひょっとしたらこのサイトだけの問題かもしれない疑惑がわいてきた。
つまり、サーバーの設定もしくはサイト運営の不具合かもしれないということである。

念のためにGoogleも動員してみると、

  1. http://www.artpark.or.jp/map/parking/index.html – Google 検索
  2. http://www.artpark.or.jp/map/parking/ – Google 検索
  3. site:www.artpark.or.jp – Google 検索

(3)ではほとんどが「index.html」付きで表示されている。
もっともおかしいのは、(2)である。「もしかして: http://www.artpark.or.jp/map/parking/index.html」と出てくる。

これは、やはりサーバーもしくは運営の問題と言えるかもしれない。

だがしかし、ブログのエントリーとして一般の商用サイトを例に挙げることをはばかっただけで、Yahoo!検索における「index.html」表示の問題はかなり多い。

上記例と同じように、「index.html」抜きではインデックスされていなかったり、URLのみの表示であったり、非常に好ましくない状況にある。

大企業のサイトなのに、はじめ2つはインデックスなし、最後のものはURLのみとなっている。

それから、まったく政治的意図はないことをお断りして、Yahoo!検索 – www.komei.or.jp/apply/mailmagazine/

※2008-11-15追記

やれやれ、上記のYahoo!検索のほとんどすべてで、このページが検索されるようになってしまった…

URL正規化

サーバー側が、index.html(あるいはindex.htmなど)ありだろうが、スラッシュエンドで終わろうが、同じページを表示する仕組みでは、「DirectoryIndex」という用語が出てくる。

DirectoryIndex、apache DirectoryIndex、htaccess DirectoryIndex、httpd.conf DirectoryIndex などで検索していただきたい。

また検索エンジン側の同じような仕組みは、「URL正規化」という言葉が使われる。

URL正規化は、英語でurl canonicalization(カノニカライゼイション)、下記の6通りのURLですべて同じページとして扱う仕組みである。

  1. http://www.hyperposition.com/
  2. http://www.hyperposition.com
  3. http://hyperposition.com/
  4. http://hyperposition.com
  5. http://www.hyperposition.com/index.html
  6. http://hyperposition.com/index.html

詳しくは述べないが、通常のサーバーの設定と普通のサイト運営をしているのであれば、検索エンジンのSERPsでは、http://www.hyperposition.com/index.html が表示されるよりも、http://www.hyperposition.com/ が表示される方が好ましい。

現に、http://www.artpark.or.jp/map/parking/index.html にはPageRank 3が付いているのに、http://www.artpark.or.jp/map/parking/ はPRなしである(ゼロではない)。
よって、両者は別のページとみなされ、バックリンクも分散してカウントされているのである。

一度、管理サイトのすべてをチェックしておいた方がいいだろう。

«
»
 

コメント (2)

うちのサイトもこの事象に悩まされています。
どうしたものでしょうか?
何か解決策はあるのでしょうか?

対策としては、
(a)内部リンクの「index.html」付きのものを、なしにすべて変える
(b)外部リンクで管理できるものを、(a)と同じようにする
(c)htaccessの設定で、「index.html」付きのアクセスを、なしのURLに転送する
といったところですね。
あとは静かに待つだけでしょうか。
(c)についてはググってみてください。

コメントを書き込む