小説家になろうにて「キモオタでギャルゲー、それって何の罰ゲーム!?」連載中!

クリエイター必見!?Internet Archive wayback machineから自サイトを削除させるまで

「過去」と消しゴム IT雑記
この記事は約19分で読めます。

「Internet Archive wayback machine」というサービス(?)を御存知でしょうか?
WEBサイトを何でもかんでも片っ端からキャッシュして保存するサイトです。

もしかしたら自分のサイトが保存されているかも?
その場合、放置しておくと自らの黒歴史を垂れ流すことになります。
人によってはもっと深刻な実害が生じるでしょう。
特にクリエイターさんにとっては。

というわけで削除要請出してみました。

TOEIC350点の英語力を駆使してね!

スポンサーリンク
この記事を読む方へのオススメ

私が黒歴史に気づいたきっかけ

自サイトのテーマをCocoonに変更した時の話です。
Cocoonですと、ログインしている場合は下のようなバーが出ます。

サイトを管理する上で便利なツールが並んでいます。
しかし、その中に見慣れないのが1つ。

SEOチェキって何?

サイトでSEOのこと書いている割に私自身はSEOに無頓着だったりします。
基本的には備忘録代わりというのがほとんどなので。
とりあえず開いてみました。
「アレクサ順位なるものがあるのかあ」などとふんふん眺めます。
ページ下部に来たところで、リンク一覧に気づきます。

seoチェキリンク一覧、Internet Archive wayback machine

Internet Archive wayback machineって何?

他はだいたいわかるんだけど。
とりあえず開いてみよう……げっ!

1995年のきもおたねっと。トップ画像

 

サイト作った頃の「きもおたねっと。」が!?

画像は6年前に当サイトが週刊誌報道されたときのものですけど。
このままばっちり残ってました。

スポンサーリンク

恥ずかしくてやばくて狼狽える

黒歴史そのもののウェブ魚拓

やめてよ、恥ずかしいよ。
わざとらしく浮かび上がるCSSがなんて初心者くさい。
ああ、私のサイト制作における黒歴史そのもの……。

いえ……もっと問題なことがあります。

著作権侵害のおそれ

著作権法に抵触するおそれのある画像が載ってしまっています。

Amazonアソシエイツの商品画像をサイトに使うのは著作権法違反じゃない?

かつて、こんな議論が盛り上がりました。

結論だけ言うと、利用規約を充たすかぎりは著作権法違反にあたりません。
しかしアイキャッチは著作権法違反にあたるおそれがあります。
詳しく知りたい方はこちらをお読みください。

ブログ記事にAmazonアソシエイトの商品画像を使うとき添えておきたい一文 ~著作権法と規約からの理解
ブログにAmazonアソシエイトの商品画像を使っている方は多いと思います。 例えばカエレバのツールなどを使って。 しかし商品の紹介と思えない場合にまで用いるのは...

そのため当サイトは削除したのに、いつまでも残ってられるのは困ります。
実際に訴えられる可能性は少ないにしても。

スポンサーリンク

クリエイターはもっと深刻

私はまだいい。
イラストレーター・写真家・漫画家・デザイナーその他クリエイターだともっと深刻な問題があります。

自サイト他のポートフォリオで展示を終了した作品が残ってしまう危険があります

実際に残っていた例がこちらの記事。

さらば黒歴史! Wayback Machine からサイトを削除する
ちょっと前に、過去に僕がサイトリニューアルを受け持ったクライアントさんからご相談がありました。「リニューアルしたのに過去の作品が見れてしまうんです」というご相談...

右クリック禁止のサイトなので、その意を汲んで引用しませんが。
ざっくり言うとデザイナーのクライアントから展示終了した過去作品を見られて困るという相談です。

小説などの文章系だってありえます。
書籍化が決まってサイトから削除したのに残っている。
当事者だと青ざめる事態でしょう。

それゆえnoteでも全て削除させたみたいです。

note、Internet Archiveで保存できなくなる、古いドメインはブロック | スラド セキュリティ
Internet Archiveからnote関連のキャッシュがまるごと消えてしまったそうだ(5ちゃんねるの書き込み)。新たな登録もできないという。noteの以前...

当然でしょうね。
クリエイターからすればパクリサイトそのものですもの。

スポンサーリンク

Internet Archive wayback machineとは?

ざっくり言えばウェブ魚拓。
ただ非営利団体であり、一応は崇高な理念のもとに運営しているそうです。

アーカイブは1996年にブリュースター・ケールによって設立された。公式サイトによれば、その使命は以下のとおりである:

「大抵の社会はその文化、歴史遺産の保存を重視している。そのような資料が無ければ、文明はその成功または失敗から学ぶための手段も記憶も持てない。我等の文化は現在電子形態での資料を大量に生産している。アーカイブの使命は、これらの電子資料の保存を支援し、研究者・歴史家・学界のためのインターネットライブラリを構築することにある。アーカイブはアメリカ議会図書館やスミソニアン博物館などの他機関との恊働も行う。」
—インターネットアーカイブ 公式サイト
人類の知識と遺産を保存してそのコレクションを公開するというその目標からか、アレクサンドリア図書館に例えられることもある。

引用:Wikipedia Internet Archive「設立の理念」

当たり前にニュースにも採り上げられたりしているっぽいですから真っ当な団体じゃあるのでしょう。

サイト運営してる側にとっては傍迷惑なだけだけどね!

スポンサーリンク

削除要請に挑戦する

だけど保存される側にとってはたまったものじゃありません。
削除にのりだすことにしました。

幸い、先のサイトに削除のやりとりがあったので参考にします。

削除依頼メール送信

まずはwayback@archive.org宛にメールを送ります。

メールタイトル。

Hello. I'd like you to delete the following data from your archive

送った文面。

Hello.

I'd like you to delete the following data from your archive:http://wayback.archive.org/web/*/https://【ドメイン名】/*
This mail is sent from my domain .

thank you

日本語訳は、

kimoota.netに属するページを全て消してください。
このメールはkimoota.netドメインにて送付しています(私がサイトの管理者である証明です)」。

Internet Archive wayback machineからの返信

しかし一筋縄でいきません。
返ってきたメールは以下。
テンプレと思われますので公開します。

Hello,

Thank you for contacting us. The Wayback Machine is a non-profit project founded by the Internet Archive to preserve a historical record of the Internet for purposes of research and broad public benefit. Thank you for considering the potential benefits of a more complete archive as you submit your request.

To allow us to better review and assist with this request, please follow the steps below.

STEP 1 : LIST (a) EACH URL/URL PATH THAT YOU WISH TO EXCLUDE, (b) THE PERIOD OF YOUR OWNERSHIP, AND (c) THE PERIOD YOU WISH TO EXCLUDE (where possible, we will target an exclusion to the requested period for a verified request)

EXAMPLE 1 (multiple URLs/paths from the same domain for same time period):
URL/URL path to exclude: site1.com/dir/file.html

URL/URL path to exclude: site1.com/images/

time period of domain/user account ownership: 2020-02-25 to present

time period to exclude: 2020-02-25 to future

 

EXAMPLE 2 (full domain & subdomains):

URL/URL path to exclude: site2.com (and all subdomains)

time period of domain/user account ownership: 1998-01-31 to 2001-08-30

time period to exclude: 1998-01-31 to 2001-08-30

 

STEP 2 : Select and follow the applicable section(s) below for the URL(s) you want to exclude from the Wayback Machine.

A. IF YOU PERSONALLY OWN THE WEBSITE(S) for the URL(s), please help us verify your ownership for those URLs by doing one of the following:

(PLEASE NOTE: if the whois listing for the domain shows that the most recent registration was later than the period you wish to exclude, we may ask for verification of past ownership in addition to any verification of current ownership)

Add a text file with your request to the site’s root directory (e.g., domain.com/waybackverify.txt) or to your DNS records

If a main email contact is identified on your site, send us your request from that address (and include a link to the place on the site where the contact is listed). Note: for companies with general customer service addresses listed as contacts and the like, we may request further verification.

If the registrant email is publicly viewable on a WHOIS lookup listing, send us an email from that address (and a link to the whois listing where it is displayed)

If your personal information (name, point of contact, verifiable image of self) appears on the site in a way that identifies you as owner, send us a scan of a valid photo ID bearing the same unique personal information (other sensitive information such as birth date, address, or phone number can be redacted). Please also send us a link to where it appears (not screenshots).

Send us email communication from a hosting company or registrar addressed to you as owner of the domain (the email should reference the domain specifically). To satisfy this option, please send the email to us as an attachment. (please do not send screenshots).

B. IF YOU REPRESENT AN ENTITY THAT OWNS ANY OF THE SITE(S) for the URL(s), please help us verify your ownership for those URLs by doing one of the following:

Add a text file with your request to the site’s root directory (e.g., domain.com/waybackverify.txt) or to your DNS records

If the registrant email is publicly viewable on a WHOIS lookup listing, send us an email from that address (and a link to the whois listing where it is displayed)

Send us email communication from a hosting company or registrar addressed to you as owner of the domain (the email should reference the domain specifically). To satisfy this option, please send the email to us as an attachment. (please do not send screenshots).

If none of the applicable verification options are available to you and you believe there is an alternative method to clearly and definitively demonstrate your ownership, you may send us pertinent information in a reply to this email. Please understand that we will make a good faith review of any directly relevant and manageable material, but do not guarantee any outcome beforehand.

Additionally, if you believe that any archives infringe your copyright, a Copyright Claim may be submitted in accordance with our Copyright Policy, posted on our site at http://www.archive.org/about/terms.php.

Again, thank you for contacting us and working with our process.


The Internet Archive Team

DeepLによる日本語訳。

こんにちは。

この度はご連絡いただきありがとうございます。Wayback Machineは、Internet Archiveによって設立された非営利のプロジェクトで、研究と幅広い公益の目的でインターネットの歴史的記録を保存することを目的としています。このたびは、より完全なアーカイブの潜在的なメリットをご検討いただき、ありがとうございます。

今回のご依頼をより良く検討し、お手伝いさせていただくために、以下のステップをご参照ください。

ステップ1:(a) 除外を希望する各URL/URLパス、(b) 所有期間、(c) 除外を希望する期間を列挙してください(可能であれば、確認されたリクエストに対しては、リクエストされた期間を対象に除外を行います)。

例1(同一ドメインからの複数のURL/パスを同一期間に除外する場合)。
除外するURL/URLのパス: site1.com/dir/file.html

除外するURL/URLのパス:site1.com/images/

ドメイン/ユーザーアカウントの所有期間:2020-02-25~現在

除外する期間 2020-02-25~未来

 

例2(フルドメイン&サブドメイン)。

除外するURL/URLパス:site2.com(およびすべてのサブドメイン

ドメイン/ユーザーアカウントの所有権の期間。1998-01-31 から 2001-08-30

除外する期間 1998-01-31から2001-08-30まで

 

STEP 2 : Wayback Machineから除外したいURLについて、以下の該当する項目を選択し、実行してください。

A. 該当するURLのウェブサイトを個人的に所有されている場合は、以下のいずれかの方法で、そのURLの所有権を確認してください。

(注意:ドメインのwhoisリストで、最新の登録が除外したい期間よりも後になっている場合、現在の所有権の確認に加えて、過去の所有権の確認をお願いすることがあります)

サイトのルートディレクトリ(例:domain.com/waybackverify.txt)またはDNSレコードにリクエストを記載したテキストファイルを追加する。

お客様のサイトに主な電子メールの連絡先がある場合は、そのアドレスからリクエストを送信してください(また、サイトの連絡先が記載されている場所へのリンクも含めてください)。注:連絡先として一般的なカスタマーサービスのアドレスが記載されている企業などでは、さらに確認をお願いすることがあります。

登録者の電子メールがWHOISルックアップリストで公開されている場合は、そのアドレスから電子メールを送信してください(また、そのアドレスが表示されているWHOISリストへのリンクも添付してください)。

登録者の個人情報(氏名、連絡先、検証可能な自己の画像)がサイト上で所有者として特定できる形で表示されている場合、同じ固有の個人情報(生年月日、住所、電話番号などのその他の機密情報は編集可能)が記載された有効な写真付きIDのスキャン画像をお送りください。また、それが表示されている場所へのリンクをお送りください(スクリーンショットではありません)。

ホスティング会社またはレジストラから、ドメインの所有者であるお客様宛の電子メールコミュニケーションをお送りください(電子メールはドメインを具体的に示すものでなければなりません)。このオプションを満たすためには、メールを添付してお送りください。スクリーンショットは送らないでください)。

B. URLのサイトを所有している組織を代表している場合は、以下のいずれかの方法で、それらのURLの所有権を確認してください。

サイトのルートディレクトリ(例:domain.com/waybackverify.txt)またはDNSレコードにリクエストを記載したテキストファイルを追加する。

登録者の電子メールがWHOISルックアップリストで公開されている場合、そのアドレスから私たちに電子メールを送る(また、そのアドレスが表示されているWHOISリストへのリンクを送る)

ホスティング会社またはレジストラから、ドメインの所有者であるお客様宛の電子メールコミュニケーションをお送りください(電子メールはドメインを明確に参照する必要があります)。このオプションを満たすためには、メールを添付して当社にお送りください。(スクリーンショットは送らないでください)。

該当する確認方法のいずれも利用できず、所有権を明確かつ決定的に証明する別の方法があると考えられる場合は、本メールへの返信で関連情報をお送りください。当社は、直接関連する管理可能な資料を誠実に調査しますが、事前に結果を保証するものではないことをご理解ください。

また、アーカイブがご自身の著作権を侵害していると思われる場合は、当サイト(http://www.archive.org/about/terms.php)に掲載されている著作権ポリシーに基づいて、著作権の主張を行うことができます。

改めて、私たちに連絡を取り、私たちのプロセスに協力してくれたことに感謝します。


インターネット・アーカイブ・チーム

www.DeepL.com/Translator(無料版)で翻訳しました。

な、な、長っ!

偏差値最低記録25、公安庁入庁時TOEIC350点。
そんなゴミ以下の英語力な私にケンカ売ってるのか!

サイト所有権確認の準備をして再返信する

ざっくり言うと、ポイントは次の通りです。

STEP1は「削除するページと期間を絞り込んでください」。
STEP2は「サイトの所有権を確認させてください」。

STEP1はとにかく全部なので、そう書きます。
STEP2はBに示された方法。
ドメイン直下に、次の通り記載した「waybackverify.txt」をアップロードします。

Hello.
I'd like you to delete the following data from your archive:http://wayback.archive.org/web/*/https://【ドメイン名】/*
There are no URLs to exclude.
thank you

ざっくり言うと、

とにかく全部消せ!例外などない!

さらに次の内容でメール返信しました。

Hello!

STEP1
There are no URLs to exclude.

STEP2
https://【ドメイン名】/waybackverify.txt

Thank You!

Rin Tenmagawa

了解の返信がくる

返ってきたメールはあっさりしたものでした。

Hello,

The following has been submitted for exclusion from the Wayback Machine at web.archive.org:

kimoota.net

Please allow up to a day for the automated portions of the process to run their course and for the changes to take effect.

---
The Internet Archive Team

ざっくり言うと、

「了解しました、1日ほどお待ち下さい」です

文言通り、1日後。
全ての記録が消えていました。

スポンサーリンク

今後に向けた対策

しかし再び記録されてはたまりません。
robots.txtに、他の魚拓サイトもあわせて次の記述をします。

User-agent: ia_archiver
Disallow: /
User-agent: Megalodon
Disallow: /
User-agent: archive.org_bot
Disallow: /

ざっくり言うと、

お前ら全員、うちのサイトに来るな!

無視されるかもしれないんですけど書かないよりはマシです。
なお、他2つについては確認したところ1つずつだけでした。
ウェイバックマシンほど深刻ではないのと気力尽きたのとで一旦放置しています。

スポンサーリンク

まとめ

以上で削除の流れはわかったと思います。
もし自サイトがコピられていた場合。
自分でドメイン取得してサーバー借りてサーバーを運営しているなら、本稿の通りやればスムーズに行くでしょう。
私の送った文面に【ドメイン名】を入れて送信すればOKです。

問題はブログサービスで運営し(アメブロやFC2など)、独自ドメインもとっていないケース。
そうなると私の方法はとれません。
サイトに個人情報を公開していない限り、削除は困難を極めます。

一般ブロガーなら、

将来に向けての対策として、お問い合わせ用のメールアドレスを作ってトップページに載せておくといいよ

うまくいく保証はできませんが……何もしておかないよりはマシです。

一方、クリエイターが個人(ないし自法人)でサイトを作るなら、

最低でも独自ドメインをとって、できればサーバー借りて運営することを推奨します

ブログやサイトを始めたい・引っ越したい方へ

レンタルサーバーWING。
KUSANAGI&WEXALが使えるVPS。
どちらでも高速でコスパに優れたConoHaで始めるのがおすすめです。
もっと知りたい方はボタンをクリックしてください。
(ボタン経由で入会した場合、1000円分のクーポンがもらえます)

この記事を書いた人

広島市内のパチンコホール勤務。
3号機時代からのパチンカス。
ADHD、精神障害者手帳3級所持。
慶應義塾大学商学部卒、専攻はマーケティング(広告・宣伝)
国家一種試験経済職の資格で公安調査庁に入庁。
在職時は国際テロ、北朝鮮を担当。
「小説家になろう」の底辺作者。
WordPress記事は素人の備忘録です。

天満川鈴をフォローする
IT雑記
スポンサーリンク

コメント

タイトルとURLをコピーしました