HTML アーカイブ - 日本語ウェブコーパス 2010

HTML アーカイブ	ファイルリスト	ファイル数 1585，圧縮時 197GB，展開時 3.25TB
URL リスト	URL 数 100,793,715，圧縮時 433MB，展開時 5.4GB

HTML アーカイブ

ファイル数 1585，圧縮時 197GB，展開時 3.25TB

URL 数 100,793,715，圧縮時 433MB，展開時 5.4GB

概要

2010 年 6 月から 9 月にかけて収集された，約 1 億ウェブページ，圧縮時 197GB，展開時 3.25TB のアーカイブです．ウェブページの収集においては，ipadic-2.7.0 の見出し語をかつての Yahoo! Web API により検索し，検索結果に含まれるウェブページを収集の対象としました．結果として，特定のウェブページを起点にリンクを辿ることで作成されたアーカイブと比べると，偏りの少ないアーカイブになっていると思います．

利用条件

HTML アーカイブ - 日本語ウェブコーパス 2010 © 2010 by Susumu Yata is licensed under CC BY 4.0
アーカイブについては CC BY 4.0 としていますが，元データの著作権は各作者に帰属します．著作物等の市場に悪影響を及ぼすような利用はしないようにしてください．

2018 年（平成 30 年）の著作権法改正（著作権法の一部を改正する法律（平成30年法律第30号）について | 文化庁）により，技術開発の試験や情報解析を目的とする場合，著作物を収集，公開できるようになりました．改正法の Q&A において，「人工知能の開発を行うために著作物を学習用データとして収集して利用したり，収集した学習用データを人工知能の開発という目的の下で第三者に提供（譲渡や公衆送信等）したりする行為」が利用例として挙げられています．

ダウンロード

ファイルリストと URL リストは常に提供していますが， HTML アーカイブをいつでもダウンロードできるわけではありません．リクエストがあったときだけダウンロードできるようにします．ご利用を希望される方は，ページ下部のメールアドレス宛てにご連絡ください．
ファイルのサイズ・数ともに大きいので，手作業によるダウンロードは手間がかかります．手作業による誤りを防ぐためにも，ダウンロード用のソフトウェアを使うことをおすすめします．例えば，wget を使えば，構成ファイルをまとめてダウンロードできます．

$ wget -i filelist

書式

検索により得られた各 URL について，URL，ステータスコード，HTTP ヘッダとメッセージボディ（HTML 文書）を以下の書式で保存しています．

URL
ステータスコード
HTTP ヘッダの長さ
HTTP ヘッダ
メッセージボディの長さ
メッセージボディ

HTML アーカイブを構成する各ファイル XXXXXXXX.xz には，展開時のサイズが 2GB より小さくなるように，上記の書式でウェブページを格納しています．また，圧縮時のサイズを小さくするため，URL による整列をおこなっています[1]．XZ Utils（xz -9e）の利用により，圧縮時のサイズは展開時の約 6% になっています．

サンプル

以下のようなテキストが，連結された状態で各ファイルに保存されています．

http://www.example.com/
200
78
Date: Wed, 22 Sep 2010 06:06:01 GMT
Connection: close
Content-Type: text/html
88
<html>
 <head>
  <title>Title</title>
 </head>
 <body>
  Hello, world!
 </body>
</html>

参考文献

[1] Paolo Ferragina and Giovanni Manzini. On Compressing the Textual Web, WSDM 2010, 2010.