トップ / コーパス / 日本語ウェブコーパス 2010 / HTML アーカイブ
HTML アーカイブ | ファイルリスト | ファイル数 1585,圧縮時 197GB,展開時 3.25TB |
---|---|---|
URL リスト | URL 数 100,793,715,圧縮時 433MB,展開時 5.4GB |
$ wget -i filelist
URL ステータスコード HTTP ヘッダの長さ HTTP ヘッダ メッセージボディの長さ メッセージボディHTML アーカイブを構成する各ファイル XXXXXXXX.xz には,展開時のサイズが 2GB より小さくなるように,上記の書式でウェブページを格納しています.また,圧縮時のサイズを小さくするため,URL による整列をおこなっています[1].XZ Utils(xz -9e)の利用により,圧縮時のサイズは展開時の約 6% になっています.
http://www.example.com/ 200 78 Date: Wed, 22 Sep 2010 06:06:01 GMT Connection: close Content-Type: text/html 88 <html> <head> <title>Title</title> </head> <body> Hello, world! </body> </html>
E-mail: moc.liamg@atay.umusus