テキストアーカイブ |
ファイルリスト
|
ファイル数 194,圧縮時 69GB,展開時 396GB |
概要
HTML アーカイブの文字コードを UTF-8 に統一してからタグを除去し,いくつかのフィルタリングを施すことにより得られた,圧縮時 69GB,展開時 396GB のアーカイブです.フィルタリングについては,
Google N-gram コーパスの前処理を真似したので,NFKC への正規化,句点・感嘆符・疑問符を区切りとする文抽出,文の長さや文字の種類・割合による除外ルールの適用という内容になっています.
ダウンロード
ファイルリストは常に提供していますが,テキストアーカイブをいつでもダウンロードできるわけではありません.リクエストがあったときだけダウンロードできるようにします.ご利用を希望される方は,ページ下部のメールアドレス宛てにご連絡ください.
ファイルのサイズ・数ともに大きいので,手作業によるダウンロードは手間がかかります.手作業による誤りを防ぐためにも,ダウンロード用のソフトウェアを使うことをおすすめします.例えば,wget を使えば,構成ファイルをまとめてダウンロードできます.
$ wget -i filelist
書式
空行を文書の区切りとするテキストになっています.アーカイブを構成する各ファイル XXXXXXXX.xz には,展開時のサイズが 2GB より小さくなるように,テキストを格納しています.
XZ Utils(xz -9e)の利用により,圧縮時のサイズは展開時の約 17% になっています.
サンプル
各ファイルの内容は,以下のようになっています.
文書 1,文 1
文書 1,文 2
文書 2,文 1
文書 4,文 1
...