テキストアーカイブ - 日本語ウェブコーパス 2010

テキストアーカイブ	ファイルリスト	ファイル数 194，圧縮時 69GB，展開時 396GB

テキストアーカイブ

ファイル数 194，圧縮時 69GB，展開時 396GB

概要

HTML アーカイブの文字コードを UTF-8 に統一してからタグを除去し，いくつかのフィルタリングを施すことにより得られた，圧縮時 69GB，展開時 396GB のアーカイブです．フィルタリングについては，Google N-gram コーパスの前処理を真似したので，NFKC への正規化，句点・感嘆符・疑問符を区切りとする文抽出，文の長さや文字の種類・割合による除外ルールの適用という内容になっています．

利用条件

テキストアーカイブ - 日本語ウェブコーパス 2010 © 2010 by Susumu Yata is licensed under CC BY 4.0
アーカイブについては CC BY 4.0 としていますが，元データの著作権は各作者に帰属します．著作物等の市場に悪影響を及ぼすような利用はしないようにしてください．

2018 年（平成 30 年）の著作権法改正（著作権法の一部を改正する法律（平成30年法律第30号）について | 文化庁）により，技術開発の試験や情報解析を目的とする場合，著作物を収集，公開できるようになりました．改正法の Q&A において，「人工知能の開発を行うために著作物を学習用データとして収集して利用したり，収集した学習用データを人工知能の開発という目的の下で第三者に提供（譲渡や公衆送信等）したりする行為」が利用例として挙げられています．

ダウンロード

ファイルリストは常に提供していますが，テキストアーカイブをいつでもダウンロードできるわけではありません．リクエストがあったときだけダウンロードできるようにします．ご利用を希望される方は，ページ下部のメールアドレス宛てにご連絡ください．
ファイルのサイズ・数ともに大きいので，手作業によるダウンロードは手間がかかります．手作業による誤りを防ぐためにも，ダウンロード用のソフトウェアを使うことをおすすめします．例えば，wget を使えば，構成ファイルをまとめてダウンロードできます．

$ wget -i filelist

書式

空行を文書の区切りとするテキストになっています．アーカイブを構成する各ファイル XXXXXXXX.xz には，展開時のサイズが 2GB より小さくなるように，テキストを格納しています．XZ Utils（xz -9e）の利用により，圧縮時のサイズは展開時の約 17% になっています．

サンプル

各ファイルの内容は，以下のようになっています．

文書 1，文 1
文書 1，文 2

文書 2，文 1


文書 4，文 1
...