トップ / コーパス / 日本語ウェブコーパス 2010 / セクションターゲット
| 用例文書 |
セクションターゲットを含む HTML 文書のアーカイブ 圧縮時 41.2MiB,展開時 576MiB |
|---|---|
|
タグ使用頻度 TF・DF |
DF 1 以上のタグ一覧 圧縮時 1.65MiB,伸長時 16.1MiB |
|
DF 10 以上のタグ一覧 圧縮時 74.7KiB,伸長時 384KiB |
| 字種 | 置換後 | 置換前(x–y は x 以上 y 以下の範囲) |
|---|---|---|
| 空白 | ' ' | '\t', '\r', ' ', U+00A0, U+202F ,U+205F, U+3000, U+FEFF, U+2000–U+200B |
| 改行 | '\n' | '\n' |
| 読点 | ',' | ',', U+3001, U+FF0C, U+FF64 |
| 句点 | '.' | '.', U+3002, U+FF0E, U+FF61 |
| 数字 | '0' | '0'-'9', U+FF10–U+FF19 |
| 大文字 | 'A' | 'A'-'Z', U+FF21–U+FF3A |
| 小文字 | 'a' | 'a'-'z', U+FF41–U+FF5A |
| ひらがな | 'h' | U+3040–U+309F |
| カタカナ | 'k' | U+30A0–U+30FF, U+31F0–U+31FF, U+FF66–U+FF9F |
| 漢字 | 'K' | U+3400–U+4DBF, U+4E00–U+9FFF, U+F900–U+FAFF, U+20000–U+2FA1F |
| その他 | 'x' | その他 |
| 用例文書(41.2MiB) | DF 1 以上のタグ一覧(1.65MiB) | DF 10 以上のタグ一覧(74.7KiB) |
while sys.stdin:
size = sys.stdin.readline()
if not size:
break
size = int(size)
body = sys.stdin.read(size)
タグ使用頻度については,TF,DF,タグという順番で,水平タブが区切りになっています.以下のサンプルを見た方が分かりやすいと思います.
xz -cd htmls.xz | head -10
10791
<html>
<head>
<meta />
<meta name="description" />
<meta name="verify-v1" />
<meta name="keywords" />
<title>KxhhhhxhKKKKh0K0KkkkkKKkkkKK! x kkkk x kkkkkAA</title>
<link>
タグ使用頻度のサンプルです.TF,DF,タグという順番になっています.
$ xz -cd tf-df-tag.10.xz | sort -rnk 2 | head -5 26944 26705 </title> 26935 26699 <title> 3770558 26691 </a> 2992562 26676 <a> 26937 26672 </head>
$ xz -cd tf-df-tag.10.xz | sort -rnk 2 | head -1000 | tail -5 639 243 <img class="emoticon bleah" /> 243 243 <input name="url" id="url" /> 243 243 <div class="next_page_links_spacer"> 342 242 <ul class="navi"> 478 240 <div class="trackback">
| 文書数 | 26,725 |
|---|---|
| タグの異なり数(DF 1 以上) | 410,463 |
| タグの異なり数(DF 10 以上) | 51,133 |
E-mail: moc.liamg@atay.umusus