計算機設定/茶筌 - PukiWiki

計算機設定

2009/07/27

インストール

サンプル処理

  • bocchan.txt の処理
    漢字コードをEUCにし, ルビを消去する. 改行の^Mも削除する.
    emacs bocchan.txt
    M-x set-buffer-file-coding-system euc-japan-mac
    M-x replace-regexp 《[^》]*》 ''
    M-x replace-string ^M ''
  • chasen
    • 文頭から形態素に分解
      % chasen -c bocchan.txt |head -10|nkf -u
       	 	 	80 0 0
      親譲り	オヤユズリ	親譲り	2 0 0
      の	ノ	の	71 0 0
      無鉄砲	ムテッポウ	無鉄砲	18 0 0
      で	デ	だ	74 55 4
      小	ショウ	小	42 0 0
      供	トモ	供	2 0 0
      の	ノ	の	71 0 0
      時	トキ	時	22 0 0
      から	カラ	から	61 0 0
    • 形態素の番号を調べる
      % chasen -lp|head -42|nkf -u
      0 BOS/EOS
      1 名詞
      2 名詞-一般
      3 名詞-固有名詞
       ...
      19 名詞-数
       ...
      39 名詞-引用文字列
      40 名詞-ナイ形容詞語幹
      41 接頭詞
    • 数以外の名詞を抜き出し出現頻度を数える.
      % chasen -c bocchan.txt | awk '{if (($4<41)&&($4!=19)) print $1; }' | ¥
                  grep -v EOS | nkf -j | sort|uniq -c | sort -n -r | head -10 | nkf -u
      461 おれ
      410 の
      291 事
      223 ん
      220 もの
      211 人
      184 君
      178 赤
      170 シャツ
      168 よう

Counter: 2991, today: 2, yesterday: 1

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSSPDF
Last-modified: 2012-07-20 (金) 08:59:30 (2438d)