製作字頻的工具

adm

偶然發現 Debian 有個 uniutils，裡頭有個 unihist，可以統計 unicode 字元出現的頻率，於是就想到，這拿來做字頻分析應該很好用，例如：

把自己寫的文章放到 test.txt，然後：

$ unihist < test.txt | awk '{ print $4" "$2 }' > test-freq.txt

就可以排出字頻，並把結果輸出到 test-freq.txt

如果整理了大量自己文章的字頻，加到詞庫，不知道是不是能增加判斷的命中率？

coolcd

加到詞庫，不知道是不是能增加判斷的命中率？

詞庫要用詞頻，不是字頻。不過可以用在詞音&gtab 自動選字有單字的情形。

eliu

詞庫要用詞頻，不是字頻。不過可以用在詞音&gtab 自動選字有單字的情形。

不太清楚，所以如果想使用字頻，應該加到那一個檔案？

目前的字頻全部是0。

adm