----------- Reply -----------
偶然發現 Debian 有個 uniutils,裡頭有個 unihist,可以統計 unicode 字元出現的頻率,於是就想到,這拿來做字頻分析應該很好用,例如:
把自己寫的文章放到 test.txt,然後:
$ unihist < test.txt | awk '{ print $4" "$2 }' > test-freq.txt
就可以排出字頻,並把結果輸出到 test-freq.txt
如果整理了大量自己文章的字頻,加到詞庫,不知道是不是能增加判斷的命中率?
詞庫要用詞頻,不是字頻。不過可以用在詞音>ab 自動選字有單字的情形。
不太清楚,所以如果想使用字頻,應該加到那一個檔案?
目前的字頻全部是0。