cht電腦資訊gcin
adm Find login register

製作字頻的工具

coolcd
1 製作字頻的工具
Promote 1 Bookmark 12010-11-03quote  

偶然發現 Debian 有個 uniutils,裡頭有個 unihist,可以統計 unicode 字元出現的頻率,於是就想到,這拿來做字頻分析應該很好用,例如:

把自己寫的文章放到 test.txt,然後:

$ unihist < test.txt | awk '{ print $4" "$2 }' > test-freq.txt

就可以排出字頻,並把結果輸出到 test-freq.txt

如果整理了大量自己文章的字頻,加到詞庫,不知道是不是能增加判斷的命中率?

eliu
2 製作字頻的工具
Promote 0 Bookmark 02010-11-03quote  

coolcd
加到詞庫,不知道是不是能增加判斷的命中率?

詞庫要用詞頻,不是字頻。不過可以用在詞音&gtab 自動選字有單字的情形。

coolcd
3 製作字頻的工具
Promote 0 Bookmark 02010-11-03quote  

eliu
詞庫要用詞頻,不是字頻。不過可以用在詞音&gtab 自動選字有單字的情形。

不太清楚,所以如果想使用字頻,應該加到那一個檔案?

eliu
4
Promote 0 Bookmark 02010-11-03quote  

cht電腦資訊gcin
adm Find login register
views:11478