| adm | Find | login register |
caleb joined: 2007-09-22 posted: 630 promoted: 134 bookmarked: 90 |
簡繁轉換一直是很麻煩的東西,gcin 使用自己的簡繁轉換表格已經有一陣子了,有些問題當初整理時沒考慮進去(我整理表格時只用來繁轉簡,但 gcin 用同一個表格也做簡轉繁,所以會有問題。) 當初整理時,各大搜尋引擎的 suggest 也不是很完備,公開的語料庫不是不全就是限制很多,而且多半只有 Big5/GB2312 data,整理起來十分辛苦。 現在 baidu 的 suggest 已經做得不錯了,可以讓中文 user 很方便的查詢「哪個字詞被搜得最多」(注意,是搜尋頻率,而不是遣詞用字的正確性。) baidu 的特性是,你輸入繁體字詞,它會自動 suggest 簡體字詞。正確性姑且不論,至少可以知道「簡體 user」一般都是用什麼字詞。 底下是我目前「刪除的」 gcin 簡繁轉換資料,不知道大家有沒有什麼更正或補充的,討論討論可以整理成 patch 修正 gcin data。 拾 十 #揀拾 -> 不應該轉 漥 洼 #不常用 碱 硷 #鹼轉碱似乎比較正確,所以碱不用再轉了 窐 挂 #不常用 窐 洼 #不常用 綵 䌽 #䌽是罕用字 襬 䙓 #䙓是罕用字 託 讬 #託轉托似乎比較正確 讎 仇 #不常用 醱 酦 #醱轉发似乎比較正確 鉅 巨 #鉅轉钜似乎比較正確 鉋 铇 #鉋轉刨似乎比較正確 鍾 锺 #鍾轉钟似乎比較正確 鎔 熔 #鎔轉镕似乎比較正確 靦 䩄 #靦轉腼似乎比較正確 餘 馀 #餘轉余似乎比較正確 鯰 鲇 #鯰轉鲶似乎比較正確 鲶 鲇 #鯰轉鲶似乎比較正確,所以鲶不用再轉了 鹼 硷 #鹼轉碱似乎比較正確 麼 麽 #麼轉么似乎比較正確 | |||||||||
elleryq joined: 2007-09-27 posted: 117 promoted: 5 bookmarked: 0 Taipei, Taiwan |
| |||||||||
caleb joined: 2007-09-22 posted: 630 promoted: 134 bookmarked: 90 |
有,新同文堂的 data 也是 big5/gb2312 為主(我當年整理時的最新版是那樣)。 而且轉詞和轉單字不同。輸入法很多是一次輸出一個字,不可能用轉詞那套來靠上下文轉。 gcin 的整句輸入部份可以用 filter 的方式實現 詞彙/整句 簡繁互轉,所以不在本表格的討論範圍。 | |||||||||
elleryq joined: 2007-09-27 posted: 117 promoted: 5 bookmarked: 0 Taipei, Taiwan |
原來如此,想不到 caleb 大大也曾是新同文堂的開發者,小弟班門弄斧了... |
| adm | Find | login register |