cht電腦資訊
adm Find login register

關於有效率的挑選出中華民國政府標準的常用字的籠統大哉問

IanHo
1 關於有效率的挑選出中華民國政府標準的常用字的籠統大哉問
Promote 0 Bookmark 02012-05-15quote  

筆者遇到一個情境,一開始就先承認這是一個"籠統大哉問"的類型問題,

講白了筆者是打算直接伸手要速成的一整套答案的,而非光只是個方向,
首先會有一些前提,就是筆者不會寫程式,也不熟悉純文字指令的排列組合,
所以期望解決方案中,不要包含要動用到自行寫一個script,以及在終端機模式下
使用一堆純文字排列組合,來處理解決方案流程這樣.

筆者可以操作處理的就是全圖形介面下的進階純文字編輯器
(例如 mswindows的 madedit, linux的gedit, MacOSX的TextWrangler和Smultron)
和試算表軟體(使用openoffice calc) 希望藉由這兩種圖形介面軟體來達成整個操作處理流程.

接下來是問題描述, 筆者自己已經做好了 CnsPhonetic2012-04.cin 這樣一個包含11萬列的純文字檔案,
( http://www.openfoundry.org/of/projects/1603/download )
擷取其中 %chardef begin %chardef end 之間的內容留下,
接下來,有什麼樣的操作流程, 可以"有效率的" 以1500多組注音為分類的,
將每一組最常用的漢字挑出, 並將最常用字擺排在每一組注音的第一列,
次常用字擺在每一組注音的第二列, 以此類推,
中華民國政府單位, 有沒有一個官方網頁或資料檔案可以,以unicode碼位的形式列出所謂政府規範的
常用漢字並且以注音符號(需要包含聲調符號)為其分類編組, 這份網頁或資料檔案是要可以
匯出成 unicode格式的純文字檔案, 然後要能夠和筆者的 CnsPhonetic2012-04.cin 比對和整合,
以上的構思是因為筆者期望 CnsPhonetic2012-04.cin 的內容能夠呈現以,
把每一組注音列表中,所謂中華民國政府規範的最常用字都全部移動到該組注音的第一列,
次常用字移動到該組注音的第二列,接下來以此類推,
但是以筆者目前的資料處理和匯整能力,做不到這一部分的處理操作流程,
所以想說有問有機會.

cht電腦資訊
adm Find login register
views:1617