cht電腦資訊
adm Find login register

[分享]全字庫注音輸入法表格檔2012-03

IanHo
1 [分享]全字庫注音輸入法表格檔2012-03
Promote 2 Bookmark 02012-03-31quote  

總共新增了六個檔案~ 位在~
http://www.openfoundry.org/of/projects/1603/download

包括有

(CnsPhonetic2012-03.cin(全都錄版) for MacOSX10.5.8 (PowerPC) + OpenVanilla 0.8.1)
(CnsPhonetic2012-03_gcin.cin(全都錄版) for Linux圖形桌面 Debian 6.0.4 (amd64)+ Gnome + gcin 2.7.4)
(CnsPhonetic2012-03_scim.txt(全都錄版) for Linux圖形桌面 Debian 6.0.4 (amd64)+ Gnome + scim 1.4.9)
(CnsPhonetic2012-03lite.cin(精簡版) for MacOSX10.5.8 (PowerPC) + OpenVanilla 0.8.1)
(CnsPhonetic2012-03lite_gcin.cin(精簡版) for Linux圖形桌面 Debian 6.0.4 (amd64)+ Gnome + gcin 2.7.4)
(CnsPhonetic2012-03lite_scim.txt(精簡版) for Linux圖形桌面 Debian 6.0.4 (amd64)+ Gnome + scim 1.4.9)

原則上就是跟全字庫單位申請了到2012-03月份為止的最新版資料,
然後照老方法轉換成注音輸入法表格檔(在全圖形介面下完成作業),
整個製作流程全寫在表格檔裏頭了,
原本因故想說再押一個星期再上傳比較保險(以私人需求因素來說),
可是明天就是四月份了,再不上傳就沒有了"新版"的"FU",
為了要有2012-03月份最新版本的"FU",只好在3月份最後一天賭他一把先上傳~
上傳前一刻居然還發現檔案內有一個詞句錯誤~趕緊做了修正~
"軟體"這種概念的產物果然真的是時時刻刻都在修bug阿~
筆者從自身的資料產出物有所體驗~

coolcd
2
Promote 0 Bookmark 02012-04-01quote  

拿掉 Private Use Area 與 CJK Compatibility 是明智的選擇

建議一般人用 lite 版就好了

感謝整理&分享

IanHo
3 一些馬後炮~
Promote 0 Bookmark 02012-04-05quote  

看了網路上一些客製化中文輸入法表格檔案之後,

筆者現在才注意到,原來有些表格檔案為了強調一些功能特色,
會在表格的尾段再添加一些所謂的額外字詞的對照資料,
筆者在一開始編製表格檔案的時候滿腦子就是注音符號,
所以表格擋案裏頭就是只有單純的注音符號而已,
上傳的檔案內容單純一致,
後來才想到對阿,原來還有單位詞,符號詞這種東西,
畢竟也是以漢字的態樣呈現,怎麼之前沒想到,去想一個鍵位組合來配對呢,
但是來不及啦,檔案已經出去了,就算了,
一整個很有後知後覺的FU。

coolcd
4
Promote 0 Bookmark 02012-04-05quote  

還有排序也是很重要的

這對輸入效率影響很大

詞的話,現在 gcin 有自動選詞,應該不需要加入 cin 檔了

edited: 1
IanHo
5
Promote 0 Bookmark 02012-04-05quote  

coolcd

還有排序也是很重要的

這對輸入效率影響很大

詞的話,現在 gcin 有自動選詞,應該不需要加入 cin 檔了

不~我的意思是指這種東西~

單位詞和符號詞參考表

http://140.111.1.40/fulu/fu10/index.htm

http://140.111.1.40/fulu/fu11/index.htm

 

至於排序的部分~已經超過我現階段資訊處理能力之外了~

除非有相關資訊文件(最好是繁體中文的)能夠解釋怎麼樣用些什麼全圖形介面的工具~

就可以把常用字作向前挪移排序~


edited: 1
coolcd
6
Promote 0 Bookmark 02012-04-05quote  

IanHo
不~我的意思是指這種東西~

單位詞和符號詞參考表

http://140.111.1.40/fulu/fu10/index.htm

http://140.111.1.40/fulu/fu11/index.htm

 

這個東西我有加一些到符號表 

如有不足,可以再加

coolcd
7
Promote 0 Bookmark 02012-04-05quote  

記錯了,符號表沒有

可能是當初後來發覺行列可以直接輸入

所以沒有加入符號表

IanHo
8 抱怨文
Promote 0 Bookmark 02012-04-24quote  

在跟全字庫單位溝通往返後,

一整個感覺,部分聯繫窗口應對人員根本不了解全字庫建置所需將關資資訊技術,
偏偏對方還是重要資料匯出與管理負責人員,
真的讓筆者對廣義的公務員專業能力產生了問號,
舉個範例,全字庫提供的資料中,單獨的 ㄝ 沒有對應的漢語拼音,
可是定規範的 教育部國語會 明明就有定義,
而且還有 中文譯音使用原則手冊(含漢語拼音方案) 官方文件可以查,
而且明明現代的電腦系統都打得出這個漢語拼音,
現在發生了一個筆者覺得挺悲哀的狀況,
行政院旗下的全字庫本來就應該要完備的資料,卻有一堆bug和缺漏,
國民(終端使用者)反映之後,居然還回應"本來就沒有",
國民還得"自行去舉證"教育部的網站有提供官方文件裡面就有,
政府之間的橫向聯繫怎麼做得這麼糟糕,
當然這只是其中一個狀況.還有其他狀況~
筆者打電話去唉~因為政府提供了錯誤資料~導致筆者的產出的資料也會有狀況~
打了多次電話~推測對方也把筆者當成"奧客"了~
態度跟口氣都變得不是很好~
而且還是他們在暗我在明~因為對方有我的身分證影本.

現在發現若要修正筆者產出檔案的某些問題~若要申請更新資料~
還得再跑一次實體公文往返~對方才認帳~真是有夠麻煩~
國民納稅錢搞出來的東西~怎麼bug這麼多!!!

IanHo
9 偷懶的提問~
Promote 0 Bookmark 02012-04-26quote  

現在正在規畫製作 CnsPhonetic2012-03.cin 修正更新版本~ 我想要增加一些額外的內容~

就是所謂的 符號詞 單位詞 這兩種~ 符號詞 就是一個沒有搭配注音的漢字~但是是中華民國有列管的~

該字代表一個符號這樣~

單位詞 就是一個沒有搭配注音的漢字~但是是中華民國有列管的~ 該字代表一個單位這樣~

現在我傷腦筋了~沒有概念~到底該用什麼樣的鍵位的排列組合最為"直觀"?

該用 Symbol Unit 這兩種就好呢? 還是用 ㄈㄨˊㄏㄠˋ 轉換成的 zj4cl4 和 ㄉㄢㄨㄟˋ 轉換成的 20jo4

比較好? 這兩種輸入鍵位~哪一種相對最為"直觀"呢?

 

 

IanHo
10
Promote 0 Bookmark 02012-04-26quote  

自問自答~想想最不花腦筋的方式或許就是兩種都塞進去!?

coolcd
11 偷懶的提問~
Promote 0 Bookmark 02012-04-27quote  

IanHo
現在我傷腦筋了~沒有概念~到底該用什麼樣的鍵位的排列組合最為"直觀"?

該用 Symbol Unit 這兩種就好呢? 還是用 ㄈㄨˊㄏㄠˋ 轉換成的 zj4cl4 和 ㄉㄢㄨㄟˋ 轉換成的 20jo4

比較好? 這兩種輸入鍵位~哪一種相對最為"直觀"呢?

看不懂在問什麼  Sealed

IanHo
12 偷懶的提問~
Promote 0 Bookmark 02012-04-28quote  

coolcd

看不懂在問什麼  Sealed

 

這下我也無語了~因為我也想不出更詳細的描述了~

IanHo
13 2012年四月份 全字庫注音輸入法表格檔 修正+更新
Promote 0 Bookmark 02012-04-28quote  

2012年四月份 全字庫注音輸入法表格檔 修正+更新

CnsPhonetic2012-04.cin(全都錄版) for MacOSX10.5.8 (PowerPC) + OpenVanilla 0.8.1
CnsPhonetic2012-04lite.cin(精簡版) for MacOSX10.5.8 (PowerPC) + OpenVanilla 0.8.1
CnsPhonetic2012-04_scim.txt(全都錄版) for Linux圖形桌面 Debian 6.0.4 (amd64)+ Gnome + scim 1.4.9
CnsPhonetic2012-04lite_scim.txt(精簡版) for Linux圖形桌面 Debian 6.0.4 (amd64)+ Gnome + scim 1.4.9

2012年三月份行政院研考會旗下的全字庫單位提供的表格檔案有瑕疵,
(經筆者交叉比對 原來2012年三月份 http://www.cns11643.gov.tw 字碼查詢與下載
這個線上功能也有同樣的瑕疵),其中一個瑕疵重要項目就是有300多筆資料重複了,
這個狀況也導致了筆者依據其而產出之注音輸入法表格檔案有300多筆資料重複,
感謝熱心的網友 Chen-Pan Liao ( http://apansharing.blogspot.com/ )
提供給不會寫程式的筆者 技術支援, 及時萃取出重複的資料,
讓筆者得以盡快修正檔案瑕疵,詳情請參考注音輸入法表格檔案內的說明文字,
另提供符號詞和單位詞這兩個更新特色.

http://www.openfoundry.org/of/projects/1603/download

gcin的部分目前有狀況都測試失敗,

系統環境是
Debian 6.0.4 (amd64)+ Gnome + gcin_2.7.4-0_amd64.deb from https://sites.google.com/site/gcinpackagebycoolcd/
使用 gcin2tab 指令將我製作的 全字庫注音輸入法表格檔案轉檔
(gcin_2.7.4-0_amd64.deb有徹底移除再重裝 連 /home/妳的帳號/.gcin/ 也移除了)
轉檔過程 all pass , 依照老方法將 .gtab 檔案複製到 /usr/share/gcin/table/
並修改了 /usr/share/gcin/table/gtab.list 的內容

重新進入系統後 跑了一輪 gcin-tools 圖形設定,
可是 畫面還是出現了
---
對話視窗
unknown file type
---
不論用鍵盤組合快速建或著滑鼠點選gnome選單列的gcin圖示,
都無法切換成英文以外的其他輸入法,我該怎麼辦?完全沒有除錯的頭緒!!!

IanHo
14
Promote 0 Bookmark 02012-04-29quote  

會有熱心的進階電腦玩家願意製作 gcin 2.7.6.1 for debian 6.0.4 (amd64)+gnome 的獨立deb安裝檔案嗎?

我想說更換新版的gcin試試看~~~


eliu
15
Promote 0 Bookmark 02012-04-29quote  
IanHo
16 包含有九萬五千個unicode中文漢字的一組字型
Promote 0 Bookmark 02014-02-06quote  
一個資訊分享,2012年的時候,我跟全字庫這個單位申請字形和表格資料,
發現取得的光碟裡頭所包含的表格和字型內容bug非常多。
然後當時申請資料都還得附上身分證影本跑實體公文流程往返具名申請,
然後其預設提供的表格欄位規劃非常不便民,我只好公文內附註申請客製化表格檔,
表格內同樣也是bug百出。
曾幾何時,我發現"現在"政府出現了個頁面
CNS11643中文標準交換碼全字庫(簡稱全字庫) |  政府資料開放平臺
http://data.gov.tw/node/5961
頁面內有個zip可以"直接"下載全字庫的一整套字形和表格,可惜的是表格欄位規劃仍然是不便民。
("沒有"預設提供unicode和注音符號的對照表)。
不需要擾民的具名公文流程往返手續了。政府單位總算有一絲絲的意願改進了。
只是,那堆表格和字形裡頭的BUG"有沒有"全部修正完畢?仍然還是未知數。
我個人沒有程式開發方面的能力,所以無法依靠既有資源組合出來自全字庫的
unicode和注音符號的對照表。如果有網友有"行政"和軟體開發方面的技術與資源的話。
把全字庫的"最新版本"表格和字形兜一兜,就可以組合出2014年版的九萬五千個漢字的
注音輸入法表格檔了(unicode格式)。然後在搭配全字庫字形。
文書作業應該不缺字了(至少"現代漢字"應該不缺了吧!?)。
補充:我大致描了眼,推論字型的部分BUG可能還沒修完。
表格的部分一時懶得看了,畢竟資料至少10萬筆。2012年申請資料的時候,
在熱心網友的幫忙下,至少發現300筆的資料有錯,而公務員踢皮球的心態,
真的讓百姓很無言。
 
IanHo
17 包含有九萬五千個unicode中文漢字的一組字型
Promote 0 Bookmark 02014-02-06quote  
一個資訊分享,2012年的時候,我跟全字庫這個單位申請字形和表格資料,
發現取得的光碟裡頭所包含的表格和字型內容bug非常多。
然後當時申請資料都還得附上身分證影本跑實體公文流程往返具名申請,
然後其預設提供的表格欄位規劃非常不便民,我只好公文內附註申請客製化表格檔,
表格內同樣也是bug百出。
曾幾何時,我發現"現在"政府出現了個頁面
CNS11643中文標準交換碼全字庫(簡稱全字庫) |  政府資料開放平臺
http://data.gov.tw/node/5961
頁面內有個zip可以"直接"下載全字庫的一整套字形和表格,可惜的是表格欄位規劃仍然是不便民。
("沒有"預設提供unicode和注音符號的對照表)。
不需要擾民的具名公文流程往返手續了。政府單位總算有一絲絲的意願改進了。
只是,那堆表格和字形裡頭的BUG"有沒有"全部修正完畢?仍然還是未知數。
我個人沒有程式開發方面的能力,所以無法依靠既有資源組合出來自全字庫的
unicode和注音符號的對照表。如果有網友有"行政"和軟體開發方面的技術與資源的話。
把全字庫的"最新版本"表格和字形兜一兜,就可以組合出2014年版的九萬五千個漢字的
注音輸入法表格檔了(unicode格式)。然後在搭配全字庫字形。
文書作業應該不缺字了(至少"現代漢字"應該不缺了吧!?)。
補充:我大致描了眼,推論字型的部分BUG可能還沒修完。
表格的部分一時懶得看了,畢竟資料至少10萬筆。2012年申請資料的時候,
在熱心網友的幫忙下,至少發現300筆的資料有錯,而公務員踢皮球的心態,
真的讓百姓很無言。
 
ychao
18
Promote 0 Bookmark 02014-02-07quote  

IanHo 兄辛苦了。也許這種苦功可以轉成類似wiki的平台,分給大家一起幫忙會快得多?

另外,所謂單位、符號表,指的應該是 ℅ ℃ ½ 之類的"字"嗎?

IanHo
19
Promote 0 Bookmark 02014-02-08quote  

ychao

IanHo 兄辛苦了。也許這種苦功可以轉成類似wiki的平台,分給大家一起幫忙會快得多?

另外,所謂單位、符號表,指的應該是 ℅ ℃ ½ 之類的"字"嗎?

請參考本討論串的第五篇

 

 

IanHo
20
Promote 0 Bookmark 02014-04-12quote  

提一個額外話:
在這個網頁中(2014/04/13),有這麼兩段話。
http://www.cns11643.gov.tw/AIDB/copyright.do
---
本網站責任之限制
本網站之相關字型、資料、元件或程式僅供參考,
不構成任何保證或暗示其同意、認可、
推薦之意思表示。
本網站之相關字型、資料、元件或程式之正確性及完整性,不負擔保之責。
使用者如因使用而受損害或損失,或因此導致使用者或第三人遭受損害或損失而遭求償者,
本網站不負任何賠償或補償之責。
---
我覺得這是非常不負責任的公家機關推拖之詞,
用老百姓的納稅錢所建構出來的資料庫,
居然還如此這般的撇清責任,
都沒有任何的反制之道嗎???
我沒有什麼法律專業,
但我認為在一般社會大眾/國家公民的理解上,
公家機關要對這個資料庫"負責任"是應該且必須的,
這麼可以這樣推拖!?
沒有其他監督機制可以來制衡這個國家發展委員會/全字庫了嗎???

coolcd
21
Promote 0 Bookmark 02014-04-12quote  

IanHo

提一個額外話:
在這個網頁中(2014/04/13),有這麼兩段話。
http://www.cns11643.gov.tw/AIDB/copyright.do
---
本網站責任之限制
本網站之相關字型、資料、元件或程式僅供參考,
不構成任何保證或暗示其同意、認可、
推薦之意思表示。
本網站之相關字型、資料、元件或程式之正確性及完整性,不負擔保之責。
使用者如因使用而受損害或損失,或因此導致使用者或第三人遭受損害或損失而遭求償者,
本網站不負任何賠償或補償之責。
---

幾乎所有軟體都有這種聲明吧

免得發生意外時被求償 要賠大錢 XD


我覺得這是非常不負責任的公家機關推拖之詞,
用老百姓的納稅錢所建構出來的資料庫,
居然還如此這般的撇清責任,
都沒有任何的反制之道嗎???
我沒有什麼法律專業,
但我認為在一般社會大眾/國家公民的理解上,
公家機關要對這個資料庫"負責任"是應該且必須的,
這麼可以這樣推拖!?
沒有其他監督機制可以來制衡這個國家發展委員會/全字庫了嗎???

何謂正確?有些東西可能不同學者專家有不同看法的情形

而且公務人員也只是辦事的 並非國學專家

那些資料庫、軟體,應該也只是外包的吧?

我想 要公務人員擔保資料庫的正確性的責任 是有點太過了

頂多是要求他們 遇到錯誤要處理

但你要先說服他們 資料庫確實是有錯誤

如果不處理 就找他們的主管

還是無效的話

找些「有力人士」去說

如 關心這塊領域的學者專家

再不然的話

親自跑一趟

把你們的對話 錄下來

公布在網路上

讓大家評斷一下

很有爆點的話 就寄去爆料 XD

 

 

IanHo
22
Promote 0 Bookmark 02014-04-13quote  

coolcd

 

幾乎所有軟體都有這種聲明吧

免得發生意外時被求償 要賠大錢 XD

 

何謂正確?有些東西可能不同學者專家有不同看法的情形

而且公務人員也只是辦事的 並非國學專家

那些資料庫、軟體,應該也只是外包的吧?

我想 要公務人員擔保資料庫的正確性的責任 是有點太過了

頂多是要求他們 遇到錯誤要處理

但你要先說服他們 資料庫確實是有錯誤

如果不處理 就找他們的主管

還是無效的話

找些「有力人士」去說

如 關心這塊領域的學者專家

再不然的話

親自跑一趟

把你們的對話 錄下來

公布在網路上

讓大家評斷一下

很有爆點的話 就寄去爆料 XD

我在2012年就電話+email反應過全字庫資料內容一堆bug。

結果2014年的現在,我看到別人反應了我2012年就曾經反應過的bug,

http://data.gov.tw/node/5961

可見真的是公務員擺爛。

另外我覺得要看資料“內容”和“使用情境”而定,這玩意兒不是什麼商業軟體,

這是屬於中華民國臺灣國家""基礎建設"(人文社會文化類)的資料庫,

"我認為"是國家單位領了老百姓納稅錢之後的必須有義務24小時維護其資料正確性的公共財,

不應該只是坐在那邊等者別人回報bug,而是要“主動”的找出並改善bug。

至於這個資料庫背後的維護運做方式如何,那是另一回事,管他公務員還是承包商,他們自己“去喬”,

反正就是拿了老百姓納稅錢,資料庫的內容就是要24小時關注並對於bug做出即時的修正。

這玩意兒某種程度還說算是全民的漢字教材,24小時供全民查閱,

怎麼可以容許有錯誤的漢字資料屬性存在?

有些錯誤明顯的就是建資料庫的階段"打錯字",校稿階段就有問題。

校稿不力就上線,那明顯的就是公家機關在擺爛。

若這些全都是承包商做的,那就表示公務員監督不確實,公務員還是有錯,

若承包商認為酬勞太少,那或許有被公家機關污掉的“可能性”。

臺灣政府單位真的很悲哀,我希望這次的學運延伸成社運,

看看有沒有機會換一批真的願意做事的公務員上來。

若有一批願意做事的公務員上來,我希望能包含到整個“國家發展委員會”含全字庫業務單位。

 

 

 

IanHo
23 關於linux圖形桌面有無大量批次取代字串的全圖形介面操作流程軟體工具?
Promote 0 Bookmark 02014-04-20quote  

關於linux圖形桌面有無大量批次取代字串的全圖形介面操作流程軟體工具?

再換個角度問問看好了。
這裡先舉例我的需求與MsWindows環境的操作流程如下:
有兩個純文字檔案A和B,檔案A有一個欄位共11萬列的文字字串,
這11萬列內有將近一萬列是重複一次到多次的。
檔案B有兩個欄位,這兩個欄位同樣都是10萬列,
這兩個欄位的內容字串完全不重複,
然後檔案A的字串內容,和檔案B的欄位1的字串內容“一樣”,
接下來,我需要使用批次大量取代的功能,把檔案B的欄位2的有字串內容,
完全替換到檔案A裡頭去。替換過後的檔案A就是我要的東西。
我"需要"""完全圖形介面""從頭到尾的""操作流程""。
在MsWindows環境,我找到了做法,使用emeditor這套進階純文字編輯器,
其中有個 取代\批量取代\批次處理 功能,我可以匯入改過的相容於
emeditor的客製化TSV格式的檔案B。然後就可以生成我需要的
替換過後的檔案A。從頭到尾全圖形介面完成操作。
再來我也想在Linux圖形桌面環境,以“全圖形介面操作流程”的方式,
來完成這個替換過後的檔案A。
然而我試了 batch replace text linux 等等關鍵字的排列組合去google,
就是“找不到”我需要的東西。
這是因為linux圖形桌面現階段真的就是"沒有"批次大量取代字串的圖形介面工具???
還是只是因為我眼殘沒找到???
如果真的是我眼殘所以沒找到的話,請問現階段有哪一套/哪一個
linux圖形桌面"全圖形介面的工具"可以類似像emeditor那樣,
有馬上做字串的批量取代/批次處理的功能???

Apan Liao
24 關於linux圖形桌面有無大量批次取代字串的全圖形介面操作流程軟體工具?
Promote 0 Bookmark 02014-04-21quote  

IanHo

關於linux圖形桌面有無大量批次取代字串的全圖形介面操作流程軟體工具?

再換個角度問問看好了。
這裡先舉例我的需求與MsWindows環境的操作流程如下:
有兩個純文字檔案A和B,檔案A有一個欄位共11萬列的文字字串,
這11萬列內有將近一萬列是重複一次到多次的。
檔案B有兩個欄位,這兩個欄位同樣都是10萬列,
這兩個欄位的內容字串完全不重複,
然後檔案A的字串內容,和檔案B的欄位1的字串內容“一樣”,
接下來,我需要使用批次大量取代的功能,把檔案B的欄位2的有字串內容,
完全替換到檔案A裡頭去。替換過後的檔案A就是我要的東西。
我"需要"""完全圖形介面""從頭到尾的""操作流程""。
在MsWindows環境,我找到了做法,使用emeditor這套進階純文字編輯器,
其中有個 取代\批量取代\批次處理 功能,我可以匯入改過的相容於
emeditor的客製化TSV格式的檔案B。然後就可以生成我需要的
替換過後的檔案A。從頭到尾全圖形介面完成操作。
再來我也想在Linux圖形桌面環境,以“全圖形介面操作流程”的方式,
來完成這個替換過後的檔案A。
然而我試了 batch replace text linux 等等關鍵字的排列組合去google,
就是“找不到”我需要的東西。
這是因為linux圖形桌面現階段真的就是"沒有"批次大量取代字串的圖形介面工具???
還是只是因為我眼殘沒找到???
如果真的是我眼殘所以沒找到的話,請問現階段有哪一套/哪一個
linux圖形桌面"全圖形介面的工具"可以類似像emeditor那樣,
有馬上做字串的批量取代/批次處理的功能???

我猜應該是沒有這種東西。你可以考慮在 Linux 主機上以 virtualbox 灌 windows 工作可能還快一點。不過話說回來,這項工作對會寫程式的朋友來說應該不困難(甚至可以說簡單)。如果你的這項工作是純公益的,那或許在網路上找到朋友幫忙你寫個小程式來做也是個好主意。

cht電腦資訊
adm Find login register
views:53598