cht電腦資訊gcin
adm Find login register

正體 ←→簡體轉換。

eliu

joined: 2007-08-09
posted: 11478
promoted: 617
bookmarked: 187
新竹, 台灣
1subject: 正體 ←→簡體轉換。Promote 0 Bookmark 02008-01-26quote  

目前正體←→简體轉換是用

UTF-8←→Big5←→GB-2321←→UTF-8

問題就出在如果文章有 UTF-8 character 是 Big5 or GB-2321 無法表示的,那就會掉字。是有辦法避掉,可是有點麻煩。

最佳的解決還是 UTF-8正 <-> UTF-8简。看有沒有人去弄出 UTF-8 的對應 text file。

 

edited: 3
本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
2subject: Promote 0 Bookmark 02008-01-25quote  

是要這個嗎?如附件:Big5_to_GB2312.txt.gz。


caleb
joined: 2007-09-22
posted: 630
promoted: 134
bookmarked: 90
4subject: 正體 ←→簡體轉換。Promote 0 Bookmark 02008-01-25quote  

哦,LGJ 貼的那個檔就是 gcin trac 的。

這個檔應該還是要再整理過,不過 bug 應該比 glibc / libhz0 (zh-autoconvert) 少了。

firefox 同文堂也蠻值得參考的,不過同文堂也是有不少 bug。 

eliu

joined: 2007-08-09
posted: 11478
promoted: 617
bookmarked: 187
新竹, 台灣
5subject: Promote 0 Bookmark 02008-01-26quote  
  1. gcin 內部的不 load 到 memory,直接用 indexed file search。
  2. sim2trad 則是 load 到 memory 。
eliu

joined: 2007-08-09
posted: 11478
promoted: 617
bookmarked: 187
新竹, 台灣
6subject: Promote 0 Bookmark 02008-01-26quote  

-- 老笑話 

肚子餓了,我回去下麵給你吃。 轉成簡體中文。

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
7subject: 正體 ←→簡體轉換。Promote 0 Bookmark 02008-01-26quote  
caleb

哦,LGJ 貼的那個檔就是 gcin trac 的。

這個檔應該還是要再整理過,不過 bug 應該比 glibc / libhz0 (zh-autoconvert) 少了。

firefox 同文堂也蠻值得參考的,不過同文堂也是有不少 bug。 

我也忘了從哪裡來的,就躺在我的硬碟上。吐舌頭

我猜最終的原始出處是在 Unicode.org:

http://unicode.org/reports/tr30/datafiles/SimplifiedHanFolding.txt

然後再加加減減的。
 


eliu

joined: 2007-08-09
posted: 11478
promoted: 617
bookmarked: 187
新竹, 台灣
8subject: Promote 0 Bookmark 02008-01-27quote  

gcin 现在开始改用自己的简正转换,發現 data 有錯

開 开

麻煩再看一下還有沒有錯。 

edited: 2
本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
9subject: Promote 0 Bookmark 02008-01-27quote  

source 在哪裡?(伸)。吐舌頭


eliu

joined: 2007-08-09
posted: 11478
promoted: 617
bookmarked: 187
新竹, 台灣
10subject: Promote 0 Bookmark 02008-01-27quote  

 你給的 Big5_to_GB2312.txt.gz

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
11subject: Promote 0 Bookmark 02008-01-27quote  

那個是有人 po 到 cle trac 上去的,我下載後,忘了出處了。:p

我把他和 Unicode 的來比較一下好了。
 


本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
12subject: Promote 0 Bookmark 02008-01-27quote  

以下這是兩個檔合併的(b5-gb2.txt.gz)。

b5-gb2.txt =  Big5_to_GB2312.txt + SimplifiedHanFolding.txt。

ps. 开的已更正。
 


edited: 2
本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
13subject: Promote 0 Bookmark 02008-01-28quote  

我發現一個問題,那就是不必只限定在 Big-5 範圍,例如:

㠏㩜䊷䋙䋻䝼䯀䰾䱽䲁
㟆㨫䌶䌺䌾䞍䯅鲃䲝鳚

這些都不在 Big-5/GB2312 的範圍,但有繁轉簡的問題。

我試過了,這些加進去,轉換仍然正常,不會有什麼影響。eliu 弄了個新版本,大家來幫忙「抓漏」吧!微笑

http://www.csie.nctu.edu.tw/~cp76/gcin/download/gcin-1.3.9.pre1.tar.bz2

等我校正好後再把 table po 過來。


edited: 1
本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
15subject: Promote 0 Bookmark 02008-01-28quote  

Done & Thanks. 我把檔名改成 t2s-file.table(如附件),以便和程式碼名配合,要使用這個檔 t2s-file.c 及同目錄的 Makefile 要改一下檔名。


edited: 1
本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
16subject: Promote 0 Bookmark 02008-01-28quote  

這個目前算是初步定案,和「Wikipedia:Unihan繁简体对照表」比對的結果有四處不同,已經更正過來了:

 --- t2s-file.table.orig    2008-01-28 18:11:38.000000000 +0800
+++ t2s-file.table    2008-01-28 22:09:07.000000000 +0800
@@ -1046,7 +1046,6 @@
 瞼    睑
 矇    蒙
 矓    眬
-矓    胧
 矚    瞩
 矯    矫
 硜    硁
@@ -1490,7 +1489,7 @@
 薦    荐
 薩    萨
 薳    䓕
-薴    苎
+薴    苧
 薺    荠
 藍    蓝
 藎    荩
@@ -2115,7 +2114,6 @@
 銳    锐
 銷    销
 銹    锈
-銹    锤
 銻    锑
 銼    锉
 鋁    铝
@@ -2243,7 +2241,6 @@
 鏷    镤
 鏹    镪
 鏽    锈
-鏽    锤
 鐃    铙
 鐋    铴
 鐐    镣

 


本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
19subject: Promote 0 Bookmark 02008-01-29quote  

呃,偷懶被發現了。吐舌頭

晚上再來看看……
 


本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
21subject: Promote 0 Bookmark 02008-01-29quote  

OK,訂正了一下(有一些是正確的轉換,所以就維持原狀了)。見附檔 ts2-file.table.gz。

另外附上 cn2jp 的 big2gb.tbl 供大家參考,我已把他轉成 UTF-8,裡頭的 hex 是 Big-5 碼的。

目前一對多的只留一個,因為對目前的 gcin 而言,似沒有必要。新增的部份全數加入,Thanks.

日文漢字的部份我是覺得不動他比較好,因為他沒有繁簡之分,加進去轉的話,反而容易亂掉或被誤會?不知道大家覺得如何?

ConvertZ BI_SimFix.dat 是 gb18030,支援這個編碼的編輯器就可以看了。不過,資料要詳加訂正一下才敢用。微笑


edited: 3

CC: Jokes 笑話
cht電腦資訊gcin
adm Find login register
views:46494