自製超大字集正體中文輸入法表格檔分享

IanHo
31
0 0	2019-04-19	quote

Apan Liao

我延用上面python碼再看了一次，事實上，無論新版和舊版，都存在完全一樣的問題（行號都一樣）。不客氣地說，這表示你沒有自我檢測出問題的能力（因為你手上的新版有一樣的問題但你說沒有）。建議你把該python碼小改一下把所有的工作都檢查一次。

所以到底是哪幾行、哪幾個鍵入碼、哪幾個碼位、哪幾個字元，甚至全字庫該字元的直連網址呢？還是沒有人提出來。

Apan Liao
32
0 0	2019-04-19	quote

IanHo

所以到底是哪幾行、哪幾個鍵入碼、哪幾個碼位、哪幾個字元，甚至全字庫該字元的直連網址呢？還是沒有人提出來。

針對

https://sites.google.com/site/ianho7979/InputMethodTables/CnsMPSII108-04_GCIN.cin.zip?attredirects=0&d=1

一樣是內容為chi2\t\U000f065e和yung3\t\U000f07e8有重覆，列號64184-5和117733-4。

都一樣的錯誤。

我猜，你不知道什麼叫U000f07e8對嗎？

qtnez
33
0 0	2019-04-19	quote

IanHo

所以某個角度來說來說我誤會了！這裡請以「新版」為準，舊版的就請無視了！！！

用訪客這個ＩＤ發言真的好方便啊，拿「舊版」的可以一直嚷嚷。臺灣網路討論文化的劣根性大概就是這麼一回事吧？

所以「新版」的到底重複在哪裡呢？或許有人要開始裝死了？會裝死多久呢？裝死到永久？

從哪個角度來看都是你在牽拖。你只要針對事就好了，管是誰發言的？

在證據面前還在東扯西扯無關的事項，真的是夠了！

IanHo
34
0 0	2019-04-19	quote

Apan Liao

針對

https://sites.google.com/site/ianho7979/InputMethodTables/CnsMPSII108-04_GCIN.cin.zip?attredirects=0&d=1

一樣是內容為chi2\t\U000f065e和yung3\t\U000f07e8

有重覆，列號64184-5和117733-4。

都一樣的錯誤。

我猜，你不知道什麼叫U000f07e8對嗎？

前面貼過的再貼一次

我檢查的結果
Line 64184
https://www.cns11643.gov.tw/wordView.jsp?ID=996415

Line 64185
https://www.cns11643.gov.tw/wordView.jsp?ID=996907

Line 117733
https://www.cns11643.gov.tw/wordView.jsp?ID=801617

Line 117734
https://www.cns11643.gov.tw/wordView.jsp?ID=860509

f065e

https://www.cns11643.gov.tw/wordView.jsp?ID=1257547

f07e8

https://www.cns11643.gov.tw/wordView.jsp?ID=1258589

都沒有重複。

F065E 有一字多音就是了。

Apan Liao
35
0 0	2019-04-19	quote

IanHo

前面貼過的再貼一次

我檢查的結果
Line 64184
https://www.cns11643.gov.tw/wordView.jsp?ID=996415

Line 64185
https://www.cns11643.gov.tw/wordView.jsp?ID=996907

Line 117733
https://www.cns11643.gov.tw/wordView.jsp?ID=801617

Line 117734
https://www.cns11643.gov.tw/wordView.jsp?ID=860509

f065e

https://www.cns11643.gov.tw/wordView.jsp?ID=1257547

f07e8

https://www.cns11643.gov.tw/wordView.jsp?ID=1258589

都沒有重複。

F065E 有一字多音就是了。

你要不要干脆把一個你手上的檔案上傳到這裡來，以確定大家檢驗的檔案確實是同一個？我還是覺得你和別人看著不同的檔案。

IanHo
36
0 0	2019-04-19	quote

Apan Liao

你要不要干脆把一個你手上的檔案上傳到這裡來，以確定大家檢驗的檔案確實是同一個？我還是覺得你和別人看著不同的檔案。

啊，我應該補充這樣的查證資料！
行數 64231 chi2 「󰙞」F065E
行數115952 yung3 「󰟨」F07E8
搞不好真的是在雞同鴨講也有可能！

IanHo
37
0 0	2019-04-19	quote

上傳試試！

Apan Liao
38
0 0	2019-04-19	quote

針對 http://hyperrate.com/topic-files-dir/81/34481-UdedsvYI1g/CnsMPSII108-04_GCIN.cin 來看，沒有重覆問題。

md5檢查 http://hyperrate.com/topic-files-dir/81/34481-UdedsvYI1g/CnsMPSII108-04_GCIN.cin 和 https://sites.google.com/site/ianho7979/InputMethodTables/CnsMPSII108-04_GCIN.cin.zip?attredirects=0&d=1 是相同的，表示你的網站上的同一檔案也沒有問題。上回我延用程式碼時沒有留意到一項必要更正。

以下是其它重要錯誤。

      Line     Key          Val
1: 118072   ang55 <U+0002B758>
2: 118076   coi11 <U+0002B7AD>
3: 118077 dang11 <U+0002B7BB>
4: 118078   din24 <U+0002B7E7>
5: 118079   diu11 <U+0002B7EE>
6: 118080   diu24 <U+0002B7EE>
7: 118081    ga31 <U+0002B80E>
8: 118082   gai11 <U+0002B804>
9: 118084 gien55 <U+000FB639>
10: 118088    in55 <U+000FB634>
11: 118089    ka31 <U+0002B80E>
12: 118094 ngiam55 <U+000FB63D>
13: 118097   sen11 <U+0002B81B>
14: 118098   sen55 <U+0002B81B>
15: 118101   siu53 <U+0002B77D>
16: 118103   tin24 <U+0002B7E7>
17: 118106   xiu31 <U+0002B77D>

以上拚音聲符不正確（two digits）。以後用grep找[0-9]{2,}$。

   Line    Key          Val
118076 coi11 <U+0002B7AD>
118077 dang11 <U+0002B7BB>
118079 diu11 <U+0002B7EE>
118081   ga31 <U+0002B80E>
118082 gai11 <U+0002B804>
118089   ka31 <U+0002B80E>
118097 sen11 <U+0002B81B>
118106 xiu31 <U+0002B77D>

以下末碼為1。照道理1為第一聲不入鍵，但上一問題修正後可能就也一併修正了。

Line Key Val
118073 Bil <U+341F>

以上用到大寫。以後用grep找[A-Z]。

Line   Key              Val
118074    bu     <U+0002B75E>
118083   gán     <U+0002B74F>
118085   hân     <U+0002B7C2>
118086   hiù     <U+0002B77A>
118087   huê     <U+0002B77B>
118090 káng     <U+0002B7B3>
118096 sãng     <U+0002B7E3>
118099 siâng     <U+0002B75B>
118100 siòh     <U+0002B7CA>
118102 tiám     <U+000FB656>
118104 tshãi     <U+0002B7BC>
118105 tshiò     <U+0002B759>

以上拚碼用了非ASCII。例如L118074應是"u"而非"ū"。以後自己用grep找[^a-z0-9]。

其它一些小毛病，例如分隔字元有時是space有時是tab，嚴格來說必須一致。

建議你訂正後或未來其它檔案都再用程式檢查一次，包括有無重覆及上述這些錯誤。

最後勸你一句。別人匿名幫你糾錯，還真找到錯，你的口氣也還真差。這種態度以後誰要幫你？誰要信你？

IanHo
39
0 0	2019-04-19	quote

我在文件裡面就有提到：

本檔案對照表最末尾段落的鍵入碼是所謂的帶聲調符號的拼音符號＋一串數字，因
為我不知道該怎麼處理它，乾脆原封不動保留原始檔案內的資料。

轉檔過程中可能會在最末尾段落「帶有聲調符號」的拼音符號那幾行轉換過不去，
請使用者端自行選用替代的英文字母來改掉。

---

前面的討論串真的有找到錯和重複嗎？至少到目前為止還沒有吧？

Apan Liao

針對 http://hyperrate.com/topic-files-dir/81/34481-UdedsvYI1g/CnsMPSII108-04_GCIN.cin 來看，沒有重覆問題。

以下是其它重要錯誤。

以上拚音聲符不正確（two digits）。以後用grep找[0-9]{2,}$。

以下末碼為1。照道理1為第一聲不入鍵，但上一問題修正後可能就也一併修正了。

Line Key Val
118073 Bil <U+341F>

以上用到大寫。以後用grep找[A-Z]。

以上拚碼用了非ASCII。例如L118074應是"u"而非"ū"。以後自己用grep找[^a-z0-9]。

其它一些小毛病，例如分隔字元有時是space有時是tab，嚴格來說必須一致。

建議你訂正後或未來其它檔案都再用程式檢查一次，包括有無重覆及上述這些錯誤。

最後勸你一句。別人匿名幫你糾錯，還真找到錯，你的口氣也還真差。這種態度以後誰要幫你？誰要信你？

Apan Liao
40
0 0	2019-04-19	quote

IanHo

我在文件裡面就有提到：

本檔案對照表最末尾段落的鍵入碼是所謂的帶聲調符號的拼音符號＋一串數字，因
為我不知道該怎麼處理它，乾脆原封不動保留原始檔案內的資料。

轉檔過程中可能會在最末尾段落「帶有聲調符號」的拼音符號那幾行轉換過不去，
請使用者端自行選用替代的英文字母來改掉。

---

前面的討論串真的有找到錯和重複嗎？至少到目前為止還沒有吧？

如果是漢語拚音，對象是國語／普通話，自然不會用到這些新創的方言用字，也不存在所謂「官方拚法」。我建議先comment起來就好，未來有需要再加入。

要用方言新創字的人，自然會採用合適的碼表，不必硬把所有長得像漢字的字元都配上一個普通話發音。

IanHo
41
0 0	2019-04-19	quote

Apan Liao

要用方言新創字的人，自然會採用合適的碼表，不必硬把所有長得像漢字的字元都配上一個普通話發音。

謝謝提醒，下一版我會注意。space / TAB 空格的問題，下一版我再細看。