cht電腦資訊輸入法
adm Find login register

自製超大字集正體中文輸入法表格檔分享

IanHo
31
Promote 0 Bookmark 02019-04-19quote  

Apan Liao

我延用上面python碼再看了一次,事實上,無論新版和舊版,都存在完全一樣的問題(行號都一樣)。不客氣地說,這表示你沒有自我檢測出問題的能力(因為你手上的新版有一樣的問題但你說沒有)。建議你把該python碼小改一下把所有的工作都檢查一次。

所以 到底是 哪幾行、哪幾個鍵入碼、哪幾個碼位、哪幾個字元,甚至全字庫該字元的直連網址 呢? 還是沒有人提出來。



Apan Liao
32
Promote 0 Bookmark 02019-04-19quote  

IanHo

 

所以 到底是 哪幾行、哪幾個鍵入碼、哪幾個碼位、哪幾個字元,甚至全字庫該字元的直連網址 呢? 還是沒有人提出來。



針對

https://sites.google.com/site/ianho7979/InputMethodTables/CnsMPSII108-04_GCIN.cin.zip?attredirects=0&d=1

一樣是內容為chi2\t\U000f065e和yung3\t\U000f07e8有重覆,列號64184-5和117733-4。

都一樣的錯誤。

 

我猜,你不知道什麼叫U000f07e8對嗎?

qtnez
33
Promote 0 Bookmark 02019-04-19quote  

IanHo
所以某個角度來說來說我誤會了!這裡請以「新版」為準,舊版的就請無視了!!!

 

用 訪客 這個ID 發言真的好方便啊,拿「舊版」的可以一直嚷嚷。臺灣網路討論文化的劣根性大概就是這麼一回事吧?

所以「新版」的到底重複在哪裡呢? 或許有人要開始裝死了?會裝死多久呢?裝死到永久?

從哪個角度來看都是你在牽拖。你只要針對事就好了,管是誰發言的?

在證據面前還在東扯西扯無關的事項,真的是夠了!

IanHo
34
Promote 0 Bookmark 02019-04-19quote  

Apan Liao

 

針對

https://sites.google.com/site/ianho7979/InputMethodTables/CnsMPSII108-04_GCIN.cin.zip?attredirects=0&d=1

一樣是內容為chi2\t\U000f065e和yung3\t\U000f07e8

有重覆,列號64184-5和117733-4。

都一樣的錯誤。

 

我猜,你不知道什麼叫U000f07e8對嗎?

前面貼過的再貼一次

我檢查的結果
Line 64184
https://www.cns11643.gov.tw/wordView.jsp?ID=996415

Line 64185
https://www.cns11643.gov.tw/wordView.jsp?ID=996907

Line 117733
https://www.cns11643.gov.tw/wordView.jsp?ID=801617

Line 117734
https://www.cns11643.gov.tw/wordView.jsp?ID=860509

f065e

https://www.cns11643.gov.tw/wordView.jsp?ID=1257547

f07e8

https://www.cns11643.gov.tw/wordView.jsp?ID=1258589

都沒有重複。

F065E 有一字多音就是了。

 


 

Apan Liao
35
Promote 0 Bookmark 02019-04-19quote  

IanHo

 

前面貼過的再貼一次

我檢查的結果
Line 64184
https://www.cns11643.gov.tw/wordView.jsp?ID=996415

Line 64185
https://www.cns11643.gov.tw/wordView.jsp?ID=996907

Line 117733
https://www.cns11643.gov.tw/wordView.jsp?ID=801617

Line 117734
https://www.cns11643.gov.tw/wordView.jsp?ID=860509

f065e

https://www.cns11643.gov.tw/wordView.jsp?ID=1257547

f07e8

https://www.cns11643.gov.tw/wordView.jsp?ID=1258589

都沒有重複。

F065E 有一字多音就是了。

 

 

你要不要干脆把一個你手上的檔案上傳到這裡來,以確定大家檢驗的檔案確實是同一個?我還是覺得你和別人看著不同的檔案。

IanHo
36
Promote 0 Bookmark 02019-04-19quote  

Apan Liao

 

你要不要干脆把一個你手上的檔案上傳到這裡來,以確定大家檢驗的檔案確實是同一個?我還是覺得你和別人看著不同的檔案。

啊,我應該補充這樣的查證資料!
行數 64231 chi2 「󰙞」F065E
行數115952 yung3 「󰟨」F07E8
搞不好真的是在雞同鴨講也有可能!

IanHo
37
Promote 0 Bookmark 02019-04-19quote  

上傳試試!

Apan Liao
38
Promote 0 Bookmark 02019-04-19quote  

針對 http://hyperrate.com/topic-files-dir/81/34481-UdedsvYI1g/CnsMPSII108-04_GCIN.cin 來看,沒有重覆問題。

md5檢查 http://hyperrate.com/topic-files-dir/81/34481-UdedsvYI1g/CnsMPSII108-04_GCIN.cin 和 https://sites.google.com/site/ianho7979/InputMethodTables/CnsMPSII108-04_GCIN.cin.zip?attredirects=0&d=1 是相同的,表示你的網站上的同一檔案也沒有問題。上回我延用程式碼時沒有留意到一項必要更正。

以下是其它重要錯誤。

      Line     Key          Val
 1: 118072   ang55 <U+0002B758>
 2: 118076   coi11 <U+0002B7AD>
 3: 118077  dang11 <U+0002B7BB>
 4: 118078   din24 <U+0002B7E7>
 5: 118079   diu11 <U+0002B7EE>
 6: 118080   diu24 <U+0002B7EE>
 7: 118081    ga31 <U+0002B80E>
 8: 118082   gai11 <U+0002B804>
 9: 118084  gien55 <U+000FB639>
10: 118088    in55 <U+000FB634>
11: 118089    ka31 <U+0002B80E>
12: 118094 ngiam55 <U+000FB63D>
13: 118097   sen11 <U+0002B81B>
14: 118098   sen55 <U+0002B81B>
15: 118101   siu53 <U+0002B77D>
16: 118103   tin24 <U+0002B7E7>
17: 118106   xiu31 <U+0002B77D>

以上拚音聲符不正確(two digits)。以後用grep找[0-9]{2,}$。

   Line    Key          Val
 118076  coi11 <U+0002B7AD>
 118077 dang11 <U+0002B7BB>
 118079  diu11 <U+0002B7EE>
 118081   ga31 <U+0002B80E>
 118082  gai11 <U+0002B804>
 118089   ka31 <U+0002B80E>
 118097  sen11 <U+0002B81B>
 118106  xiu31 <U+0002B77D>

以下末碼為1。照道理1為第一聲不入鍵,但上一問題修正後可能就也一併修正了。

  Line   Key              Val
118073   Bil         <U+341F>

以上用到大寫。以後用grep找[A-Z]。


  Line   Key              Val
118074    bu     <U+0002B75E>

118083   gán     <U+0002B74F>
118085   hân     <U+0002B7C2>
118086   hiù     <U+0002B77A>
118087   huê     <U+0002B77B>
118090  káng     <U+0002B7B3>
118096  sãng     <U+0002B7E3>
118099 siâng     <U+0002B75B>
118100  siòh     <U+0002B7CA>
118102  tiám     <U+000FB656>
118104 tshãi     <U+0002B7BC>
118105 tshiò     <U+0002B759>

以上拚碼用了非ASCII。例如L118074應是"u"而非"ū"。以後自己用grep找[^a-z0-9]。

其它一些小毛病,例如分隔字元有時是space有時是tab,嚴格來說必須一致。

建議你訂正後或未來其它檔案都再用程式檢查一次,包括有無重覆及上述這些錯誤。

 

最後勸你一句。別人匿名幫你糾錯,還真找到錯,你的口氣也還真差。這種態度以後誰要幫你?誰要信你?

IanHo
39
Promote 0 Bookmark 02019-04-19quote  

我在文件裡面就有提到:

本檔案對照表最末尾段落的鍵入碼是所謂的帶聲調符號的拼音符號+一串數字,因
為我不知道該怎麼處理它,乾脆原封不動保留原始檔案內的資料。

轉檔過程中可能會在最末尾段落「帶有聲調符號」的拼音符號那幾行轉換過不去,
請使用者端自行選用替代的英文字母來改掉。

---

前面的討論串真的有找到錯和重複嗎?至少到目前為止還沒有吧?

Apan Liao

針對 http://hyperrate.com/topic-files-dir/81/34481-UdedsvYI1g/CnsMPSII108-04_GCIN.cin 來看,沒有重覆問題。

md5檢查 http://hyperrate.com/topic-files-dir/81/34481-UdedsvYI1g/CnsMPSII108-04_GCIN.cin 和 https://sites.google.com/site/ianho7979/InputMethodTables/CnsMPSII108-04_GCIN.cin.zip?attredirects=0&d=1 是相同的,表示你的網站上的同一檔案也沒有問題。上回我延用程式碼時沒有留意到一項必要更正。

以下是其它重要錯誤。

      Line     Key          Val
 1: 118072   ang55 <U+0002B758>
 2: 118076   coi11 <U+0002B7AD>
 3: 118077  dang11 <U+0002B7BB>
 4: 118078   din24 <U+0002B7E7>
 5: 118079   diu11 <U+0002B7EE>
 6: 118080   diu24 <U+0002B7EE>
 7: 118081    ga31 <U+0002B80E>
 8: 118082   gai11 <U+0002B804>
 9: 118084  gien55 <U+000FB639>
10: 118088    in55 <U+000FB634>
11: 118089    ka31 <U+0002B80E>
12: 118094 ngiam55 <U+000FB63D>
13: 118097   sen11 <U+0002B81B>
14: 118098   sen55 <U+0002B81B>
15: 118101   siu53 <U+0002B77D>
16: 118103   tin24 <U+0002B7E7>
17: 118106   xiu31 <U+0002B77D>

以上拚音聲符不正確(two digits)。以後用grep找[0-9]{2,}$。

   Line    Key          Val
 118076  coi11 <U+0002B7AD>
 118077 dang11 <U+0002B7BB>
 118079  diu11 <U+0002B7EE>
 118081   ga31 <U+0002B80E>
 118082  gai11 <U+0002B804>
 118089   ka31 <U+0002B80E>
 118097  sen11 <U+0002B81B>
 118106  xiu31 <U+0002B77D>

以下末碼為1。照道理1為第一聲不入鍵,但上一問題修正後可能就也一併修正了。

  Line   Key              Val
118073   Bil         <U+341F>

以上用到大寫。以後用grep找[A-Z]。


  Line   Key              Val
118074    bu     <U+0002B75E>

118083   gán     <U+0002B74F>
118085   hân     <U+0002B7C2>
118086   hiù     <U+0002B77A>
118087   huê     <U+0002B77B>
118090  káng     <U+0002B7B3>
118096  sãng     <U+0002B7E3>
118099 siâng     <U+0002B75B>
118100  siòh     <U+0002B7CA>
118102  tiám     <U+000FB656>
118104 tshãi     <U+0002B7BC>
118105 tshiò     <U+0002B759>

以上拚碼用了非ASCII。例如L118074應是"u"而非"ū"。以後自己用grep找[^a-z0-9]。

其它一些小毛病,例如分隔字元有時是space有時是tab,嚴格來說必須一致。

建議你訂正後或未來其它檔案都再用程式檢查一次,包括有無重覆及上述這些錯誤。

 

最後勸你一句。別人匿名幫你糾錯,還真找到錯,你的口氣也還真差。這種態度以後誰要幫你?誰要信你?

Apan Liao
40
Promote 0 Bookmark 02019-04-19quote  

IanHo

我在文件裡面就有提到:

本檔案對照表最末尾段落的鍵入碼是所謂的帶聲調符號的拼音符號+一串數字,因
為我不知道該怎麼處理它,乾脆原封不動保留原始檔案內的資料。

轉檔過程中可能會在最末尾段落「帶有聲調符號」的拼音符號那幾行轉換過不去,
請使用者端自行選用替代的英文字母來改掉。

---

前面的討論串真的有找到錯和重複嗎?至少到目前為止還沒有吧?

 

如果是漢語拚音,對象是國語/普通話,自然不會用到這些新創的方言用字,也不存在所謂「官方拚法」。我建議先comment起來就好,未來有需要再加入。

要用方言新創字的人,自然會採用合適的碼表,不必硬把所有長得像漢字的字元都配上一個普通話發音。

IanHo
41
Promote 0 Bookmark 02019-04-19quote  

Apan Liao

 

如果是漢語拚音,對象是國語/普通話,自然不會用到這些新創的方言用字,也不存在所謂「官方拚法」。我建議先comment起來就好,未來有需要再加入。

要用方言新創字的人,自然會採用合適的碼表,不必硬把所有長得像漢字的字元都配上一個普通話發音。

謝謝提醒,下一版我會注意。space / TAB 空格的問題,下一版我再細看。

 

prev,1,2

cht電腦資訊輸入法
adm Find login register
views:74426