cht電腦資訊輸入法
adm Find login register

自製超大字集正體中文輸入法表格檔分享

IanHo
1 自製超大字集正體中文輸入法表格檔分享
Promote 0 Bookmark 02019-04-16quote  

我編輯了四個正體中文輸入法表格檔,分別支援 注音、國語注音符號第二式、開放香草框架(Mac)、gcin(linux)。

支援的字量約有九萬五千多個,注音屬性資料主要參考自行政院國發會全字庫,有興趣的網友或許參考。
CnsMPSII108-04_GCIN.cin
CnsPhonetic108-04_GCIN.cin
CnsMPSII108-04_OV.cin
CnsPhonetic108-04_OV.cin
https://sites.google.com/site/ianho7979/InputMethodTables

guest
2
Promote 0 Bookmark 02019-04-17quote  

你可能沒有清理好。看一下 CnsMPSII108-04_GCIN.cin,以下二者各額外存在一次重覆:

chi2 <U+000F065E>
yung3 <U+000F07E8>

IanHo
3
Promote 0 Bookmark 02019-04-17quote  

guest

你可能沒有清理好。看一下 CnsMPSII108-04_GCIN.cin,以下二者各額外存在一次重覆:

chi2 <U+000F065E>
yung3 <U+000F07E8>

這兩組對照,我沒有找到重複噎!

或者您直接告訴我有重複的行數有哪些,這樣我找比較快!

edited: 1
guest
4
Promote 0 Bookmark 02019-04-17quote  

See L64184, L64185, L117733 & L117734 in CnsMPSII108-04_GCIN.cin.

IanHo
5
Promote 0 Bookmark 02019-04-17quote  

guest

See L64184, L64185, L117733 & L117734 in CnsMPSII108-04_GCIN.cin.

 

我檢查的結果
Line 64184
https://www.cns11643.gov.tw/wordView.jsp?ID=996415

Line 64185
https://www.cns11643.gov.tw/wordView.jsp?ID=996907

Line 117733
https://www.cns11643.gov.tw/wordView.jsp?ID=801617

Line 117734
https://www.cns11643.gov.tw/wordView.jsp?ID=860509

都不一樣喔!

guest
6
Promote 0 Bookmark 02019-04-17quote  

According to your cin file encoded by UTF-8, L64184 & L64185 are both exactly U+0F065E. You're just responding nonsense.

IanHo
7
Promote 0 Bookmark 02019-04-18quote  

guest

According to your cin file encoded by UTF-8, L64184 & L64185 are both exactly U+0F065E. You're just responding nonsense.

可能要麻煩您用國語習慣的正體中文來論述,整串都英文我看不懂你在寫什麼。

 

edited: 2
guest
8
Promote 0 Bookmark 02019-04-18quote  

IanHo

 

可能要麻煩您用國語習慣的正體中文來論述,整串都英文我看不懂你在寫什麼。

 

你在CnsMPSII107-03_GCIN.cin.zip中搜尋U+000f065e和U+000f07e8就馬上可以知道並修正的事情……下面就是證明。多說無益,何必多說。

## python 3.7.3
import wget
import zipfile
url = 'https://sites.google.com/site/ianho7979/InputMethodTables/CnsMPSII107-03_GCIN.cin.zip?attredirects=0&d=1'
fi = wget.download(url)
zipfilePath = (fi)
zip = zipfile.ZipFile(zipfilePath)
zip.extractall(".")
zip.close()
fo = open('CnsMPSII107-03_GCIN.cin', 'r+', encoding = "UTF-8")
lo = fo.readlines()
fo.close

from collections import Counter
dict((k, v) for k, v in dict(Counter(lo)).items() if v > 1)
# return: {..., 'chi2\t\U000f065e\n': 2, 'yung3\t\U000f07e8\n': 2}

## python 3.7.3
import wget
import zipfile
url = 'https://sites.google.com/site/ianho7979/InputMethodTables/CnsMPSII107-03_GCIN.cin.zip?attredirects=0&d=1'
fi = wget.download(url)
zipfilePath = (fi)
zip = zipfile.ZipFile(zipfilePath)
zip.extractall(".")
zip.close()
fo = open('CnsMPSII107-03_GCIN.cin', 'r+', encoding = "UTF-8")
lo = fo.readlines()
fo.close

from collections import Counter
dict((k, v) for k, v in dict(Counter(lo)).items() if v > 1)
# return: {..., 'chi2\t\U000f065e\n': 2, 'yung3\t\U000f07e8\n': 2}

for i in range(len(lo)):
    if lo[i] == u'chi2\t\U000f065e\n':
        print(i)
# return:
# 64183
# 64184

for i in range(len(lo)):
    if lo[i] == u'yung3\t\U000f07e8\n':
        print(i)
# return:
# 117732
# 117733







IanHo
9
Promote 0 Bookmark 02019-04-18quote  

不好意思,我沒有在寫程式,所以你的證明我也看不懂,我編輯檔案的過程全部都是用現成的圖形介面工具,說明文件應該寫得很清楚了,我確認都是用進階純文字編輯器,也都先把unicode碼位轉字元,再用字元去搜尋。或者你也給我行數了,我也把該行的字元複製出來再確認,也都沒有發現所謂的重複,總之很抱歉我真的找不到你所謂的重複的碼位或字元。

我總覺得明明應該很簡單的問題,為什麼好像被搞得很複雜?

過往版本也是有熱心網友回應表示某幾行某幾個字元某幾個碼位有重複,我一檢查真的有!然後下一個版本就修掉了。
奇怪為什麼你反應的這幾行這幾個字元這幾個碼位我就找不到重複?

 

guest

你在CnsMPSII107-03_GCIN.cin.zip中搜尋U+000f065e和U+000f07e8就馬上可以知道並修正的事情……下面就是證明。多說無益,何必多說。

## python 3.7.3
import wget
import zipfile
url = 'https://sites.google.com/site/ianho7979/InputMethodTables/CnsMPSII107-03_GCIN.cin.zip?attredirects=0&d=1'
fi = wget.download(url)
zipfilePath = (fi)
zip = zipfile.ZipFile(zipfilePath)
zip.extractall(".")
zip.close()
fo = open('CnsMPSII107-03_GCIN.cin', 'r+', encoding = "UTF-8")
lo = fo.readlines()
fo.close

from collections import Counter
dict((k, v) for k, v in dict(Counter(lo)).items() if v > 1)
# return: {..., 'chi2\t\U000f065e\n': 2, 'yung3\t\U000f07e8\n': 2}

## python 3.7.3
import wget
import zipfile
url = 'https://sites.google.com/site/ianho7979/InputMethodTables/CnsMPSII107-03_GCIN.cin.zip?attredirects=0&d=1'
fi = wget.download(url)
zipfilePath = (fi)
zip = zipfile.ZipFile(zipfilePath)
zip.extractall(".")
zip.close()
fo = open('CnsMPSII107-03_GCIN.cin', 'r+', encoding = "UTF-8")
lo = fo.readlines()
fo.close

from collections import Counter
dict((k, v) for k, v in dict(Counter(lo)).items() if v > 1)
# return: {..., 'chi2\t\U000f065e\n': 2, 'yung3\t\U000f07e8\n': 2}

for i in range(len(lo)):
    if lo[i] == u'chi2\t\U000f065e\n':
        print(i)
# return:
# 64183
# 64184

for i in range(len(lo)):
    if lo[i] == u'yung3\t\U000f07e8\n':
        print(i)
# return:
# 117732
# 117733

 

 

edited: 2
guest
10
Promote 0 Bookmark 02019-04-18quote  

這隻程式可以從檔案下載的位址,如何開啟檔案,一直到完成檢查的每一個步驟都確實可被任何人重現。幫你找bug連重現bug的過程都給你,你不想去了解?也無所謂啦,我也不會再回應,省得大家浪費時間。半瓶水響叮噹。

IanHo
11
Promote 0 Bookmark 02019-04-18quote  

guest

這隻程式可以從檔案下載的位址,如何開啟檔案,一直到完成檢查的每一個步驟都確實可被任何人重現。幫你找bug連重現bug的過程都給你,你不想去了解?也無所謂啦,我也不會再回應,省得大家浪費時間。半瓶水響叮噹。

你這種論述你這串程式碼我更不敢試了。

奇怪別人都可以明確描述出那幾行有重複,我也找得到。你描述出來的重複我就找不到?

 

guest
12
Promote 0 Bookmark 02019-04-18quote  

IanHo

 

你這種論述你這串程式碼我更不敢試了。

奇怪別人都可以明確描述出那幾行有重複,我也找得到。你描述出來的重複我就找不到?

 

It's your business. Find someone else to proof your nonsense.

IanHo
13
Promote 0 Bookmark 02019-04-18quote  

guest

It's your business. Find someone else to proof your nonsense.

說不回,還是回了?

IanHo
14
Promote 0 Bookmark 02019-04-18quote  

額外提一下,雖然 訪客 提的那幾行我沒有找出重複,但是倒讓我靈光一閃另外想到可以用 LO Calc 的排序和 IF 函式組合操作來做有無重複的驗證。
之前完全都沒有想到這個驗證步驟,想到了趕快來補做,結果好險沒有出現重複。

guest
15
Promote 0 Bookmark 02019-04-18quote  

IanHo

 

說不回,還是回了?

I would like to see someone keeps learning nothing, never hearding other's opinion and behaving like a joke.

BTW, Using Spreadsheet software is good idea. You know what? I also used OO and found there are two duplicated rows. It a miracle!

guest
16
Promote 0 Bookmark 02019-04-19quote  

唉,有人老毛病又犯了,快點回家吃藥吧!

這不是初犯,人客就不必想太多了。

 

-- qtnez

IanHo
17
Promote 0 Bookmark 02019-04-19quote  

guest

唉,有人老毛病又犯了,快點回家吃藥吧!

這不是初犯,人客就不必想太多了。

-- qtnez

為什麼 linux - like 在臺灣社會環境至今推廣不易,真的就是因為這種類型的網路論述太多了!

guest
18
Promote 0 Bookmark 02019-04-19quote  

這和什麼 linux l;i9ke 沒關係,不必牽拖。是你自己固步自封、死不認錯,人家回報有重複,你也不仔細加以驗證,後來提供了驗證程式,也不去好好執行,看是什麼結果,這根本就是在銀賈大家的時間。這根本就是你自己的性格有問題。

 

-- qtnez

IanHo
19
Promote 0 Bookmark 02019-04-19quote  

guest

這和什麼 linux l;i9ke 沒關係,不必牽拖。是你自己固步自封、死不認錯,人家回報有重複,你也不仔細加以驗證,後來提供了驗證程式,也不去好好執行,看是什麼結果,這根本就是在銀賈大家的時間。這根本就是你自己的性格有問題。

 

-- qtnez

這讓我回想到好多年前,我跟全字庫回報一個他們字形資料檔內的編輯瑕疵,原本是我自己的一套論述(比喻來說就好像訪客用他自己的一套論述:貼程式碼,但我是另一套描述),同樣全字庫他們回應認為沒有問題啊,後來我做了好多嘗試終於找出他們貼圖範例的圖形介面軟體是哪套,找來同樣的軟體安裝顯示瑕疵畫面並截圖,因為跟他們用的介面是同一套,完全一樣的圖形工具軟體畫面,於是他們就確認了字形資料真的有瑕疵,然後下一版作出修改這樣。
所以我編輯檔案,有我的認知與需求,我的圖形操作介面環境就是跟一串描述檔無關,硬要丟一串描述檔叫我去驗證,不是我認知與需求的,我能怎麼辦? 我也講明了,之前版本也有熱心網友回報過 鍵入碼和顯示字元 有重複,對方很明確的提出 哪幾行、哪幾個鍵入碼、哪幾個碼位、哪幾個字元,甚至全字庫該字元的直連網址,我逐一對照,真的有重複,下一版就修掉了。
明明簡單明確的資料瑕疵回報,為什麼要搞得這麼複雜?一大串的描述檔?

guest
20
Promote 0 Bookmark 02019-04-19quote  

人家已經回報了呀!你檢查不出來,人家又提供了驗證程式。手動檢查?拜託,幾萬行用手動檢查?這不出錯才怪。

多說無益,你認為你對,那就繼續吧!

 

-- qtnez

IanHo
21
Promote 0 Bookmark 02019-04-19quote  

guest

人家已經回報了呀!你檢查不出來,人家又提供了驗證程式。手動檢查?拜託,幾萬行用手動檢查?這不出錯才怪。

多說無益,你認為你對,那就繼續吧!

 

-- qtnez

所以就雞同鴨講吧? 我已經寫明了需求是什麼了,硬要拐彎,我也沒辦法。也真的難怪 Linux - like 在臺灣環境,多年來很難擴散到一般尋常百姓家。

 

 

edited: 2
guest
22
Promote 0 Bookmark 02019-04-19quote  

真奇怪,你一直在扯什麼 linux like 做什麼?這和我有什麼關係,linux-like 是死是活關我屁事?我有什麼義務要推廣他?你愛推廣你去推廣呀!我又沒拿誰的錢,叫我做白工呀!

真能扯!這種事也能牽扯到什麼 linux-like 在台灣。你怎麼不說,你的東西還牽扯到國家民族生死存亡大計呢?

 

-- qtnez

guest
23
Promote 0 Bookmark 02019-04-19quote  

IanHo

 

這讓我回想到好多年前,我跟全字庫回報一個他們字形資料檔內的編輯瑕疵,原本是我自己的一套論述(比喻來說就好像訪客用他自己的一套論述:貼程式碼,但我是另一套描述),同樣全字庫他們回應認為沒有問題啊,後來我做了好多嘗試終於找出他們貼圖範例的圖形介面軟體是哪套,找來同樣的軟體安裝顯示瑕疵畫面並截圖,因為跟他們用的介面是同一套,完全一樣的圖形工具軟體畫面,於是他們就確認了字形資料真的有瑕疵,然後下一版作出修改這樣。
所以我編輯檔案,有我的認知與需求,我的圖形操作介面環境就是跟一串描述檔無關,硬要丟一串描述檔叫我去驗證,不是我認知與需求的,我能怎麼辦? 我也講明了,之前版本也有熱心網友回報過 鍵入碼和顯示字元 有重複,對方很明確的提出 哪幾行、哪幾個鍵入碼、哪幾個碼位、哪幾個字元,甚至全字庫該字元的直連網址,我逐一對照,真的有重複,下一版就修掉了。
明明簡單明確的資料瑕疵回報,為什麼要搞得這麼複雜?一大串的描述檔?

我簡單用NotePad++看了一下,確實存在重覆。我簡單用Python看了一下,確實存在同樣位置重覆。我簡單用OO calc看了一下,確實存在同樣位置重覆。我簡單又用GNU R看了一下,確實存在同樣位置重覆。所以是這些軟體或程式的問題,還是裝睡的人有問題?

面對別人熱心幫忙,自己無力回應沒關係,但硬凹被打臉很難看。

IanHo
24
Promote 0 Bookmark 02019-04-19quote  

guest

真奇怪,你一直在扯什麼 linux like 做什麼?這和我有什麼關係,linux-like 是死是活關我屁事?我有什麼義務要推廣他?你愛推廣你去推廣呀!我又沒拿誰的錢,叫我做白工呀!

真能扯!這種事也能牽扯到什麼 linux-like 在台灣。你怎麼不說,你的東西還牽扯到國家民族生死存亡大計呢?

 

-- qtnez

我只是把觀察的方向再提高一些罷了,在臺灣社會環境的網路討論區,就是像這樣的 linux-like 的 技客思維,丟一段程式碼然後還用外語,就要使用者端自己去解決,就這樣把好多原本的潛在使用者都檔在了門外了!

牽扯到國家民族生死存亡大計 是你說的,我可沒這麼說。

 

 

 

IanHo
25
Promote 0 Bookmark 02019-04-19quote  

guest

 

我簡單用NotePad++看了一下,確實存在重覆。我簡單用Python看了一下,確實存在同樣位置重覆。我簡單用OO calc看了一下,確實存在同樣位置重覆。我簡單又用GNU R看了一下,確實存在同樣位置重覆。所以是這些軟體或程式的問題,還是裝睡的人有問題?

面對別人熱心幫忙,自己無力回應沒關係,但硬凹被打臉很難看。

結果是 到底是 哪幾行、哪幾個鍵入碼、哪幾個碼位、哪幾個字元,甚至全字庫該字元的直連網址 呢? 還是沒有人提出來。

躲在訪客後面,嗆人真的好方便啊。


edited: 1
guest
26
Promote 0 Bookmark 02019-04-19quote  

IanHo

 

結果是 到底是 哪幾行、哪幾個鍵入碼、哪幾個碼位、哪幾個字元,甚至全字庫該字元的直連網址 呢? 還是沒有人提出來。

躲在訪客後面,嗆人真的好方便啊。


對方不是明確把哪個字元和哪一列都說了嗎?還硬凹。

IanHo
27
Promote 0 Bookmark 02019-04-19quote  

guest

 

對方不是明確把哪個字元和哪一列都說了嗎?還硬凹。

前面有列出來的我對照過了,沒有重複,當然也有可能某人認為的重複和我認為的重複意思不一樣。

 

guest
28
Promote 0 Bookmark 02019-04-19quote  

IanHo

 

前面有列出來的我對照過了,沒有重複,當然也有可能某人認為的重複和我認為的重複意思不一樣。

 

你看一下對方的python碼裡的下載網址和你比對的檔案是不是真的一模一樣吧。從整個主題串看下來,或許你比對的檔案和對方從你網站下載的不一樣,或是你自己犯蠢。

IanHo
29
Promote 0 Bookmark 02019-04-19quote  

guest

 

你看一下對方的python碼裡的下載網址和你比對的檔案是不是真的一模一樣吧。從整個主題串看下來,或許你比對的檔案和對方從你網站下載的不一樣,或是你自己犯蠢。

在此說聲抱歉,或許可能是我犯蠢了!!!

我分享的是「新版的」!

CnsMPSII108-04_GCIN.cin

---

但是那位訪客指證的卻是「舊版的」!

CnsMPSII107-03_GCIN.cin.zip

---

所以某個角度來說來說我誤會了!這裡請以「新版」為準,舊版的就請無視了!!!

 

用 訪客 這個ID 發言真的好方便啊,拿「舊版」的可以一直嚷嚷。臺灣網路討論文化的劣根性大概就是這麼一回事吧?

所以「新版」的到底重複在哪裡呢? 或許有人要開始裝死了?會裝死多久呢?裝死到永久?

edited: 6
Apan Liao
30
Promote 0 Bookmark 02019-04-19quote  

我延用上面python碼再看了一次,事實上,無論新版和舊版,都存在完全一樣的問題(行號都一樣)。不客氣地說,這表示你沒有自我檢測出問題的能力(因為你手上的新版有一樣的問題但你說沒有)。建議你把該python碼小改一下把所有的工作都檢查一次。

edited: 1
1,2,next

cht電腦資訊輸入法
adm Find login register
views:74253