cht電腦資訊gcin
adm Find login register

自動選字的改良討論(詞音與gtab自動選字)

winlin
1 自動選字的改良討論(詞音與gtab自動選字)
Promote 0 Bookmark 02009-05-16quote  

eliu兄:

當我要打「幾張X」的時候,自動選字似乎不太能正確選到該選的字。
如果,「幾張」後面接的是「至少二個字以上的詞」,可能不會遇到這個問題,
但是如果「幾張」後面接的是單一個字,除非gcin懂文法(知道該優先接名詞,其次才是形容詞),
否則還是會選錯字。

例如:
我想打「幾張紙」,
三碼倉頡會組成「幾張總」(總和紙在三碼倉頡裡都是vfp),
詞音會組成「幾張只」。

這似乎需要增設一些規則來做到,
還是要讓gcin在使用者手動修正選字之後記成一個新詞?(直接從緩衝區中自動學習新詞)

eliu
2
Promote 0 Bookmark 02009-05-16quote  

紙可以增加為單一字的詞就可以解決。只好像很少單獨使用,紙就比較常。

其實加入幾張紙的詞應該也可以接受。

edited: 1
winlin
3
Promote 0 Bookmark 02009-05-17quote  
eliu

紙可以增加為單一字的詞就可以解決。只好像很少單獨使用,紙就比較常。

其實加入幾張紙的詞應該也可以接受。

若是這樣,以後詞庫也會收一些常用的單字作為詞嗎?
如果要的話,小弟可以慢慢累積提供一些常用的名詞類單字。

winlin
4 二個「二字詞」合併為一個「三字詞」所造成的選字錯誤
Promote 0 Bookmark 02009-05-28quote  

eliu兄:

我發現二個「二字詞」在自動選字裡,若被合併為一個「三字詞」,有時會造成的選字錯誤 ,例如:

例如我想打「剛上榜」這三個字,
在三碼倉頡裡,「剛」和「盯」是同一個拆碼,
而詞庫又恰好有「盯上」、「上榜」這個二詞,
所以原先要打的「剛上榜」,就自動變成了「盯上榜」,這樣反而造成了選字錯誤。


剛上榜→盯上榜
盯上
上榜


類似的情形還有:
三碼倉頡裡,「來」和「檢」是同一拆碼,要打「來討論」就變成了「檢討論」。

來討論→檢討論
檢討
討論

像這種情形,不知道eliu兄有沒有什麼好點子可以處理?
感謝~

eliu
5
Promote 0 Bookmark 02009-05-28quote  
edited: 1
winlin
6
Promote 0 Bookmark 02009-08-09quote  

eliu兄:

發現另一個gtab自動選字的難題:
例如我想打「短期內沒有」這句話,但是「沒」和「涵」在三碼倉頡裡都是ene,
所以,就變「短期內涵有」這樣了。

其次,想請教eliu兄一個問題,
gtab的自動選字原理,是先把字轉成注音編碼,然後再對照詞音詞庫的嗎?
還是直接略過ㄅㄆㄇ編碼,直接搜尋詞庫裡的詞?
(我猜是前者,因為我試著在詞庫裡放沒有ㄅㄆㄇ開頭的詞,似乎沒有用)

eliu
7
Promote 0 Bookmark 02009-08-09quote  

加入「短期內」這個詞應該就可以了。gtab 目前沒有像詞音一樣可以用 Escape 手動斷詞。

gtab 自動選詞是沒有轉成注音,直接由詞庫選最符合的詞。

winlin
8
Promote 0 Bookmark 02009-08-09quote  
eliu

加入「短期內」這個詞應該就可以了。gtab 目前沒有像詞音一樣可以用 Escape 手動斷詞。

gtab 自動選詞是沒有轉成注音,直接由詞庫選最符合的詞。

eliu兄:
手動編輯詞庫好像一定要依照某一格式去寫,
不能只有寫個「短期內」或「短期內 0」就了事,
不然即使存檔之後,下次再開來看,還是一樣沒有被加進去,實際的使用上也沒有效。

如果詞庫的編輯要求一定要在詞的後面加入ㄅㄆㄇ或一些符號,
要讓gtab輸入法改成可以shift+enter也能加詞的確有其難度,因為中文字有不少破音字。
除非是可以直接加入不含ㄅㄆㄇ結尾的詞,或者讓gtab自己有個額外的專用小詞庫,(仿造gtab.append的作法)
但是這麼一來,詞音就用不到那些詞了。
真是難搞,辛苦了~

eliu
9
Promote 0 Bookmark 02009-08-09quote  
winlin
手動編輯詞庫好像一定要依照某一格式去寫,

不能只有寫個「短期內」或「短期內 0」就了事,
不然即使存檔之後,下次再開來看,還是一樣沒有被加進去,實際的使用上也沒有效。

因為是用詞音的資料庫,所以一定要有注音。所以還是從詞音用 shift-Enter 輸入會比較簡單。

edited: 1

cht電腦資訊gcin
adm Find login register
views:22044