调整字库 2021-08-20
00 分钟
2022-3-23
关于词库的一些体验:
不带词频的词库会用处不大,因为打字出词是词序很差劲。
网上流传的搜狗大词库(12兆或更大的),都不带词频。
另外,网上流的大词库包含很多生僻词,假词,错词,普通人一辈子用不上的词等,使重码增加,自动选词效率下降。搜狗词库是这样,四叶草Phrase词库也是这样的。
 
notion image
notion image
1,大词库的弊端:
有些大词库,比如中文维基词头词库或搜狗词库(动则上百万条词汇,或文件动则20兆以上),虽然词汇丰富,但有以下弊端:
词汇杂乱
重码多
扰乱视觉
中文维基词头不适合做词库,因为它包含太多的、大多数永远不会使用的词汇,而且会增加重码。
2,处理这个弊端的一个简易土法:
删除掉低频的、不常用的二字/双字词。
在词频低的二字词,一般是我们永远用不上的词;平时的重码都是那些低频的二字词引起的(此处省略500字的论证)。
示意图:这个图中,绿色部分的词,都是低频的二字词,可以删除掉,这会让rime输入法清爽很多。比如频率小于1000的二字词,在这个码表中有5万多个。删除之后,清爽多了。
3,专业人士可以不制作大词库,而是分级词库。比如:词库1(日常聊天词库),词库2(文史哲1级),词库3(文史哲2级),词库3(技术词汇1级)……。

评论