📄 系统设计.txt
字号:
数据结构
码表:双向链表,不排序,有唯一性,但不检查
码表索引:码ID值处的元素存储该码在链表中的位置
* 码ID对码是唯一的
词表:双向链表,按第一个汉字排序,有唯一性,做唯一性检查
词表索引:词ID处的元素存储该词第一个汉字在链表中第一次出现的位置
* 词ID由词的第一个汉字生成,因此词对词ID不唯一
码词表:双向链表,按码排序,同一码的词不排序
码词表索引:码ID处的元素存储该码在链表中第一次出现的位置
词码表(条件概率表):双向链表,按词+码长序 排序
词码表索引:词ID处存储该词第一个汉字在链表中第一次出现的位置
* 注意对词码表的检索可能会比较耗时
词词表(转移概率表):双向链表,按第一词排序
词词表索引:词ID处存储该词第一个汉字在链表中第一次出现的位置
* 注意对词词表检索可能比较耗时。
算法
修正先验概率:
仅对当前码对应的所有词调整先验概率,如对 “a - 工“,先计算 “工“ 其“ 或“ 的先验概率和
然后在该和不变的前提下提高 “工 的先验概率先验概率值
*
修正转移概率的值:
定义转移概率增量,
计算该词所有已存在条目转移概率和,如果该和+增量>0.9,超出部分按比例从每一已存在条目中减去,
对该条目转移概率加増量(若該条目不在,先增加该条目)。
* 始终有0.1转移概率不分配给任何已存在条目,而是保留给未存在于转移概率表中的条目
修正条件概率值:
定义条件概率增量,
计算该词所有已存在条目的条件概率和,如果该和>1.0,按比例从每一条目中减去超出部分
对該条目转移概率加增量
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -