⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 revision history.txt

📁 关于bordland公司dataset使用说明
💻 TXT
字号:
========================================================================
				    Revision History
				  APPLICATION : ICTCLAS
				  Author: Kevin Zhang
				  Email: zhanghp@software
				  Homepage: pipy_world.y365.com
========================================================================
No     Date        Descript
========================================================================
1.     5.8        fix bug "19980221-02-009-006出席座谈会的有宋平、张全景、李力安、李正亭、袁木、赵宗鼐,以及有关部门的领导、专家学者50多人。"
                  Because the person name recognition invalid
2.     5.8			19980221-02-009-006 tagged with 'm' not 'ss'
3.     5.9        fix bug ",/w  而/c  诗人/n  对/p  人民/n  的/u  情分/n  --/w "  
4.     5.29       30/m 日/t->30日/t,解决了SplitPersonSplit中,CSegment类费时的问题。
5.     6.7        Add transliteration recognition into system
6.     6.7        Revise frequency bug while compare the final result
7.     6.15       Windows 界面
8.     6.18       半角标点、空格、数词、时间识别等
9.     6.19       增加日志功能,即自动记住用户输入的句子和输出结果
10     6.20       解决了文件处理时,换行不正确的BUG
11.    6.201      将中间结果用另外的数据结果WORD_RESULT存贮。区别在于,将统计词频数据的对数记住。优点在于可以避免转换成词数时的近似误差。
12.    6.21       将由,等分句标点作为分句识别,先对分句做切分标注,然后将标点作为下一部分的首部继续切分。
                  实验表明能分词提高0.07%,而标注提高差不多0.1%,另外一个优点是可以提高速度,减少每次需要处理句子的长度。
13.    Beta6.23   乔石的判断;90年的判断    
14.    Beta6.24   3/m  —/w  4日/t  ,/w <-3/m  —4日/t  ,/w  
15.    Beta6.25   增加句子的首尾标记。 
16.    Beta6.26   二元分词
17.    Beta7.03   平滑处理
18.    Beta7.06   交付973专家组评测,获得第一名
19.    Release08011:
                  1)Release版本,修正了CDynamicArray::operator =(const CDynamicArray &array)中字符串没有赋值的Bug。
                  2) 数词判断的问题: 
                  3) 更正了ContextPossibility计算错误
                  4) 分词正确率为98.23%,上位词性标注正确率95.53%,下位词性标注正确率93.34%
20.    Release0802:
                  1)增加了判断数据文件是否存在的功能
                  2)用户可以自己根据需要随时初始化或者Destroy 即CResult中的Init和Destroy
                  3)1.等词判断为'm'
                  4)结果总数不能超过10的判断。
                  5)修正了评分的一个越界Bug
                  6)修正了日志文件的地址,和写方式,以便写的过程中读取。
                  7)分词正确率为98.23%,上位词性标注正确率95.53%,下位词性标注正确率93.34%
21.    Commerce1015:
                  1)均能在Linux编译、运行通过
                  2)DLL生成并通过
                  3)增加宏定义
                  #ifndef NO_TAGGER //Need POS Tagger
		  #ifndef NO_PERSON //Need Person recognition
		  #ifndef NO_TRANS //Need Transliteration recognition
		  #ifndef NO_PLACE //Need Place recognition
		  #ifdef _ICT_LOG//日志
22.    Commerce1030         
____________________________________________________________________________________________
           Release20
23.  Release20-12312
         1)  词典加密,压缩存储,在新的语料库和标注集合上运行;
         2) 适应新的结构,将词性由int nHandle改为char sPOS[2]
         3) 重新编写了原子切分程序,将数词的判断置前,即在字串的基础上判断并识别数词和时间;
         4) 重新修改了隐马标注程序;将词性标注和角色标注分离处理;
         5) 中间结果的保存采取:
         struct tagWordResult{
		char sWord[WORD_MAXLENGTH];
		//The word 
		char sPOS[POS_LEN];
		//the POS of the word
		double  dValue;
		//P(Wi|Ci)
		char  sClass[WORD_MAXLENGTH];
		//The class name of word sWord
		int nClassFreq;//The frequency of class
		long  lReserved;//Reserved Item
           }
         6) 未登录词的识别重新架构和训练,将类的思想贯彻始终。
         7) 修正了CDictionary
2003
 0107    1)在GenerateWord中添加了尾标记m_pWordSeg[nIndex][k].sClass[0]=0;//Set ending
         2)类似于金泳三 中的三不被过早的认为是数词

 0114    1)集成了人名识别 性能达到了98.02%
         2)取出了未登录词与上下文交叉成词的处理
         3)tagWordResult增加了nPosition字段:当前词在句子中的实际位置(字节数)
         4)各个自定义的结构增加了构建函数进行初始化。
 0116    1)增加了地名识别程序模块
 0120    1)重新训练模型和未登录词
         2)解决了Bug: 唐太宗/nf 李/nf 世民/nl:即对姓进行校验判断(GetFrom)
         3)CSpan中的Reset中间结果为0
         4)人名一直合在一起处理,直到输出才根据需要拆开显示。
         5)未登录词的GetFrom唯一标注时不跳出来。
 0121    1)合成了人名、地名、机构名;并解决了类与词语不一致的情况。
         2)ICTCLAS2.0基本完成,其中
                Correct Divition Rate:98.246735%
		Correct 1st Tag Rate:95.630424%
		Correct 2nd Tag Rate:93.379173%
	 3) #末末#(10个以上连写)会输出版本信息:“Copyright(c)2002-2005中国科学院计算技术研究所张华平刘群”
	 4)还欠缺的是:界面、用户词典、自适应。
 0311    1)加入了新版本的机构名识别词典;
 0318    1)词典的词性和内部表示unsigned char nHandle 建立了映射表;
         2)分词结果的表示采用树形结构,给关键用户提供分析树,而不仅仅是输出的文本结果;无需中间用户进行解析,便于深层开发处理。
         3)该版本不完全,等待采取ICTPOS30标注体系的语料生成和训练。
 0405    1)采用新词典结构;
         2)分词结果的表示采用树形结构。
         3)该版本不含未登录词识别,切分准确率97.07%。    
 Demo 
         1) 采用0121的核心代码;新界面。
 0410 
         1) 修正了POS tagger 中Reset中Init 为0(应当为0xff)
         2) Segment部分的SegRoute的空间根据实际的需要分配内存。
         3) AtomSegment部分字符串a1sa2的判断
         4) 速度更快,Correct Divition Rate:97.085266%
			Correct 1st Tag Rate:94.124573%
			Correct 2nd Tag Rate:91.826843%
 0412    1)实现了人名识别结果的属性结构化.
     2)解决了译名识别的问题(限制了译名结果的长度5->15)
         3)AtomSegment多回退一个字节的Bug 
         4)
 0414    1)解决了未登录词识别中Role_Other的问题;
         2)Correct Divition Rate:98.151611%
	   Correct 1st Tag Rate:95.652359%
           Correct 2nd Tag Rate:93.616570%
           
           Correct Divition Rate:97.950455%
	   Correct 1st Tag Rate:95.432510%
	   Correct 2nd Tag Rate:93.371140%

 0416   1)解决了一个Bug, m_sBestTag的转换问题。
        2)加入了地名机构名人名之后的最佳状态版本
        2003-4-16 最佳状态
        
Total Segmetation Number:1108049
Error Division Segmetation Number:17397
Correct Division Segmetation Number:1090652
Error 1st Tag Segmetation Number:45249
Correct 1st Tag Segmetation Number:1062800
Error 2nd Tag Segmentation Number:68130
Correct 2nd Tag Segmentation Number:1039919
Correct Divition Rate:98.429939%
Correct 1st Tag Rate:95.916336%
Correct 2nd Tag Rate:93.851357%
nrf Tag Recall:92.842042% Total nrf In Corpus Number:3311  Error Number:237
nrf Tag Accuracy:86.836158% Total nrf In Test File Number:3540  Correct Number:3074
nsf Tag Recall:95.958046% Total nsf In Corpus Number:3909  Error Number:158
nsf Tag Accuracy:94.650517% Total nsf In Test File Number:3963  Correct Number:3751
nrj Tag Recall:91.397849% Total nrj In Corpus Number:186  Error Number:16
nrj Tag Accuracy:83.333333% Total nrj In Test File Number:204  Correct Number:170
nr1 Tag Recall:83.037475% Total nr1 In Corpus Number:507  Error Number:86
nr1 Tag Accuracy:49.182243% Total nr1 In Test File Number:856  Correct Number:421
nr2 Tag Recall:47.887324% Total nr2 In Corpus Number:71  Error Number:37
nr2 Tag Accuracy:12.686567% Total nr2 In Test File Number:268  Correct Number:34
nr Tag Recall:95.034613% Total nr In Corpus Number:15890  Error Number:789
nr Tag Accuracy:96.473519% Total nr In Test File Number:15653  Correct Number:15101
ns Tag Recall:95.534894% Total ns In Corpus Number:18499  Error Number:826
ns Tag Accuracy:93.567344% Total ns In Test File Number:18888  Correct Number:17673
nt Tag Recall:87.185563% Total nt In Corpus Number:10972  Error Number:1406
nt Tag Accuracy:90.032941% Total nt In Test File Number:10625  Correct Number:9566
  0417:1) 支持多种格式,Config界面都能使用,接口更加便利。
  0419:1) Minor Revision。
  0422: 1)输出人名处有BUG,D/角色后不一定就有E 
  0423: 1) Adjust中强制转换的BUG;
           2)GetFrom设置最后一个位置的问题,见Bug Report中的0423部分
           3)           0D0D0A->0D0A
                       ShareDenyNone
 0425: Revised bugs in numeric expression identification
 1021: Adjust_PKU,Adjust_Upenn中字符串合并的时候越界保护
--------------------------------------------------------------------
2003-12-22  Version 2.6

1)彻底更换了大部分核心代码,其中包括:词典(二字Hash),N最短路径算法的实现,动态二元数组(切分词图)的实现,其中程序更加精练。

2)增加用户词典模块

3)增加了COM,FreeBSD,Linux版本

4) 效果保持不变,占用内存稍微减少,速度由原来的11.6K/s 提升到39465.852248Bytes/s (CPU:1.6G,内存:192M,同时开了多个程序,只跑ICTCLAS2.6速度会更快)

5) 提供了多种API,生成结果,不需要用户自己分配内存。
 1223: 修改了AtomSegmentation中关于时间等的判断,进一步细化,并作了详尽的对比测试,速度为
2003-12-24 Version 2.6
1. 移植到了Linux平台,替换了部分函数,使得在各种平台下均能正确运行;
2. 修正了输出多个结果地Bug,NERServe
3. Destroy() 中日志文件关闭后,设置为空
2003-12-29 
1. 日志输出的判断
2004-3-22
fix two bugs
1)长串,在类信息cat时出错,赵凯
2) 猜测机构名角色时,引入启发是规则判断 陈德玉发现
即使标榜「健康、 运动型」/nt 受过芭蕾舞蹈训练的徐华凤
2004-4-9
Fix bugs
1. 增加用户词典后,干扰了正常的命名实体识别,处理办法:不允许用户词作为命名实体的组成单元,也不允许其与其他的字符串结合。
2. 原子切分时,没有将Class相应的变换过来,如:第100
3. 删除了地名角色词典中 和 F 12 否则:,成立了 河西学院和/ns 7所职业技术学院,
4. 改变了用户词典添加的策略:
  1)用户词如果在核心词典中存在,
      如果长度小于7个字节,则舍弃不加入用户辞典。否则加入用户词典,并将核心词典中的词性替换用户词典中的磁性。如“解放思想 n”加入的时候,我们会变为“解放思想 vl”
2004-9-23
1. Fixed   如果一片文件中出现了半个汉字,如附件中的文件,每一篇结束的时候有一个半个
汉字(0xA1)。这会造成ICTCLAS_ParagraphProcessA出现异常错误。而不是返回一个
FALSE。不知能否作些适当的修改容忍这半个汉字。    

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -