📄 194.txt

📁 SVM(支持向量机）和EM（最大熵）文本分类算法
💻 TXT
📖 第 1 页 / 共 5 页
字号:
&frac12;    5-2：使用严格形式定义的、可移植的数据类型，尽量不要使用与具体硬件或软


件环境关系密切的变量。
说明：使用标准的数据类型，有利于程序的移植。
示例：如下例子（在DOS下BC3.1环境中），在移植时可能产生问题。
void main()
{
    register int index; // 寄存器变量

    _AX = 0x4000; // _AX是BC3.1提供的寄存器“伪变量”
    ... // program code
}
&frac12;    5-3：结构的功能要单一，是针对一种事务的抽象。
说明：设计结构时应力争使结构代表一种现实事务的抽象，而不是同时代表多种。结构中


的各元素应代表同一事务的不同侧面，而不应把描述没有关系或关系很弱的不同事务的元


素放到同一结构中。
示例：如下结构不太清晰、合理。
typedef struct STUDENT_STRU
{
    unsigned char name[8]; /* student's name */
    unsigned char age;     /* student's age */
    unsigned char sex;     /* student's sex, as follows */
                           /* 0 - FEMALE; 1 - MALE */
    unsigned char 
           teacher_name[8]; /* the student teacher's name */
    unisgned char 
           teacher_sex;     /* his teacher sex */
} STUDENT;

若改为如下，可能更合理些。
typedef struct TEACHER_STRU
{
    unsigned char name[8]; /* teacher name */
    unisgned char sex;     /* teacher sex, as follows */
                           /* 0 - FEMALE; 1 - MALE */
} TEACHER;

typedef struct STUDENT_STRU
{
    unsigned char name[8];     /* student's name */
    unsigned char age;         /* student's age */
    unsigned char sex;         /* student's sex, as follows */
                               /* 0 - FEMALE; 1 - MALE */
    unsigned int  teacher_ind; /* his teacher index */
} STUDENT;
&frac12;    5-4：不要设计面面俱到、非常灵活的数据结构。
说明：面面俱到、灵活的数据结构反而容易引起误解和操作困难。
&frac12;    5-5：不同结构间的关系不要过于复杂。
说明：若两个结构间关系较复杂、密切，那么应合为一个结构。
示例：如下两个结构的构造不合理。
typedef struct PERSON_ONE_STRU
{
    unsigned char name[8];
    unsigned char addr[40];
    unsigned char sex;
    unsigned char city[15];
} PERSON_ONE;

typedef struct PERSON_TWO_STRU
{
    unsigned char name[8];
    unsigned char age;
    unsigned char tel;
} PERSON_TWO;

由于两个结构都是描述同一事物的，那么不如合成一个结构。
typedef struct PERSON_STRU
{
    unsigned char name[8];
    unsigned char age;
    unsigned char sex;
    unsigned char addr[40];
    unsigned char city[15];
    unsigned char tel;
} PERSON;
&frac12;    5-6：结构中元素的个数应适中。若结构中元素个数过多可考虑依据某种原则把


元素组成不同的子结构，以减少原结构中元素的个数。
说明：增加结构的可理解性、可操作性和可维护性。
示例：假如认为如上的_PERSON结构元素过多，那么可如下对之划分。
typedef struct PERSON_BASE_INFO_STRU
{
    unsigned char name[8];
    unsigned char age;
    unsigned char sex;
} PERSON_BASE_INFO;

typedef struct PERSON_ADDRESS_STRU
{
    unsigned char addr[40];
    unsigned char city[15];
    unsigned char tel;
} PERSON_ADDRESS;

typedef struct PERSON_STRU
{
    PERSON_BASE_INFO person_base;
    PERSON_ADDRESS person_addr;
} PERSON;
&frac12;    5-7：仔细设计结构中元素的布局与排列顺序，使结构容易理解、节省占用空间


，并减少引起误用现象。
说明：合理排列结构中元素顺序，可节省空间并增加可理解性。
示例：如下结构中的位域排列，将占较大空间，可读性也稍差。
typedef struct EXAMPLE_STRU
{
    unsigned int valid: 1;
    PERSON person;
    unsigned int set_flg: 1;
} EXAMPLE;

若改成如下形式，不仅可节省1字节空间，可读性也变好了。
typedef struct EXAMPLE_STRU
{
    unsigned int valid: 1;
    unsigned int set_flg: 1;
    PERSON person ;
} EXAMPLE;
&frac12;    5-8：结构的设计要尽量考虑向前兼容和以后的版本升级，并为某些未来可能的


应用保留余地（如预留一些空间等）。
说明：软件向前兼容的特性，是软件产品是否成功的重要标志之一。如果要想使产品具有


较好的前向兼容，那么在产品设计之初就应为以后版本升级保留一定余地，并且在产品升


级时必须考虑前一版本的各种特性。
&frac12;    5-9：留心具体语言及编译器处理不同数据类型的原则及有关细节。
说明：如在C语言中，static局部变量将在内存“数据区”中生成，而非static局部变量将


在“堆栈”中生成。这些细节对程序质量的保证非常重要。
&frac12;    5-10：编程时，要注意数据类型的强制转换。
说明：当进行数据类型强制转换时，其数据的意义、转换后的取值等都有可能发生变化，


而这些细节若考虑不周，就很有可能留下隐患。
&frac12;    5-11：对编译系统默认的数据类型转换，也要有充分的认识。
示例：如下赋值，多数编译器不产生告警，但值的含义还是稍有变化。
char chr;
unsigned short int exam;

chr = -1;
exam = chr; // 编译器不产生告警，此时exam为0xFFFF。
&frac12;    5-12：尽量减少没有必要的数据类型默认转换与强制转换。
&frac12;    5-13：合理地设计数据并使用自定义数据类型，避免数据间进行不必要的类型转


换。
&frac12;    5-14：对自定义数据类型进行恰当命名，使它成为自描述性的，以提高代码可读


性。注意其命名方式在同一产品中的统一。
说明：使用自定义类型，可以弥补编程语言提供类型少、信息量不足的缺点，并能使程序


清晰、简洁。
示例：可参考如下方式声明自定义数据类型。

下面的声明可使数据类型的使用简洁、明了。
typedef unsigned char  BYTE;
typedef unsigned short WORD;
typedef unsigned int   DWORD;

下面的声明可使数据类型具有更丰富的含义。
typedef float DISTANCE;
typedef float SCORE;
&frac12;    5-15：当声明用于分布式环境或不同CPU间通信环境的数据结构时，必须考虑机


器的字节顺序、使用的位域及字节对齐等问题 。
说明：比如Intel CPU与68360 CPU，在处理位域及整数时，其在内存存放的“顺序”正好


相反。
示例：假如有如下短整数及结构。
unsigned short int exam;
typedef struct EXAM_BIT_STRU
{                       /* Intel 68360 */
    unsigned int A1: 1; /* bit  0      7   */
    unsigned int A2: 1; /* bit  1      6   */
    unsigned int A3: 1; /* bit  2      5   */
} EXAM_BIT;

如下是Intel CPU生成短整数及位域的方式。
内存： 0          1         2    ...  （从低到高，以字节为单位）
exam  exam低字节  exam高字节

内存：        0 bit     1 bit      2 bit    ...  （字节的各“位”）
EXAM_BIT     A1        A2         A3

如下是68360 CPU生成短整数及位域的方式。
内存： 0          1         2    ...  （从低到高，以字节为单位）
exam  exam高字节  exam低字节

内存：        7 bit     6 bit      5 bit    ...  （字节的各“位”）
EXAM_BIT     A1        A2         A3

说明：在对齐方式下，CPU的运行效率要快得多。
示例：如下图，当一个long型数（如图中long1）在内存中的位置正好与内存的字边界对齐


时，CPU存取这个数只需访问一次内存，而当一个long型数（如图中的long2）在内存中的


位置跨越了字边界时，CPU存取这个数就需要多次访问内存，如i960cx访问这样的数需读内


存三次（一个BYTE、一个SHORT、一个BYTE，由CPU的微代码执行，对软件透明），所有对


齐方式下CPU的运行效率明显快多了。
    1       8       16      24      32
    ------- ------- ------- -------
    | long1 | long1 | long1 | long1 |
    ------- ------- ------- -------
    |       |       |       | long2 |
    ------- ------- ------- --------
    | long2 | long2 | long2 |       |
    ------- ------- ------- --------
    | .... 
6 函数、过程
&sup1;  6-1：对所调用函数的错误返回码要仔细、全面地处理。
&sup1;  6-2：明确函数功能，精确（而不是近似）地实现函数设计。
&sup1;  6-3：编写可重入函数时，应注意局部变量的使用（如编写C/C++语言的可重入函数


时，应使用auto即缺省态局部变量或寄存器变量）。
说明：编写C/C++语言的可重入函数时，不应使用static局部变量，否则必须经过特殊处理


，才能使函数具有可重入性。
&sup1;  6-4：编写可重入函数时，若使用全局变量，则应通过关中断、信号量（即P、V操


作）等手段对其加以保护。
说明：若对所使用的全局变量不加以保护，则此函数就不具有可重入性，即当多个进程调


用此函数时，很有可能使有关全局变量变为不可知状态。
示例：假设Exam是int型全局变量，函数Squre_Exam返回Exam平方值。那么如下函数不具有


可重入性。
unsigned int example( int para )
{
    unsigned int temp;

    Exam = para; // （**）
    temp = Square_Exam( );

    return temp;
}

此函数若被多个进程调用的话，其结果可能是未知的，因为当（**）语句刚执行完后，另


外一个使用本函数的进程可能正好被激活，那么当新激活的进程执行到此函数时，将使Ex


am赋与另一个不同的para值，所以当控制重新回到“temp = Square_Exam( )”后，计算出


的temp很可能不是预想中的结果。此函数应如下改进。
unsigned int example( int para )
{
    unsigned int temp;

    [申请信号量操作]          // 若申请不到“信号量”，说明另外的进程正处于
    Exam = para;            // 给Exam赋值并计算其平方过程中（即正在使用此
    temp = Square_Exam( );  // 信号），本进程必须等待其释放信号后，才可继
    [释放信号量操作]          // 续执行。若申请到信号，则可继续执行，但其
                            // 它进程必须等待本进程释放信号量后，才能再使
                            // 用本信号。
    return temp;
}
&sup1;  6-5：在同一项目组应明确规定对接口函数参数的合法性检查应由函数的调用者负


责还是由接口函数本身负责，缺省是由函数调用者负责。
说明：对于模块间接口函数的参数的合法性检查这一问题，往往有两个极端现象，即：要


么是调用者和被调用者对参数均不作合法性检查，结果就遗漏了合法性检查这一必要的处


理过程，造成问题隐患；要么就是调用者和被调用者均对参数进行合法性检查，这种情况


虽不会造成问题，但产生了冗余代码，降低了效率。
&frac12;    6-1：防止将函数的参数作为工作变量。
说明：将函数的参数作为工作变量，有可能错误地改变参数内容，所以很危险。对必须改


变的参数，最好先用局部变量代之，最后再将该局部变量的内容赋给该参数。
示例：下函数的实现不太好。
void sum_data( unsigned int num, int *data, int *sum )
{
    unsigned int count;
    
    *sum = 0;
    for (count = 0; count < num; count++)
    {
        *sum  += data[count]; // sum成了工作变量，不太好。
    }
}

若改为如下，则更好些。
void sum_data( unsigned int num, int *data, int *sum )
{
    unsigned int count ;
    int sum_temp;
    
    sum_temp = 0;
    for (count = 0; count < num; count ++)
    {
        sum_temp  += data[count]; 
    }
    
    *sum = sum_temp;
}
&frac12;    6-2：函数的规模尽量限制在200行以内。
说明：不包括注释和空格行。
&frac12;    6-3：一个函数仅完成一件功能。
&frac12;    6-4：为简单功能编写函数。
说明：虽然为仅用一两行就可完成的功能去编函数好象没有必要，但用函数可使功能明确


化，增加程序可读性，亦可方便维护、测试。
示例：如下语句的功能不很明显。
value = ( a > b ) ? a : b ;

改为如下就很清晰了。
int max (int a, int b)
{
    return ((a > b) ? a : b);
}

value = max (a, b);

或改为如下。
#define MAX (a, b) (((a) > (b)) ? (a) : (b))
💿 文件大小 2532 K
👤 上传用户 singwolf
📂 所属分类人工智能/神经网络
🏷️ 相关标签

#SVM #支持向量机 #熵 #文本分类
⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -