⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 shang.m

📁 一种无监督的数据离散化方法
💻 M
字号:
%基于熵的属性离散化方法,参见《一种基于熵的连续属性离散化方法》
function [result,dds]=shang(data)
[m,n]=size(data);
result=zeros(10,5);
for i=1:n
    %%%%%%%%%%%%%%%%%计算划分点
    setpoints=[];
    seqs=[];
    locs=[];
    %%%%%%%%%%%%%%%当出现有相通属性值的样本点时,去掉其余的只保留一个,为后面
    %为后面计算断点做准备
    [seqs,locs]=sort(data(:,i));
    se=seqs;
    for bbs=1:m-1
    if se(bbs)==se(bbs+1)
        qs=bbs+1;
        while se(bbs)==se(qs)
            se(qs)=inf;
        end
    end
    end
    se(find(se==inf))=[];
    newlen=length(se);
    %%%%%%%%%%%%%%%%%
    for j=1:newlen-1       %计算断点的值
        setpoints(j)=(se(j)+se(j+1))/2;
    end
    %%%%%%%%%%%%%%%%%
    nn=length(setpoints);%计算现有内部断点数
    for t1=1:nn+1   %计算各个断点处的卡方统计值
   %%%%%%%%%%计算卡方分布值
    if t1==1
    s1=length(find(-inf<seqs&seqs<setpoints(t1)));%取区间内的全部属性值对应的地址
    elseif t1==nn+1
    s1=length(find(setpoints(t1-1)<=seqs&seqs<inf));
    else
    s1=length(find(setpoints(t1-1)<=seqs&seqs<setpoints(t1)));
    end
    num(t1)=s1;
    P(t1)=s1/m;
    end%接 for t1=1:nn+1
    Hmin(1)=-sum(P.*log2(P));%初始熵值
    k0=length(setpoints);
    H0=Hmin(1);
    Ck=zeros(1,2);%初始化Ck,另Ck(2)=0是为了它能够进入循环while Ck(2)-Ck(1)>=0
    %Ck(2)是合并区间后的值,在while循环中会设置
    %%%%%%%%%%%%%%%%%%循环
    symbol=0;
    while Ck(2)-Ck(1)>=0
    Ck(1)=Ck(2);
    if symbol==1
        setpt(ad)=[];
        setpoints=[];
        setpoints=setpt;
    end
    Q=[];
    H=[];
    num=[];
    setpt=[];
    nn=length(setpoints);%计算现有内部断点数
    setpt=setpoints;
    for c1=1:nn%计算去掉每个断点所得的熵值,找出其中熵差最小的一个作为合并对象
        setpoints=[];
        setpoints=setpt;
        setpoints(c1)=[];
        tt=length(setpoints);
        for t2=1:tt+1   %计算各个断点处的卡方统计值
        %%%%%%%%%%计算卡方分布值
        if t2==1
        s1=length(find(-inf<seqs&seqs<setpoints(t2)));%取区间内的全部属性值对应的地址
        elseif t2==tt+1
        s1=length(find(setpoints(t2-1)<=seqs&seqs<inf));
        else
        s1=length(find(setpoints(t2-1)<=seqs&seqs<setpoints(t2)));
        end
        num(t2)=s1;
        Q(t1)=s1/m;
        end%接 for t1=1:nn+1
        H(c1)=-sum(Q.*log2(Q));%后续计算所得熵值
    end
    symbol=1;
    [Hmin(2),ad]=min(H);
%     Ck(2)=(nn)*Hmin(2)-Hmin(1)*(nn-1);
    Ck(2)=(k0)*Hmin(2)-H0*(nn-1);
    
    Hmin(1)=Hmin(2);
    end
    nt=length(setpt);
    result(1:nt,i)=setpt;
end
pointsnum=[];
    %将各个区间的值离散化
    dds=zeros(m,n);
    for i=1:n
        locd=[];
        locd=result(:,i);
        locd(find(locd==0))=[];
        pointsnum(i)=length(locd)+1;%区间个数
        if length(locd)~=0
        for j=1:pointsnum(i)
            if j==1
                dds(find(-inf<data(:,i)&data(:,i)<=locd(j)),i)=j;
            elseif j==pointsnum(i)
                dds(find(locd(j-1)<=data(:,i)&data(:,i)<inf),i)=j;
            else 
                dds(find(locd(j-1)<=data(:,i)&data(:,i)<=locd(j)),i)=j;
            end
        end
        end
    end





    
    
   
    
    
    

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -