docfrequencyfilter.java

来自「dragontoolkit用于机器学习」· Java 代码 · 共 61 行

JAVA

61 行

package dragon.ir.clustering.featurefilter;import dragon.ir.index.*;import dragon.util.MathUtil;import java.util.ArrayList;/** * <p>Unsupervised Feature Selector which exclude features with its document frequency less than a given threshold</p> * <p></p> * <p>Copyright: Copyright (c) 2005</p> * <p>Company: IST, Drexel University</p> * @author Davis Zhou * @version 1.0 */public class DocFrequencyFilter extends AbstractFeatureFilter {    private int minDocFrequency;    public DocFrequencyFilter(int minDocFrequency) {        this.minDocFrequency =minDocFrequency;    }    protected int[] getSelectedFeatures(IndexReader indexReader, IRDoc[] docSet){        ArrayList list;        IRTerm curTerm;        int[] featureMap, arrDocFreq;        int i,termNum;        termNum=indexReader.getCollection().getTermNum();        if(docSet!=null && docSet.length<indexReader.getCollection().getDocNum()*0.67)            arrDocFreq=computeTermCount(indexReader,docSet);        else            arrDocFreq=null;        list=new ArrayList(termNum);        for(i=0;i<termNum;i++){            if(arrDocFreq!=null && arrDocFreq[i]==0)                continue;            curTerm=indexReader.getIRTerm(i);            if(curTerm.getDocFrequency()>=minDocFrequency)                list.add(curTerm);        }        featureMap=new int[list.size()];        for(i=0;i<featureMap.length;i++)            featureMap[i]=((IRTerm)list.get(i)).getIndex();        return featureMap;    }    private int[] computeTermCount(IndexReader indexReader, IRDoc[] arrDoc){        int[] arrIndex, buf;        int j,k;        buf=new int[indexReader.getCollection().getTermNum()];        MathUtil.initArray(buf,0);        for(j=0;j<arrDoc.length;j++){            arrIndex = indexReader.getTermIndexList(arrDoc[j].getIndex());            for (k = 0; k <arrIndex.length; k++)                    buf[arrIndex[k]]+=1;        }        return buf;    }}

docfrequencyfilter.java - 源码说明

本页面展示了「dragontoolkit用于机器学习」中的 docfrequencyfilter.java 源码文件，采用 Java 编程语言编写，共 61 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与dragontoolkit相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?