basictokenextractor.java

来自「dragontoolkit用于机器学习」· Java 代码 · 共 69 行

JAVA

69 行

package dragon.nlp.extract;

import dragon.nlp.*;
import dragon.nlp.tool.*;
import dragon.util.*;
import java.util.ArrayList;

/**
 * <p>Token extraction</p>
 * <p> </p>
 * <p>Copyright: Copyright (c) 2005</p>
 * <p>Company: IST, Drexel University</p>
 * @author Davis Zhou
 * @version 1.0
 */

public class BasicTokenExtractor extends AbstractTokenExtractor{
    public BasicTokenExtractor(Lemmatiser lemmatiser) {
        super(lemmatiser);
    }

    public BasicTokenExtractor(Lemmatiser lemmatiser, String stoplistFile) {
        super(lemmatiser);
        setConceptFilter(new BasicConceptFilter(stoplistFile));
    }

    public ArrayList extractFromDoc(String content){
        ArrayList list;
        String value;
        int i;

        list=parser.parseTokens(content);
        conceptList=new ArrayList();
        if(list==null)
            return conceptList;
        for(i=0;i<list.size();i++){
            value=(String)list.get(i);
            addToken(value,conceptList);
        }
        list.clear();
        return conceptList;
    }

    public ArrayList extractFromSentence(Sentence sent){
        ArrayList tokenList;
        Word cur;

        tokenList=new SortedArray();
        cur=sent.getFirstWord();
        while(cur!=null){
            if(cur.getType()!=Word.TYPE_PUNC)
                addToken(new String(cur.getContent()), tokenList);
            cur=cur.next;
        }
        return tokenList;
    }

    private Token addToken(String value, ArrayList tokenList){
        Token token;

        if(lemmatiser!=null)
            value=lemmatiser.lemmatize(value);
        if(conceptFilter_enabled && !cf.keep(value)) return null;

        token=new Token(value);
        tokenList.add(token);
        return token;
    }
}

basictokenextractor.java - 源码说明

本页面展示了「dragontoolkit用于机器学习」中的 basictokenextractor.java 源码文件，采用 Java 编程语言编写，共 69 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与dragontoolkit相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?