coarsesgmarticleparser.java

来自「dragontoolkit用于机器学习」· Java 代码 · 共 57 行

JAVA

57 行

package dragon.onlinedb.trec;import dragon.onlinedb.*;/** * <p>A coarse parser for sgm-styled news articles </p> * <p>It extracts document # as the key and treats all remaining tags as the body of an article. * All tags will be removed and some special characters wil be replaced. * </p> * <p>Copyright: Copyright (c) 2005</p> * <p>Company: IST, Drexel University</p> * @author Davis Zhou * @version 1.0 */public class CoarseSgmArticleParser extends SgmArticleParser {    public Article parse(String content){        BasicArticle article;        int start, end;        article=null;        try{            article=new BasicArticle();            //get document #            start=content.indexOf("<DOCNO>")+7;            end=content.indexOf("<",start);            article.setKey(content.substring(start, end).trim());            //get body            article.setBody(removeTag(getBodyContent(content,end+8)));            return article;        }        catch(Exception e){            e.printStackTrace();            if(article.getKey()!=null)               return article;            else                return null;        }    }    /**     * One can override this method to exclude some noisy tags.     * @param rawText original input text     * @param start the starting position for locating the body content     * @return tag-removed body content     */    protected String getBodyContent(String rawText, int start){        int end;        //skip the next tag. ususally FileID or DocID        start=rawText.indexOf("</",start);        end=rawText.indexOf(">",start+1);        return rawText.substring(end+1);    }}

coarsesgmarticleparser.java - 源码说明

本页面展示了「dragontoolkit用于机器学习」中的 coarsesgmarticleparser.java 源码文件，采用 Java 编程语言编写，共 57 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与dragontoolkit相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?