⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 stopwords.java

📁 矩阵的QR分解算法
💻 JAVA
📖 第 1 页 / 共 2 页
字号:
/* *    This program is free software; you can redistribute it and/or modify *    it under the terms of the GNU General Public License as published by *    the Free Software Foundation; either version 2 of the License, or *    (at your option) any later version. * *    This program is distributed in the hope that it will be useful, *    but WITHOUT ANY WARRANTY; without even the implied warranty of *    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the *    GNU General Public License for more details. * *    You should have received a copy of the GNU General Public License *    along with this program; if not, write to the Free Software *    Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA. *//* *    Stopwords.java *    Copyright (C) 2001 University of Waikato, Hamilton, New Zealand */package weka.core;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.util.Collections;import java.util.Date;import java.util.Enumeration;import java.util.HashSet;import java.util.Iterator;import java.util.Vector;/** * Class that can test whether a given string is a stop word. * Lowercases all words before the test. <p/> * The format for reading and writing is one word per line, lines starting * with '#' are interpreted as comments and therefore skipped. <p/> * The default stopwords are based on <a href="http://www.cs.cmu.edu/~mccallum/bow/rainbow/" target="_blank">Rainbow</a>. <p/> * * Accepts the following parameter: <p/> * * -i file <br/> * loads the stopwords from the given file <p/> * * -o file <br/> * saves the stopwords to the given file <p/> * * -p <br/> * outputs the current stopwords on stdout <p/> * * Any additional parameters are interpreted as words to test as stopwords. *  * @author Eibe Frank (eibe@cs.waikato.ac.nz) * @author Ashraf M. Kibriya (amk14@cs.waikato.ac.nz) * @author FracPete (fracpete at waikato dot ac dot nz) * @version $Revision: 1.5 $ */public class Stopwords {    /** The hash set containing the list of stopwords */  protected HashSet m_Words = null;  /** The default stopwords object (stoplist based on Rainbow) */  protected static Stopwords m_Stopwords;  static {    if (m_Stopwords == null) {      m_Stopwords = new Stopwords();    }  }  /**   * initializes the stopwords (based on <a href="http://www.cs.cmu.edu/~mccallum/bow/rainbow/" target="_blank">Rainbow</a>).   */  public Stopwords() {    m_Words = new HashSet();    //Stopwords list from Rainbow    add("a");    add("able");    add("about");    add("above");    add("according");    add("accordingly");    add("across");    add("actually");    add("after");    add("afterwards");    add("again");    add("against");    add("all");    add("allow");    add("allows");    add("almost");    add("alone");    add("along");    add("already");    add("also");    add("although");    add("always");    add("am");    add("among");    add("amongst");    add("an");    add("and");    add("another");    add("any");    add("anybody");    add("anyhow");    add("anyone");    add("anything");    add("anyway");    add("anyways");    add("anywhere");    add("apart");    add("appear");    add("appreciate");    add("appropriate");    add("are");    add("around");    add("as");    add("aside");    add("ask");    add("asking");    add("associated");    add("at");    add("available");    add("away");    add("awfully");    add("b");    add("be");    add("became");    add("because");    add("become");    add("becomes");    add("becoming");    add("been");    add("before");    add("beforehand");    add("behind");    add("being");    add("believe");    add("below");    add("beside");    add("besides");    add("best");    add("better");    add("between");    add("beyond");    add("both");    add("brief");    add("but");    add("by");    add("c");    add("came");    add("can");    add("cannot");    add("cant");    add("cause");    add("causes");    add("certain");    add("certainly");    add("changes");    add("clearly");    add("co");    add("com");    add("come");    add("comes");    add("concerning");    add("consequently");    add("consider");    add("considering");    add("contain");    add("containing");    add("contains");    add("corresponding");    add("could");    add("course");    add("currently");    add("d");    add("definitely");    add("described");    add("despite");    add("did");    add("different");    add("do");    add("does");    add("doing");    add("done");    add("down");    add("downwards");    add("during");    add("e");    add("each");    add("edu");    add("eg");    add("eight");    add("either");    add("else");    add("elsewhere");    add("enough");    add("entirely");    add("especially");    add("et");    add("etc");    add("even");    add("ever");    add("every");    add("everybody");    add("everyone");    add("everything");    add("everywhere");    add("ex");    add("exactly");    add("example");    add("except");    add("f");    add("far");    add("few");    add("fifth");    add("first");    add("five");    add("followed");    add("following");    add("follows");    add("for");    add("former");    add("formerly");    add("forth");    add("four");    add("from");    add("further");    add("furthermore");    add("g");    add("get");    add("gets");    add("getting");    add("given");    add("gives");    add("go");    add("goes");    add("going");    add("gone");    add("got");    add("gotten");    add("greetings");    add("h");    add("had");    add("happens");    add("hardly");    add("has");    add("have");    add("having");    add("he");    add("hello");    add("help");    add("hence");    add("her");    add("here");    add("hereafter");    add("hereby");    add("herein");    add("hereupon");    add("hers");    add("herself");    add("hi");    add("him");    add("himself");    add("his");    add("hither");    add("hopefully");    add("how");    add("howbeit");    add("however");    add("i");    add("ie");    add("if");    add("ignored");    add("immediate");    add("in");    add("inasmuch");    add("inc");    add("indeed");    add("indicate");    add("indicated");    add("indicates");    add("inner");    add("insofar");    add("instead");    add("into");    add("inward");    add("is");    add("it");    add("its");    add("itself");    add("j");    add("just");    add("k");    add("keep");    add("keeps");    add("kept");    add("know");    add("knows");    add("known");    add("l");    add("last");    add("lately");    add("later");    add("latter");    add("latterly");    add("least");    add("less");    add("lest");    add("let");    add("like");    add("liked");    add("likely");    add("little");    add("ll"); //added to avoid words like you'll,I'll etc.    add("look");    add("looking");    add("looks");    add("ltd");    add("m");    add("mainly");    add("many");    add("may");    add("maybe");    add("me");    add("mean");    add("meanwhile");    add("merely");    add("might");    add("more");    add("moreover");    add("most");    add("mostly");    add("much");    add("must");    add("my");    add("myself");    add("n");    add("name");    add("namely");    add("nd");    add("near");    add("nearly");    add("necessary");    add("need");    add("needs");    add("neither");    add("never");    add("nevertheless");    add("new");    add("next");    add("nine");    add("no");    add("nobody");    add("non");    add("none");    add("noone");    add("nor");    add("normally");    add("not");    add("nothing");    add("novel");    add("now");    add("nowhere");    add("o");    add("obviously");    add("of");    add("off");    add("often");    add("oh");    add("ok");    add("okay");    add("old");    add("on");    add("once");    add("one");    add("ones");    add("only");    add("onto");    add("or");    add("other");    add("others");    add("otherwise");    add("ought");    add("our");    add("ours");    add("ourselves");    add("out");    add("outside");    add("over");    add("overall");    add("own");    add("p");    add("particular");    add("particularly");    add("per");    add("perhaps");    add("placed");    add("please");    add("plus");    add("possible");    add("presumably");    add("probably");    add("provides");    add("q");    add("que");    add("quite");    add("qv");    add("r");    add("rather");    add("rd");    add("re");    add("really");    add("reasonably");    add("regarding");    add("regardless");    add("regards");

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -