textminingworddochandler.java

来自「LuceneInAction配套源码,LuceneInAction是对lucen」· Java 代码 · 共 45 行

JAVA

45 行

package lia.handlingtypes.msdoc;import lia.handlingtypes.framework.DocumentHandler;import lia.handlingtypes.framework.DocumentHandlerException;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.textmining.text.extraction.WordExtractor;import java.io.File;import java.io.InputStream;import java.io.FileInputStream;public class TextMiningWordDocHandler implements DocumentHandler {  public Document getDocument(InputStream is)    throws DocumentHandlerException {    String bodyText = null;    try {      bodyText = new WordExtractor().extractText(is);    }    catch (Exception e) {      throw new DocumentHandlerException(        "Cannot extract text from a Word document", e);    }    if ((bodyText != null) && (bodyText.trim().length() > 0)) {      Document doc = new Document();      doc.add(Field.UnStored("body", bodyText));      return doc;    }    return null;  }  public static void main(String[] args) throws Exception {    TextMiningWordDocHandler handler =      new TextMiningWordDocHandler();    Document doc = handler.getDocument(      new FileInputStream(new File(args[0])));    System.out.println(doc);  }}

textminingworddochandler.java - 源码说明

本页面展示了「LuceneInAction配套源码,LuceneInAction是对lucene api的详细讲解及具体应用.此源码即应用例子」中的 textminingworddochandler.java 源码文件，采用 Java 编程语言编写，共 45 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与LuceneInAction相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?