📄 pdfboxhello.java

📁 《lucene+nutch搜索引擎开发》源代码

💻 JAVA

字号:

package chapter9;

import java.io.*;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;

public class PDFBoxHello {
	// 获取PDF内纯文本信息
	public String GetTextFromPdf(String filename) throws Exception
	{
		FileInputStream instream = new FileInputStream(filename);    // 根据指定文件创建输入流
		PDFParser parser = new PDFParser( instream );                // 创建PDF解析器
		parser.parse();                                              // 执行PDF解析过程
		
		PDDocument pdfdocument = parser.getPDDocument();             // 获取解析器的PDF文档对象
		PDFTextStripper pdfstripper = new PDFTextStripper();         // 生成PDF文档内容剥离器
		String contenttxt = pdfstripper.getText(pdfdocument);        // 利用剥离器获取文档
		
		System.out.println("文件长度 : "+ contenttxt.length() +"\n");
		return contenttxt;
		
	}
	
	public static void main(String args[])
	{
		PDFBoxHello pdfbox=new PDFBoxHello();                        // 生成PDFBoxHello对象
		try{
			                                                         // 获取文档纯文本内容
			String doctext = pdfbox.GetTextFromPdf("D:\\workshop\\docs\\index.pdf");
			System.out.println("文件内容 : ");			
			System.out.println(doctext);
			System.out.println("文件结束 . ");			
		} catch(Exception e){
			e.printStackTrace();
		}
	}
}

⌨️ 快捷键说明

复制代码 Ctrl + C

搜索代码 Ctrl + F

全屏模式 F11

切换主题 Ctrl + Shift + D

显示快捷键 ?

增大字号 Ctrl + =

减小字号 Ctrl + -