说明.txt

来自「pdf,html,ps等转txt的头文件和库。还包括ictclas中科院计算所的」· 文本 代码 · 共 50 行

TXT
50
字号
XPDF:把pdf文档转化为TEXT文档的库,如需中文支持,请到官方网站下载中文语言包


pdf转txt

  将xpdflib.lib和xpdflib.dll复制到当前文件夹和debug文件夹下就可以,没用<xpdflib.h>

  测试程序

  #pragma comment(lib,"xpdflib.lib") 

  #define XPDFAPI XPDFAPI
  extern "C" _declspec(dllexport) 
  int pdf2txt(char* pdffile, char* txtfile);

  int main(int argc, char* argv[])
  {

   char *source="D:\\answer4.pdf";
   char *dest="D:\\a.txt";
   int result = pdf2txt(source,dest); 
  }



HTM2TXT:把HTML文件转化为TEXT文件

   将htm2txt.lib和htm2txt.dll以及htm2txt.h复制到当前文件夹和debug文件夹下

测试程序

   #include <htm2txt.h>
   #pragma comment(lib,"htm2txt.lib")


   int main(int argc, char* argv[])
   {
   CHtm2Txt  *h2t=new CHtm2Txt(); 
   char pTitle[10];
   char *pTxt="D:\\test.html";
   h2t->fn_bConvert(pTxt,pTitle);
   return 0;
   }

问题在与xpdflib.h和htm2txt.h头文件定义不同,所以调用方式不同,找半天试了还报错。



ICTCLAS:对中文字符串进行分词的库
PS2TXT:把Postscript文件转化为TEXT文件的源码

⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?