⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 说明.txt

📁 pdf,html,ps等转txt的头文件和库。还包括ictclas中科院计算所的中文分词工具有.h和.lib和.d
💻 TXT
字号:
XPDF:把pdf文档转化为TEXT文档的库,如需中文支持,请到官方网站下载中文语言包


pdf转txt

  将xpdflib.lib和xpdflib.dll复制到当前文件夹和debug文件夹下就可以,没用<xpdflib.h>

  测试程序

  #pragma comment(lib,"xpdflib.lib") 

  #define XPDFAPI XPDFAPI
  extern "C" _declspec(dllexport) 
  int pdf2txt(char* pdffile, char* txtfile);

  int main(int argc, char* argv[])
  {

   char *source="D:\\answer4.pdf";
   char *dest="D:\\a.txt";
   int result = pdf2txt(source,dest); 
  }



HTM2TXT:把HTML文件转化为TEXT文件

   将htm2txt.lib和htm2txt.dll以及htm2txt.h复制到当前文件夹和debug文件夹下

测试程序

   #include <htm2txt.h>
   #pragma comment(lib,"htm2txt.lib")


   int main(int argc, char* argv[])
   {
   CHtm2Txt  *h2t=new CHtm2Txt(); 
   char pTitle[10];
   char *pTxt="D:\\test.html";
   h2t->fn_bConvert(pTxt,pTitle);
   return 0;
   }

问题在与xpdflib.h和htm2txt.h头文件定义不同,所以调用方式不同,找半天试了还报错。



ICTCLAS:对中文字符串进行分词的库
PS2TXT:把Postscript文件转化为TEXT文件的源码

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -