⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 converttext.py

📁 documents classification and words statiscs TF/IDF etc
💻 PY
字号:
#!/usr/bin/python# -*- coding: iso-8859-1 -*-### http://aspn.activestate.com/ASPN/Cookbook/Python/Recipe/302633# angepasst und erg鋘zt von MHimport zipfile, re, systry:    from win32com.client import Dispatchexcept:    pass# OpenOffice-Texte lesenclass ReadOO:    def __init__(self, filename):        zf = zipfile.ZipFile(filename, "r")        self.data = zf.read("content.xml")        zf.close()    def getXML(self):        return self.data    def getData(self, collapse=1):        stripxml = re.compile("<[^>]*?>", re.DOTALL|re.MULTILINE)        self.data = self.data.replace('&apos;', "\'")        return " ".join(stripxml.sub(" ", self.data).split())        # MS Word-Texte lesen       class ReadWord:    def __init__(self, filename):        self.w = Dispatch("Word.Application")        # self.w.Visible = 1        self.w.Documents.Open(filename)        self.data = self.w.ActiveDocument.Content.Text        self.data = ' '.join(self.data.split())        self.w.ActiveDocument.Close()         # nicht optimal: es bleibt immer eine Instanz von Word        # im Speicher - eigentlich m黶st noch ein self.w.Quit() kommen,        # aber das schliesst Word dann komplett ab, also auch eventuelle        # Dokumente, die vorher schon ge鰂fnet waren...            def getData(self):        return self.data                if __name__=="__main__":    if len(sys.argv)>1:        oo = ReadOO(sys.argv[1])        print oo.getXML()        print oo.getData()    else:        pass        # print __doc__.strip()        # oo = ReadOO('C:\Dokumente und Einstellungen\Matthias\Desktop\Abrechnung Amsterdam 2007.odt')        # print oo.getXML()        # print oo.getData()        # print type( oo.getData() )

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -