📄 converttext.py

📁 documents classification and words statiscs TF/IDF etc

💻 PY

字号:

#!/usr/bin/python# -*- coding: iso-8859-1 -*-### http://aspn.activestate.com/ASPN/Cookbook/Python/Recipe/302633# angepasst und erg鋘zt von MHimport zipfile, re, systry:    from win32com.client import Dispatchexcept:    pass# OpenOffice-Texte lesenclass ReadOO:    def __init__(self, filename):        zf = zipfile.ZipFile(filename, "r")        self.data = zf.read("content.xml")        zf.close()    def getXML(self):        return self.data    def getData(self, collapse=1):        stripxml = re.compile("<[^>]*?>", re.DOTALL|re.MULTILINE)        self.data = self.data.replace('&apos;', "\'")        return " ".join(stripxml.sub(" ", self.data).split())        # MS Word-Texte lesen       class ReadWord:    def __init__(self, filename):        self.w = Dispatch("Word.Application")        # self.w.Visible = 1        self.w.Documents.Open(filename)        self.data = self.w.ActiveDocument.Content.Text        self.data = ' '.join(self.data.split())        self.w.ActiveDocument.Close()         # nicht optimal: es bleibt immer eine Instanz von Word        # im Speicher - eigentlich m黶st noch ein self.w.Quit() kommen,        # aber das schliesst Word dann komplett ab, also auch eventuelle        # Dokumente, die vorher schon ge鰂fnet waren...            def getData(self):        return self.data                if __name__=="__main__":    if len(sys.argv)>1:        oo = ReadOO(sys.argv[1])        print oo.getXML()        print oo.getData()    else:        pass        # print __doc__.strip()        # oo = ReadOO('C:\Dokumente und Einstellungen\Matthias\Desktop\Abrechnung Amsterdam 2007.odt')        # print oo.getXML()        # print oo.getData()        # print type( oo.getData() )

⌨️ 快捷键说明

复制代码 Ctrl + C

搜索代码 Ctrl + F

全屏模式 F11

切换主题 Ctrl + Shift + D

显示快捷键 ?

增大字号 Ctrl + =

减小字号 Ctrl + -