📄 converttext.py
字号:
#!/usr/bin/python# -*- coding: iso-8859-1 -*-### http://aspn.activestate.com/ASPN/Cookbook/Python/Recipe/302633# angepasst und erg鋘zt von MHimport zipfile, re, systry: from win32com.client import Dispatchexcept: pass# OpenOffice-Texte lesenclass ReadOO: def __init__(self, filename): zf = zipfile.ZipFile(filename, "r") self.data = zf.read("content.xml") zf.close() def getXML(self): return self.data def getData(self, collapse=1): stripxml = re.compile("<[^>]*?>", re.DOTALL|re.MULTILINE) self.data = self.data.replace(''', "\'") return " ".join(stripxml.sub(" ", self.data).split()) # MS Word-Texte lesen class ReadWord: def __init__(self, filename): self.w = Dispatch("Word.Application") # self.w.Visible = 1 self.w.Documents.Open(filename) self.data = self.w.ActiveDocument.Content.Text self.data = ' '.join(self.data.split()) self.w.ActiveDocument.Close() # nicht optimal: es bleibt immer eine Instanz von Word # im Speicher - eigentlich m黶st noch ein self.w.Quit() kommen, # aber das schliesst Word dann komplett ab, also auch eventuelle # Dokumente, die vorher schon ge鰂fnet waren... def getData(self): return self.data if __name__=="__main__": if len(sys.argv)>1: oo = ReadOO(sys.argv[1]) print oo.getXML() print oo.getData() else: pass # print __doc__.strip() # oo = ReadOO('C:\Dokumente und Einstellungen\Matthias\Desktop\Abrechnung Amsterdam 2007.odt') # print oo.getXML() # print oo.getData() # print type( oo.getData() )
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -