⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 news2korpus.py

📁 documents classification and words statiscs TF/IDF etc
💻 PY
字号:
#!/usr/bin/python# -*- coding: iso-8859-1 -*-## Hilfsklassen und -funktionen f黵 Korpus.pyimport nntplibclass News2Korpus:    def __init__(self, master=None, server='', gruppe='', anzahl=1, zitate='nein'):        self.master = master        self.server = server        self.gruppe = gruppe        self.anzahl = anzahl        self.zitate = zitate        self.data = {}                self.machNewsKorp()    def machNewsKorp(self):        ng = nntplib.NNTP(self.server)        resp, count, first, last, name = ng.group(self.gruppe)        # resp, koepfe = ng.xover(first, last)        resp, koepfe = ng.xhdr('subject', first + '-' + last)        gelesen = 0        for kopf in koepfe:            if gelesen < self.anzahl:                nummer = kopf[0]                betreff = kopf[1]                # absender = kopf[2]                # datum = kopf[3]                # beitrag = kopf[4]                           artikel = ng.body(nummer)                beitrag = artikel[2]                art = artikel[3]                    if self.zitate == 1:                    art = [x for x in art if x == '' or x[0] != '>']                                    text = '\n'.join(art)                # text = '%s\n%s\n%s\n\n%s' % (betreff, absender, datum, text)                                   name = "news:%s" % beitrag                self.data[name] = text                gelesen = gelesen + 1                                # Fortschritt in Statusbar anzeigen                self.master.status.progress.updateProgress(newValue=gelesen, newMax=self.anzahl)                else:                break            ng.quit()        # Progressbar zur點ksetzen                        self.master.status.progress.updateProgress(0)    def getData(self):        return self.dataif __name__ == '__main__':    server = 'news.dzug.org'    gruppe = 'de.comp.dzug.cmf'    k = News2Korpus(server=server, gruppe=gruppe, anzahl=25, zitate='nein')    x = k.getData()    for i in x.keys():        print i        print x[i]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -