wf.py

来自「中文自然語言處理相關程式」· Python 代码 · 共 30 行

PY
30
字号
import codecs, re

f1=codecs.open(r"./T0263_utf8.txt", "r", "utf8")
f2=codecs.open(r"./T0263_wfrq.txt", "w", "utf8")

l=f1.read()
f1.close()

d={}
pattern=re.compile(r"(\[[^]]*\]|.)")
sl=pattern.findall(l)
i=0
for k in sl:
	i=i+1
	if k in d:
		d[k]=d[k]+1
	else:
		d[k]=1

wf=d.items()
wf.sort(lambda x, y : cmp(x[1],y[1]))    
wf.reverse()

print>>f2, 'num=',i
for w in wf:
	word=w[0]
	freq=w[1]
	print>>f2, word, freq
	
f2.close()

⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?