⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 111.txt

📁 This complete matlab for neural network
💻 TXT
字号:
发信人: roamingo (漫步鸥), 信区: DataMining
标  题: Re: 何不挖掘一下bbs上的信息
发信站: 南京大学小百合站 (Mon Sep 17 16:29:02 2001), 站内信件

对于中文文本的挖掘其实应该是中文信息处理研究中的重要内容. 我认为一个
研究方向是中文页面的分类(classfication)和聚类(clustering).
 - 实现分词算法;
 - 采取某种策略将分词后的文档表示为向量;
 - 人工选择一些测试文档并指定类, 然后训练分类器得到分类函数;
 - 或者, 对文档向量进行聚类.
另外要是有研究过自动摘要的, 先将文档用自动摘要系统缩减可能是一个很好
的预处理方法.
再有就是作搜索引擎, 中文也需要象google这样的就好了(baidu似乎一般). Google
现在还是一个私有企业(没有上市), 预计今年的赢利为8位数($).

抛砖引玉, 欢迎指教.
【 在 screen (沉默) 的大作中提到: 】
: 何必将研究目光放到自己完全不熟悉的领域上呢,bbs上的信息完全可以让你有开阔的..
: 空间。

--
Read digitally, save a tree.

※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.120.7.27]

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -