20.txt

来自「This complete matlab for neural network」· 文本代码 · 共 28 行

TXT

28 行

发信人: GzLi (笑梨), 信区: DataMining
标  题: [合集]web内容挖掘特征向量的如何确定
发信站: 南京大学小百合站 (Sat Jul 13 15:46:29 2002), 站内信件

pxh1018 (耐思) 于Wed Jul 10 11:13:39 2002)
提到：

请问如何在web内容挖掘中确定特征向量，如果移单个词，那好确定，如果以词汇为

特征向量，那如何确定，请指教！



mining (key) 于Wed Jul 10 11:46:21 2002提到：

不知道你寻找特征词汇的目的，是进行文本分类吗？
对于中文文本一般要先分词，再用逆文本频率选取特征词汇。
这样做有个问题那就是阈值很难以确定，导致了特征词汇量很大。
这儿恐怕还有些工作需要做。
不知道我说得对否？我也在做这方面的工作，欢迎大家讨论。


chdq135 (阿权) 于Thu Jul 11 10:49:13 2002提到：

其实，再国外很多人在研究基于ontology来分类。ontology实从词表发展过来的。
单纯从文字已经很难有突破了，必须解决语义问题。

20.txt - 源码说明

本页面展示了「This complete matlab for neural network」中的 20.txt 源码文件，采用文本编程语言编写，共 28 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与complete相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?