950.txt

来自「This complete matlab for neural network」· 文本 代码 · 共 40 行

TXT
40
字号
发信人: roamingo (漫步鸥), 信区: DataMining
标  题: Re: 下一步该看些什么
发信站: 南京大学小百合站 (Mon Dec 17 16:51:21 2001), 站内信件

I think it's better to use a configurable variable when you are writing
a sessionizor.  Then, you can find some reasonable interval by yourself.
For my experiments, 10 - 30 minites are all fine. (This is the inactive
period of a session, not the total time span of it.) 

For the second question, there are many, depending on what kind of patterns
you are going to find. For example:
 * Association: find those pages that tend to be accessed togeter.
 * Sequenatial analysis: find the frequent path.
 * Markov chain model: predict the next access, often used to do prefetch.
 * Clustering (usually the categorial value oriented method, like ROCK 
   mentioned in Han's textbook):
   - session clustering
   - page clustering
 * And some combinations of the above.

【 在 hwe (xiaohui) 的大作中提到: 】
: 好像是30分钟
: 【 在 iamgufeng (古风) 的大作中提到: 】
: : 看完han的书大致明白了dm是个啥玩艺,里面大概有哪些道道,哪些实际工作可以借..
: : 来进一步提高。但具体要深入到某个方向,某种算法,某方面的项目实施经验,可还得
: : 找其他文献了,好在网上有很多好东东。即使这样,靠单个人的力量,什么都从头编程
: : 实现,也挺难的,最好找些成熟的工具辅助学习,等那天吃透了这个领域再去编程实现
: : 某个项目也许更现实一点。
: : 说不好瞎说,请高手指正,也请你们引引路。
: : 具体到web using mining,有两个请教:
: : 1.session划分时间定为多少比较合理。
: : 2.哪些算法更适合用户浏览模式的log分析。


--
Read digitally, save a tree.

※ 修改:.roamingo 於 Dec 17 16:54:16 修改本文.[FROM: 202.120.7.27]
※ 来源:.南京大学小百合站 bbs.nju.edu.cn.[FROM: 202.120.7.27]

⌨️ 快捷键说明

复制代码Ctrl + C
搜索代码Ctrl + F
全屏模式F11
增大字号Ctrl + =
减小字号Ctrl + -
显示快捷键?