📄 javacluster.txt

📁 JAVA实现文本聚类

💻 TXT

字号:

/**//// <summary> 
数据挖掘工具

/// 以空白字符进行简单分词，并忽略大小写，
/// 实际情况中可以用其它中文分词算法
/// </summary> 
数据挖掘交友


/// <param name="input"></param>
/// <returns></returns>
public IList<string> Partition(string input) 数据挖掘研究院 
{
 Regex r=new Regex("([ \\t{}():;. \n])");   数据挖掘工具 
 input=input.ToLower() ;

 String [] tokens=r.Split(input);           数据挖掘工具 

 List<string> filter=new   List<string>() ; 
数据挖掘研究院


 for (int i=0; i < tokens.Length ; i++) 
数据挖掘工具

 {
   MatchCollection mc=r.Matches(tokens[i]); 
数据挖掘论坛

  if (mc.Count <= 0 && tokens[i].Trim().Length > 0       
   && !StopWordsHandler.IsStopword (tokens[i]) )         数据挖掘论坛 
    filter.Add(tokens[i]) ;
         }
 
 return filter.ToArray(); 
数据挖掘工具


}


以下是kmeans算法的基本代码 数据挖掘研究院 

略。。 数据挖掘研究院 

数据挖掘论坛 

以下是聚类实体类的定义 

数据挖掘研究院
 

internal class WawaCluster
{ 
数据挖掘论坛


    public WawaCluster(int dataindex,double[] data)
    { 数据挖掘论坛 
         CurrentMembership.Add(dataindex);
         Mean = data;
     } 
数据挖掘研究院


    /**//// <summary> 数据挖掘研究院 
    /// 该聚类的数据成员索引
    /// </summary>
    internal List<int> CurrentMembership = new List<int>(); 
数据挖掘论坛

   /**//// <summary>
    /// 该聚类的中心 数据挖掘研究院 
    /// </summary>
    internal double[] Mean;
    /**//// <summary> 数据挖掘工具 
    /// 该方法计算聚类对象的均值 
    /// </summary>
    /// <param name="coordinates"></param> 
数据挖掘研究院


    public void UpdateMean(double[][] coordinates)
    { 
数据挖掘交友


       // 根据 mCurrentMembership 取得原始资料点对象 coord ，该对象是 coordinates 的一个子集；
        //然后取出该子集的均值；取均值的算法很简单，可以把 coordinates 想象成一个 m*n 的距阵 ,
        //每个均值就是每个纵向列的取和平均值 , //该值保存在 mCenter 中 数据挖掘交友 

        for (int i = 0; i < CurrentMembership.Count; i++) 
数据挖掘交友

        {
            double[] coord = coordinates[CurrentMembership[i]]; 数据挖掘实验室 
            for (int j = 0; j < coord.Length; j++)
            { 
数据挖掘工具

                 Mean[j] += coord[j]; // 得到每个纵向列的和；
             } 数据挖掘论坛 
            for (int k = 0; k < Mean.Length; k++)
            { 
数据挖掘研究院


                 Mean[k] /= coord.Length; // 对每个纵向列取平均值
             } 数据挖掘实验室 
         }
     }
} 
数据挖掘工具

💿 文件大小 2 K

👤 上传用户 ivanyeh

📂 所属分类 Java编程

🏷️ 相关标签

#JAVA #文本聚类

⌨️ 快捷键说明

复制代码 Ctrl + C

搜索代码 Ctrl + F

全屏模式 F11

切换主题 Ctrl + Shift + D

显示快捷键 ?

增大字号 Ctrl + =

减小字号 Ctrl + -