欢迎您来到北京学信信息科学研究院官方网站!学科院学信院
北京学信信息科学研究院(学科院)-logo
当前位置:首页 > 交流论坛 > 师资论坛 > 列表

“紫冬青年创新沙龙”举办第五期主题活动

来源:   评论:0    2014-02-16 21:03:31   点击:

   123日下午,紫冬创新沙龙第五期活动在自动化研究所如期举行。北京交通大学交通数据分析与挖掘北京市重点实验室主任、北京交通大学计算机科学系主任于剑应邀出席并做“聚类公理化研究及其应用”的特邀报告。活动由自动化所副总工程师张文生主持。 

  报告首先提出:聚类是人类认知世界的一项重要能力,在大数据分析时代,可以用来解决数据划分问题。于剑认为:聚类实际上并没有严格的定义,但是研究者有一个基本认可的共识。那就是,将n个对象划分成c个子集,使得每个子集内的对象相似,不通子集内的对象不相似。 

  接下来,报告中给出了聚类分析的四个基本步骤:数据表示、聚类判据、聚类算法和聚类评估,并分别进行了阐述与数学符号定义。在总结了聚类算法的典型应用以及涉及到的多种基础理论之后,报告抛出了“聚类分析有无理论”、“聚类算法有无共同性质”及“聚类公理化研究是否可行”的问题,引发现场听众思考。 

  报告进一步给出了目前文献中存在的三种研究聚类公理化的方法:聚类判据(目标函数)的公理化、聚类映射的公理化、聚类有效性函数的公理化。于剑认为,这些公理貌似很有道理,但是存在以下几点缺点:1)文献中对聚类判据的公理化,过于具体,对于很多聚类算法不适用;2)文献中对聚类函数的公理化,没有或者很少算法满足;3)文献中对聚类有效性的公理化,不能区分划分与聚类结果。因此,我们得出,目前文献中的聚类公理化体系与聚类的基本要求联系不紧密。 

  聚类的基本要求,并没有涉及聚类函数、聚类判据或者聚类有效性,只是对于聚类结果提出了要求。于剑从聚类的基本要求出发,研究聚类结果的公共性质:样本可分性公理、类可分性公理、相似性可分性公理,并分别给出了数学描述。 

  报告紧接着分析了聚类结果与划分的异同点,并给出了边界集的概念。如果有边界集为空,则层次聚类算法、硬划分聚类算法遵循聚类公理。软化分就复杂一些,其聚类结果与聚类公理更复杂一些。报告中指出,只简单地遵循聚类公理是不够的,因为它只是聚类的最低标准。聚类结果应用离违反聚类公理的情形越远越好。由此,可以推出以下3条聚类准则:类分离性准则、类紧致性准则、劣类避免准则。报告中分别给出了详细的介绍。 

  最后,于剑对其聚类公理化的工作做了总结:1)提出了一个聚类公理体系,该体系第一次可以将C-means、Model based clustering等著名聚类判据演绎推出;2)提出了聚类分析中的劣类定义和边界集的概念;3)提出了聚类判据设计的3条原则;4)提出了一个软聚类算法理论分析框架。

2013 - 2018  北京学信信息科学研究院  版权所有    工信部备案:京ICP备14002828号      公安部备案:11020015168号   法律顾问:德鑫律师事务所

学术课题管理处:建外SOHO 12号楼(北京市朝阳区东三环中路39号)  学术课题评审委:中关村科技贸易中心(北京市海淀区中关村大街18号)  

山西省:太原市小店区华德中心广场B座0302室 0351-8339203、8339205  山东省:济南市槐荫区绿地中央广场A栋2208室 0531-82349096、82349087   

河北省:石家庄市桥西区石家庄第六中学礼堂 0311-80851767、80790992  河南省:郑州市 管城区 紫燕华庭B座1603室 0371-61312611、61312612   

E-mail:service@xky.org.cn  邮编:100005  Tel/fax:010-81770644