作者
Alessandro Viola、Mauro Munerato(ESTECO)
分析处理海量数据是一项具有挑战性的任务,聚类技术对于此类数据分析非常有用。
假设你家里有很多书,想对它们进行分类以快速轻松地找到你需要的书。显然,把书随意放在书架上并不像你想象的那样有效。您可以按照主题、体裁、颜色或你能想到的任何其他标准来组织你的书。图书的存放方法就是一种聚类方法:根据您喜欢的相似性标准对图书进行分组,该组中的任何一本书都是该图书组的良好代表。
这同样适用于仿真驱动的产品开发,其中聚类分析允许您在复杂的数据集中识别具有相似特征的设计组。
例如,假设您是一名从事车辆开发项目的CAE工程师,该项目需要参数化仿真和优化技术来实现更好的设计性能。可能会发生这样的情况:在优化运行之后,您最终拥有数千种设计,而每种设计都代表一种可能的汽车配置。手动分析每一个设计是不切实际的。您需要一种自动的方法来检测它们之间的根本差异。聚类工具就是这样一种方法。您只需要选择变量(以识别相似性)和一些其他参数,该工具就会完成这项任务。设计将被分组到数量较少的集群中,您只需要比较每个集群的代表。一旦您为您的目标选择了最相关的集群,您就可以进一步检查其中包含的设计。
聚类:一种便于设计分类的多变量分析方法
多变量分析(MVA)是指用于分析具有大量变量的数据集并识别模式的统计技术。它允许您在进行优化研究之前更好地了解设计空间和变量之间的关系,从而提高流程效率。
在MVA技术(如分类、多重相关分析和维度约简)中,聚类是数据挖掘中一项众所周知的无监督学习任务。该技术可用于预处理和后处理。这意味着您可以在优化之前进行聚类(从输入空间参数开始),也可以对由探索产生的设计进行分组。预处理和后处理方法的目的都是通过识别代表整个数据集可变性的设计,减少必须管理的数据量,从而简化分析。
我们的流程自动化和设计优化软件modeFRONTIER包含一个多变量分析(MVA)环境,其中包括一个执行聚类分析的工具。它为用户提供了根据给定规则(分层和分区聚类)将设计组织成组并查找数据聚类的可能性。
聚类分析工具
在modeFRONTIER中的工作方式
除其他目的外,聚类可以在modeFRONTIER中用于:
-
根据每个设计在输入设计空间中的位置对数据进行分组。这种分组的目的可以是在设计空间的不同区域训练不同的响应面模型(RSM)。
-
确定目标值更佳的设计空间区域。最终目标是缩减变量空间,并使用实验设计(DOE)或探索算法探索被减小的区域。
一旦您选择了要聚类的数据集以查找在输入和输出方面具有相似属性的设计组后,您可以通过应用 modeFRONTIER 中可用的几种分层或 k-means 聚类算法来运行聚类模型。
当需要对大型数据集进行聚类时,k-means(或分区)聚类更适合。与k-means相比,分层聚类产生的结果可以使用被称为树状图的图表轻松可视化。
modeFRONTIER为您提供了一个单一直观的界面,将分层和分区聚类结合起来。这使您能够同时训练多个聚类模型,每个模型具有不同的算法、变量和缩放策略组合。训练模型后,您可以在聚类向导结束时立即为分层方法创建树状图,为分区方法创建DB索引图。
聚类在现代汽车结构权衡分析中的应用
现代汽车公司和起亚研发中心的研究工程师着眼于在车辆设计的早期快速调查和确定全局更优设计区域,重点是机械包设计、系统选择和属性建模。为此,他们采用modeFRONTIER进行权衡空间分析(TSA),以确定一组系统参数、属性和特性,以满足概念产品开发阶段所需的车辆性能。在实践中,他们从自动化的多学科modeFRONTIER工作流程开始,运行实验设计(DOE)来评估所有可能的车辆配置。然后,他们应用先进的后处理技术,如聚类和多准则决策(MCDM),对相似的设计进行分组,并根据给定的偏好对所有合理的备选方案进行排序。
用于权衡空间分析的modeFRONTIER
多学科设计探索工作流
他们最初基于低保真度模型生成了3000种不同的车辆配置,以根据广阔的领域探索做出决策。
数据挖掘的第一阶段需要一个明智的过滤阶段,可以减少数据集,保持其可变性。因此,他们将分层聚类技术应用于3000种设计,考虑了几种不同的要求(燃油经济性、性能、成本和舒适性),并将类似设计分为20组。
树状图显示了从层次聚类分析中获得的20个聚类
最后,他们对这些分组进行了 MCDM 分析,根据用户定义的偏好对所有合理的设计备选方案进行排名,以支持决策制定。这使他们能够立即拒绝一半以上的设计,并将随后的数据分析工作集中在一个较小但具有代表性的数据集上。
MCDM排名图显示了考虑给定偏好的聚类中心排名
总之,使用聚类方法可以提高设计优化过程的效率。您可以将具有相似特征的多个设计样本组合到不同的分组中。这使您可以减少设计空间的复杂性,降低在探索或优化运行期间所需的计算数量。