行业分类是人为划分的,但资金的真实行为往往跨标签。两只股票可能同属「消费」,走势却各走各的;也可能分属不同行业,日收益率却高度同步。聚类分析的作用,就是根据历史数据自动找出「真正相似」的标的组合。
聚类分析是什么
聚类分析(Cluster Analysis)把相似对象自动归为一组、把差异大的对象分开。在 A 股研究中,团赢数据提供两类聚类:
- 指数成分股(上证50、沪深300、中证500):基于 2018 年以来的日收益率序列 计算 Pearson 相关系数,再用 Affinity Propagation 算法自动分簇。
- 行业板块:基于 PE、PB、ROE 等基本面指标做相似度聚类,揭示同一行业内的估值与质量分层。
结果由数据驱动,而非主观归类。
三种读图方式
团赢数据聚类页提供散点图、关系图与热力图三种视图,可按研究目的组合使用。
散点图:识别抱团结构
散点图通过 PCA / t-SNE 将高维相关矩阵降维到二维。距离越近,表示走势或基本面越相似;同一颜色代表同一聚类。可用于判断板块内部是「高度同质化」还是「多簇并存」——前者更适合龙头策略,后者更适合挖掘细分 alpha。
关系图:发现强绑定配对
当两只股票的相关系数 r ≥ 0.5 时,关系图会用边连接它们。这类高相关配对适合:
- 评估龙头带动效应或「影子股」现象
- 检查持仓是否无意中叠加了同一 beta
- 作为配对交易、对冲研究的起点
热力图:观察簇内分化
热力图按聚类排序展示相关系数矩阵。若同一簇内颜色差异明显,说明名义上同组、实际上已在分化——常见于行情后半段或风格切换阶段。
两个实战场景
指数成分股
对沪深300等成分股做收益率聚类,常能发现:
- 银行、保险、券商被分到不同簇,反映资金对息差与风险偏好的差异定价
- 部分跨界标的名义上属于消费,走势却与新能源或周期股绑定
这比仅看申万行业分类更贴近资金行为。
行业内部
以白酒、电气设备等行业为例,基本面聚类常将 高 ROE + 高估值、低 PE + 稳健分红、高弹性成长 等类型自动分开。在选龙头或补涨标的之前,先确认目标属于哪一簇,再叠加逻辑验证,可减少「假同行」误判。
使用建议
- 选赛道前先聚类:判断板块是单簇主导还是多簇并存,再决定策略类型。
- 持仓相关性检查:新标的与现有持仓若处于同一高相关簇,需留意 beta 叠加。
- 极端行情后复盘:大涨大跌之后观察簇是否重组,往往比单日涨跌更有信息。
在团赢数据中查看
研究终端的 板块聚类 模块日终更新聚类结果,支持:
数据由离线管道计算并发布,与基本面筛选、技术面榜单模块相互独立;本文仅说明方法论,具体数值以终端实时数据为准。
注意事项
聚类是描述性工具,不是预测工具:
- 历史相关不等于未来相关
- 样本过少、长期停牌的个股,结果需谨慎解读
- 建议与估值、财务质量、技术信号交叉验证