第34章数据融合异常（2 / 4）

100的显卡集群的情况下，

如果用上全部的数据的话，虽然时间上不会是简单的倍乘关系，但至少也得两周。

但这也就是第一次训练时候需要大量数据才要这么久，等第一次训练好了，后续的再有新的数据，就不需要从头训练，只需要利用新的数据微调就行。

现在他就在看输出日志，观察到底是在哪一个环节出了问题，为了衡量模型的效果好坏，

他在数据预处理，数据融合，模型训练，结果输出这几个方面设计了几个指标。

经过观察，他大概确认了最为可能的一个原因。

数据融合异常。

因为模型接受的数据是多种模态的，所以在预处理之后还有一个数据融合阶段。

根据实验日志来看，问题就出现在了这一阶段。

原本的数据融合算法在只有两种模态数据的时候，效果很好，但是当数据的模态数量逐渐上升，

一些原本没有发现的bug逐渐显现出来，这也是导致最终效果不如原来模型的最为重要的原因。

当然，也可能是因为过拟合，数据泄露，这种普遍性的问题，只不过仅根据这次的输出日志来看，可能性不大。

“嗯......特征维度贡献方差过大？”划动滚轮的手指停下，周昀敏锐地看到了一条异常的输出。

说人话就是，模型在融合信息的时候没有一个轻重缓急，对所有模态的数据都一视同仁，平等对待了所有输入。

这在模态少的时候可能适用，因为数据输入之前，在无形之中其实是多了一个人工筛选的步骤。

比如你要预测股票的涨跌，相比于各种专家的视频分析，你可能会更加相信各种金融指标，所以你就会下意识地选择各种数字指标输入模型，而不是专家的视频分析。

这就隐含地为数据赋予了权重，虽

第34章 数据融合异常（2 / 4）