摘要

在前面文章中介绍了本研究的模型使用SK-Learn多项式回归和神经网络都可以得到好的结果,但是通常我们认为,神经网络对于数据集的大小要求会更高一点,在本章中:

  • 利用CFD产生不同大小的数据集,使用两种方法进行拟合,
  • 评估了多项式回归和神经网络模型在不同数据集下的表现。

数据集

前面我们选用了包含21个计算结果结果的数据集。我们可以将D的步长进行调整,而产生更多的数据集,比如,我们可以产生包含11组数据的数据集,也可以产生包含101组数据的数据集,当然还有其他的数据集。

11组数据的数据集中,heat部件的温度与D的关系如下图所示:

dataset11

101组数据的数据集中,heat部件的温度与D的关系如下图所示:

dataset101

371组数据的数据集中,heat部件的温度与D的关系如下图所示:

dataset371

Dataset11的研究

Dataset11多项式回归

使用了4阶多项式回归训练模型,在测试集中预测的准确度如下图所示:

dataset11-sk-1

R2 score: 0.9628717222035422

Mean Squared Error: 0.010903528174133134

Mean Absolute Error: 0.0893634062848226

Dataset11神经网络模型

使用了与上一文章中一样的7层隐藏层的神经网络模型,在测试集中预测的准确度如下图所示:

dataset11-nn-test-1

R2 score: 0.35997135381363976

Mean Squared Error: 0.19054323

Mean Absolute Error: 0.3524933

Dataset21的研究

Dataset21多项式回归

使用了4阶多项式回归训练模型,在测试集中预测的准确度如下图所示:

dataset21-sk-1

R2 score: 0.9814169221431929

Mean Squared Error: 0.004181097720090528

Mean Absolute Error: 0.06277254235435378

Dataset21神经网络模型

使用了与上一文章中一样的7层隐藏层的神经网络模型,在测试集中预测的准确度如下图所示:

dataset21-nn-test-1

R2 score: 0.22970822906625143

Mean Squared Error: 0.00063205796

Mean Absolute Error: 0.02298813

Dataset38的研究

Dataset38多项式回归

使用了4阶多项式回归训练模型,在测试集中预测的准确度如下图所示:

dataset38-sk-1

R2 score: 0.9801750123259995

Mean Squared Error: 0.0017544612190334443

Mean Absolute Error: 0.03380088277668314

Dataset38神经网络模型

使用了与上一文章中一样的7层隐藏层的神经网络模型,在测试集中预测的准确度如下图所示:

dataset38-nn-test-1

R2 score: 0.974916787662089

Mean Squared Error: 0.0037280149

Mean Absolute Error: 0.05290556

其他大小的Dataset

我们还研究了其他大小的Dataset,最终我们将所有的Dataset在不同模型下的R2 Score做成一个曲线如下图所示:

r2

结论

明显可以看出,在数据集规模比较小的时候,使用多项式回归的精度要远远高于神经网络模型。这是因为神经网络模型所需要的数据集的数据量是要稍微大一点,比如上面11个数据,按照0.2的测试集数量比例设定,那么训练集只有8个数据可以使用,造成神经网络很难捕捉到该D-T变化的非线性。而多项式回归跟数据量没有太大的关系。 而随着数据集的规模变大,神经网络的精度也达到了相同的程度。

在下一章中,我们准备使用两个参数作为变量,然后进行研究。