摘要
在前面文章中介绍了本研究的模型使用SK-Learn多项式回归和神经网络都可以得到好的结果,但是通常我们认为,神经网络对于数据集的大小要求会更高一点,在本章中:
- 利用CFD产生不同大小的数据集,使用两种方法进行拟合,
- 评估了多项式回归和神经网络模型在不同数据集下的表现。
数据集
前面我们选用了包含21个计算结果结果的数据集。我们可以将D的步长进行调整,而产生更多的数据集,比如,我们可以产生包含11组数据的数据集,也可以产生包含101组数据的数据集,当然还有其他的数据集。
11组数据的数据集中,heat部件的温度与D的关系如下图所示:
101组数据的数据集中,heat部件的温度与D的关系如下图所示:
371组数据的数据集中,heat部件的温度与D的关系如下图所示:
Dataset11的研究
Dataset11多项式回归
使用了4阶多项式回归训练模型,在测试集中预测的准确度如下图所示:
R2 score: 0.9628717222035422
Mean Squared Error: 0.010903528174133134
Mean Absolute Error: 0.0893634062848226
Dataset11神经网络模型
使用了与上一文章中一样的7层隐藏层的神经网络模型,在测试集中预测的准确度如下图所示:
R2 score: 0.35997135381363976
Mean Squared Error: 0.19054323
Mean Absolute Error: 0.3524933
Dataset21的研究
Dataset21多项式回归
使用了4阶多项式回归训练模型,在测试集中预测的准确度如下图所示:
R2 score: 0.9814169221431929
Mean Squared Error: 0.004181097720090528
Mean Absolute Error: 0.06277254235435378
Dataset21神经网络模型
使用了与上一文章中一样的7层隐藏层的神经网络模型,在测试集中预测的准确度如下图所示:
R2 score: 0.22970822906625143
Mean Squared Error: 0.00063205796
Mean Absolute Error: 0.02298813
Dataset38的研究
Dataset38多项式回归
使用了4阶多项式回归训练模型,在测试集中预测的准确度如下图所示:
R2 score: 0.9801750123259995
Mean Squared Error: 0.0017544612190334443
Mean Absolute Error: 0.03380088277668314
Dataset38神经网络模型
使用了与上一文章中一样的7层隐藏层的神经网络模型,在测试集中预测的准确度如下图所示:
R2 score: 0.974916787662089
Mean Squared Error: 0.0037280149
Mean Absolute Error: 0.05290556
其他大小的Dataset
我们还研究了其他大小的Dataset,最终我们将所有的Dataset在不同模型下的R2 Score做成一个曲线如下图所示:
结论
明显可以看出,在数据集规模比较小的时候,使用多项式回归的精度要远远高于神经网络模型。这是因为神经网络模型所需要的数据集的数据量是要稍微大一点,比如上面11个数据,按照0.2的测试集数量比例设定,那么训练集只有8个数据可以使用,造成神经网络很难捕捉到该D-T变化的非线性。而多项式回归跟数据量没有太大的关系。 而随着数据集的规模变大,神经网络的精度也达到了相同的程度。
在下一章中,我们准备使用两个参数作为变量,然后进行研究。