1. 代码规范部分

  1. 把代码进行简单的模块化处理,如下图所示,把提取配置,拿到数据,特征分析,训练模型,得到输出进行分离,后面才可以方便地进行操作而不会很乱
    image.png
    通过如下图所示的这种yaml文件的格式进行配置
    image.png

2. 数据处理和模型选择部分

  1. 进行一些数据处理和模型选择上的尝试
    我进行的数据处理的尝试:
    (1) 使用1个或多个气象站的数据
    (2) 清除死值数据
    (3) 关于11 * 11个维度的气象站地理位置数据使用多少个
    (4) 关于气象站的数据使用均值还是中位数
    (5) 是否使用自己添加的特征
    (6) 自己添加哪些特征
    (7) 是否清理无用的特征
    (8) 分别使用1-5或者6-20的数据训练一个统一的风电或者光伏的数据

我使用过的模型:
(1) 目前主要还是机器学习的模型:
xgboost, lightgbm, ranfom forest
采用了单个模型,最优模型以及模型融合的一些策略
(2) MLP简单地使用了一下,对输入数据和特征的处理很敏感,符合神经网络的特点

3. 进行的输出打印的尝试

(1) 输出1-10号发电站的5折score
(2) 输出1-10号发电站每一个发电的均值score
(3) 输出1-5号发电站的平均score和6-10号发电站的均值score

4. 我使用的记录方法

使用weight&bias,强烈推荐
image.png
image.png

5. 我使用的自动调节超参数的办法

使用weight&bias的swift方法
image.png

6. 我现在在考虑的一些问题

(1) 如何拟合光伏发电随着季节变换拟合出每天没有发电的时间点,早上和晚上?
(2) 如何有效地使用神经网络?使用什么神经网络,resnet, mlp, gru

7. 一些参考资料

《机器学习算法竞赛实战》-by 鱼佬
https://github.com/lyhue1991/PythonAiRoad/blob/master/30%E5%88%86%E9%92%9F%E5%90%83%E6%8E%89wandb%E5%8F%AF%E8%A7%86%E5%8C%96%E8%87%AA%E5%8A%A8%E8%B0%83%E5%8F%82.ipynb
https://zhuanlan.zhihu.com/p/605545206
https://lightgbm.apachecn.org/2/
https://zhuanlan.zhihu.com/p/376485485
https://scikitlearn.com.cn/