内容每5分钟更新
客服QQ:4008017500
乐彩论坛静态版乐彩论坛静态版 利用TPOT(管道优化工具...
共14条1页 30条/页首页上一页第1页下一页尾页
点击:   回复:2424 关闭此页

利用TPOT(管道优化工具)预测下期双色球蓝球的探索

楼主
  北京风哥 | 发表于2023-07-07 11:21:39
TPOT简介:
1 TPOT简介
Tree-based Pipeline Optimization Tool(TPOT,基于树的管道优化工具)是一个用于在 Python 中执行 AutoML 的开源库。

TPOT 使用基于树的结构来表示预测建模问题的模型管道,包括数据准备和建模算法以及模型超参数。它利用流行的 Scikit-Learn 机器学习库进行数据转换和机器学习算法,并使用遗传编程随机全局搜索过程来有效地发现给定数据集的性能最佳的模型管道。

然后执行优化过程以找到对给定数据集执行最佳的树结构。具体来说,一种遗传编程算法,旨在对表示为树的程序执行随机全局优化。

下图取自 TPOT 论文,展示了管道搜索所涉及的元素,包括数据清洗、特征选择、特征处理、特征构建、模型选择和超参数优化。

在Chat-GPT的指导下,对双色球蓝球下一期(2023078期)的遗漏值进行了预测运算,以下是运算结果,以及与Chat-GPT的问答:


Best pipeline: GradientBoostingRegressor(input_matrix, alpha=0.9, learning_rate=1.0, loss=ls, max_depth=7, max_features=0.8500000000000001, min_samples_leaf=17, min_samples_split=16, n_estimators=100, subsample=0.45)
均方误差(MSE): 116.22666666666667
蓝球01 :第208次遗漏值的预测结果: [9.4] ,当前实际遗漏:0

Best pipeline: DecisionTreeRegressor(RBFSampler(input_matrix, gamma=0.30000000000000004), max_depth=1, min_samples_leaf=4, min_samples_split=8)
均方误差(MSE): 292.59670781893004
蓝球02 :第180次遗漏值的预测结果: [10.22222222] ,当前实际遗漏:8

Best pipeline: DecisionTreeRegressor(LassoLarsCV(input_matrix, normalize=True), max_depth=6, min_samples_leaf=4, min_samples_split=20)
均方误差(MSE): 914.6692708333334
蓝球03 :第183次遗漏值的预测结果: [9.125] ,当前实际遗漏:3

Best pipeline: GradientBoostingRegressor(input_matrix, alpha=0.8, learning_rate=1.0, loss=huber, max_depth=4, max_features=0.4, min_samples_leaf=13, min_samples_split=14, n_estimators=100, subsample=0.35000000000000003)
均方误差(MSE): 168.80252148558307
蓝球04 :第175次遗漏值的预测结果: [18.62468719] ,当前实际遗漏:7

Best pipeline: LassoLarsCV(input_matrix, normalize=True)
均方误差(MSE): 204.79866063947145
蓝球05 :第182次遗漏值的预测结果: [6.84849906] ,当前实际遗漏:27

Best pipeline: RidgeCV(ExtraTreesRegressor(input_matrix, bootstrap=True, max_features=0.6500000000000001, min_samples_leaf=1, min_samples_split=15, n_estimators=100))
均方误差(MSE): 111.58079756514326
蓝球06 :第192次遗漏值的预测结果: [11.3404864] ,当前实际遗漏:6

Best pipeline: DecisionTreeRegressor(input_matrix, max_depth=1, min_samples_leaf=2, min_samples_split=3)
均方误差(MSE): 61.50583333333335
蓝球07 :第190次遗漏值的预测结果: [40.25] ,当前实际遗漏:30

Best pipeline: SGDRegressor(RBFSampler(input_matrix, gamma=0.5), alpha=0.0, eta0=0.01, fit_intercept=False, l1_ratio=0.5, learning_rate=constant, loss=squared_loss, penalty=elasticnet, power_t=0.1)
均方误差(MSE): 526.062263149092
蓝球08 :第174次遗漏值的预测结果: [6.55513554] ,当前实际遗漏:21

Best pipeline: GradientBoostingRegressor(input_matrix, alpha=0.9, learning_rate=1.0, loss=huber, max_depth=9, max_features=0.8, min_samples_leaf=13, min_samples_split=14, n_estimators=100, subsample=0.8500000000000001)
均方误差(MSE): 59.39688465375907
蓝球09 :第197次遗漏值的预测结果: [14.29326422] ,当前实际遗漏:1

Best pipeline: RidgeCV(input_matrix)
均方误差(MSE): 154.2547570397044
蓝球10 :第174次遗漏值的预测结果: [24.64506173] ,当前实际遗漏:4

Best pipeline: GradientBoostingRegressor(SelectFromModel(input_matrix, max_features=0.25, n_estimators=100, threshold=0.30000000000000004), alpha=0.9, learning_rate=0.5, loss=ls, max_depth=7, max_features=0.8, min_samples_leaf=17, min_samples_split=16, n_estimators=100, subsample=0.3)
均方误差(MSE): 1490.8049948292664
蓝球11 :第188次遗漏值的预测结果: [30.52811558],当前实际遗漏:17

Best pipeline: LassoLarsCV(input_matrix, normalize=True)
均方误差(MSE): 996.515625
蓝球12 :第197次遗漏值的预测结果: [16.875] ,当前实际遗漏:23

Best pipeline: DecisionTreeRegressor(RBFSampler(input_matrix, gamma=0.30000000000000004), max_depth=1, min_samples_leaf=4, min_samples_split=8)
均方误差(MSE): 737.5210156971375
蓝球13 :第175次遗漏值的预测结果: [14.63157895] ,当前实际遗漏:14

Best pipeline: RidgeCV(input_matrix)
均方误差(MSE): 219.34917968022447
蓝球14 :第193次遗漏值的预测结果: [4.71502058] ,当前实际遗漏:10

Best pipeline: DecisionTreeRegressor(RBFSampler(input_matrix, gamma=0.30000000000000004), max_depth=1, min_samples_leaf=4, min_samples_split=8)
均方误差(MSE): 229.98697916666666
蓝球15 :第197次遗漏值的预测结果: [5.] ,当前实际遗漏:15

Best pipeline: GradientBoostingRegressor(input_matrix, alpha=0.9, learning_rate=0.5, loss=ls, max_depth=7, max_features=0.8, min_samples_leaf=17, min_samples_split=16, n_estimators=100, subsample=0.25)
均方误差(MSE): 154.57019892874516
蓝球16 :第200次遗漏值的预测结果: [12.05908529] ,当前实际遗漏:33

提问:



Chat-GPT回答:




期待2023078期的开奖结果!
1楼
  CZCY001 | 发表于2023-07-07 12:57:27
谢谢你。
2楼
  xyyfx | 发表于2023-07-07 13:24:01
真牛逼!这也行
3楼
  阿晓欧 | 发表于2023-07-12 14:56:20
老哥会写程序吗
4楼
  家有旺财 | 发表于2024-03-30 10:21:15
风哥帮忙 看看,谢谢。
5楼
  北京风哥 | 发表于2024-03-30 11:18:08


已下载,正在运行,貌似要几个小时。。。。。
看起来model.save()应该没问题啊!!
6楼
  家有旺财 | 发表于2024-03-30 11:24:48


可以改下下面语句的 epochs=10,调试过程
model.fit(x=x_train, y=y_train, batch_size=100, epochs=1200, verbose=2)
7楼
  北京风哥 | 发表于2024-03-30 11:38:42



运行10轮训练后可以保存模型,你的错误提示是什么?能贴图上来吗?
8楼
  家有旺财 | 发表于2024-03-30 11:57:12
提示见图片,根据提示是说文件名重复,但文件名称是加了时间戳的,不可能重复。
但你那边可以正常运行,说明应该是环境的问题,可能哪个模块不兼容之类的问题。我用的PyCharm Community Edition 2023.3.5。
项目用到的模块列表放到附件了
9楼
  北京风哥 | 发表于2024-03-30 12:13:56


我用的是VSCODE,不过应该与IDLE没关系吧?
我在代码中添加了文件夹路径,主要是因为我的VSCODE设置的问题,无法在当前目录进行文件读写
其他的都沿用了你的代码

train.rar
10楼
  家有旺财 | 发表于2024-03-30 13:09:53


多谢风哥,你执行下predict.py,看能否跑通,代码里模型要改成你先前保存的模型。
11楼
  天地朋友 | 发表于2024-03-30 13:51:20


12楼
  北京风哥 | 发表于2024-03-30 17:03:00


predict.py增添及修改了一些代码,可以运行

模型是1200轮训练的模型



predict.rar
13楼
  zlchina | 发表于2024-05-03 18:06:27
现在咋样了?
共14条1页 30条/页首页上一页第1页下一页尾页
参与原帖交流,请访问:

http://bbs.17500.cn/thread-9873811-1-1.html

访问本站表明您同意:本站提供的资料和数据仅供您参考,请您在使用前核实并慎重对待,因此受到的任何损失,乐彩网不承担任何责任。
© 2004-2024 版权所有 京ICP备13046446号-1 | 京公网安备11011202001644号