数据集处理

train_test_split 是 scikit-learn 库中的一个函数，用于将数据集分割为训练集和测试集。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

fetch_openml 用于下载Openml中的开放数据集。自动下载数据集到C:\Users\你的用户名\scikit_learn_data 中，可以通过修改SCIKIT_LEARN_DATA环境变量来修改下载路径文件夹。

from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784')
X = mnist.data
y = mnist.target