1.3.1 数据预处理_AI源码解读：卷积神经网络（CNN）深度学习案例：Python版-QQ阅读中文短篇网

上QQ阅读APP看书，第一时间看更新

1.3.1　数据预处理

本部分包括数据集获取和数据预处理。

1．数据集获取

MovieLens 1M数据集包括6000个用户对4000部电影的1亿条评论。下载地址为：http://files.grouplens.org/datasets/movielens/ml-1m.zip。数据集分为用户数据、电影数据和评分数据。相关代码如下：

成功下载并提取数据集的提示信息如图1-4所示。

图1-4　成功下载并提取数据集

2．数据预处理

本数据集由3个文件构成，不同文件内数据的格式不同，需要不同的方法对其进行预处理，如图1-5所示。

图1-5　预处理前的电影数据

电影ID（Movie ID）本身为数字不用处理，电影类别（Genres）是分类字段，需要转换为数字。首先，将Genres中的类别转换成字符串到数字的字典；其次，将每个电影的Genres字段转换成数字列表，因为有些电影是多个Genres的组合。去掉电影名称（Title）中的年份，方法与类别字段一样，创建文本到数字的字典；最后，将Title中的描述转换成数字的列表。

注意：Genres和Title字段长度应统一，以便于在神经网络中处理，不足部分用数字填充。相关代码如下：

经过预处理后的电影数据如图1-6所示，全部由数字组成，便于处理。

图1-6　经过预处理后的电影数据