淘宝用户数据
数据来源:
数据集介绍:
文件名称 |
说明 |
包含特征 |
UserBehavior.csv |
包含所有的用户行为数据 |
用户ID,商品ID、商品类别ID、行为类型、时间戳 |
UserBehavior.csv
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类别ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
列名称 |
说明 |
用户ID |
整数类型,序列化后的用户ID |
商品ID |
整数类型,序列化后的商品ID |
商品类别ID |
整数类型,序列化后的商品所属类别ID |
行为类型 |
字符串,枚举类型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’) |
时间戳 |
行为发生的时间戳 |
注意到,用户行为类型共有四种,它们分别是
行为类型 |
说明 |
pv |
商品详情页pv,等价于点击 |
buy |
商品购买 |
cart |
将商品加入购物车 |
fav |
收藏商品 |
关于数据集大小的一些说明如下
维度 |
数量 |
用户数量 |
987,994 |
商品数量 |
4,162,024 |
商品类目数量 |
9,439 |
所有行为数量 |
100,150,807 |
论文引用
- Han Z, Xiang L, Pengye Z, et al. Learning Tree-based Deep Model for Recommender Systems. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.
- Han Z, Daqing C, Ziru X, et al. Joint Optimization of Tree-based Index and Deep Model for Recommender Systems. arXiv:1902.07565.