< 返回新闻公共列表
EasyRec在公开数据集上的benchmark测试
发布时间:2023-06-28 12:00:33
为了验证算法的准确性、帮助用户更好的使用EasyRec,我们做了大量的benchmark测试。我们还提供公开数据集、EasyRec配置文件,供用户更好的理解和使用EasyRec。
单目标数据集
Taobao 数据集介绍
该数据集是淘宝展示广告点击率预估数据集,包含用户、广告特征和行为日志。天池比赛链接
训练数据表:pai_online_project.easyrec_demo_taobao_train_data
测试数据表:pai_online_project.easyrec_demo_taobao_test_data
在PAI上面测试使用的资源包括2个parameter server,9个worker,其中一个worker做评估:
{ "ps":{ "count":2,
"cpu":1000,
"memory":40000},
"worker":{ "count":9,
"cpu":1000,
"memory":40000}
}
测试结果
model
global_step
best_auc
config
MultiTower
1800
0.614680
taobao_mutiltower.config
DIN
1600
0.617049
din.config
DeepFM
1600
0.580521
deepfm.config
DCN
1500
0.596816
dcn.config
BST
3500
0.566251
bst.config
AutoInt
700
0.605982
autoint.config
Avazu CTR 数据集
该数据集是DSP广告公司Avazu在Kaggle平台举办的移动广告点击率预测模型挑战赛中使用的。Click-Through Rate Prediction比赛链接
训练数据表:pai_online_project.dwd_avazu_ctr_deepmodel_train
测试数据表:pai_online_project.dwd_avazu_ctr_deepmodel_test
多目标数据集
AliCCP 数据集
数据集采集自手机淘宝移动客户端的推荐系统日志,其中包含点击和与之关联的转化数据。天池比赛链接
训练数据表:pai_online_project.aliccp_sample_train_kv_split_score
测试数据表:pai_online_project.aliccp_sample_test_kv_split_score_1000w (只截取了1000万条)
在PAI上面测试使用的资源包括2个parameter server,9个worker,其中一个worker做评估:
{ "ps":{ "count":2,
"cpu":1000,
"memory":40000},
"worker":{ "count":9,
"cpu":1000,
"memory":40000}
}
测试结果
model
global_step
ctr auc
masked cvr auc
ctcvr auc
训练时间
config
SimpleMultiTask
4100
0.592606
0.6306802
1小时
simple_multi_task.config
MMoE
3100
0.5869702
0.6330008
1小时
mmoe.config
ESMM
800
0.5974812
0.6841141
0.6362526
3小时
esmm.config
PLE
3200
0.5874
0.6159
2小时
ple.config
CENSUS
CENSUS有48842个样本数据,每个样本14个属性,包括age, occupation, education, income等。样本的标注值为收入水平,例如>50K、<=50K。Census Income数据集链接
训练数据表:pai_online_project.census_income_train
测试数据表:pai_online_project.census_income_test