一个典型的实时推荐模型服务,部署在 GKE 上,对外承诺的 p99 响应延迟是 50ms。模型推理本身经过优化后,耗时稳定在 15ms 左右。然而,瓶颈很快出现在了特征获取环节。业务要求模型能够访问海量的用户和物品特征,这些特征存储在一个大
2023-10-27