site stats
好吧,有一点我确实是忽略了,就是在一个rack内部,72个GPU之间的通信可能比我想象的要频繁比如如果infra将模型分成了多个expert,或者将不同层的模型放在不同的gpu上,那么同一个inference,特别是agentic
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: