#分享从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子，就是 CoT，在 Prompt 中包含类似 `Think step by step` 的短语，它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

5698 位用户此时在线

24小时点击排行 Top 10：

“ 河南 ”成禁词？

付鹏:投资最大的敌人是认知，大部分老百姓知道的并不是真实的世界。

这位医生的演讲真好，太让人感动了！

如何保持不太过的松弛感

转🛜：科学的尽头是玄学，王石和田朴珺的结局再次印证了这句话！老早有人从风水学扒过，说田朴珺就是天生克王石的命格——王石对她来说就是青云梯，是垫脚石，能帮助她步步登高，对老王而言，就是妥妥的垫脚石！

开心一刻：#强烈支持这个节目上春晚👍😂 房子🏠烂尾了，看看美女怎么和银行经理斗法～～👍😂

“11岁女童演大尺度短剧，被全网下架” 近日，《逼锦鲤替嫁活阎王，相府气运全断了》的微短剧因选用11岁女童出演“替嫁新娘”并与成年男演员亲密互动而引发批评，最终在多家平台上紧急下架。

Watch video

利沃夫女清潔工工作時面前無人機爆炸，她呆著幾秒繼續工作，她獲得政府表彰。

#绝唱兼辟谣：这是贺局最后的视频，她不是坠马身亡，而是在雪地里拍摄摔倒以身殉职～～ 2026年1月14日23时12分，新疆自治区农产品品牌建设与产销服务中心主任贺娇龙同志因拍摄视频抢救无效，不幸离世，年仅47岁。贺局长从县招待所服务员成长为新疆厅级高官，也算是巾帼英雄，千古～～🙏

一个很火的减脂操，跳12分钟等于运动一小时，月掉10斤不再是梦，马住练起来！

周周侃曝光：“油管一姐”猫神小的时候😂👍🙏😂 可爱吗？😂😂

12月29日，一位网友转发了东部战区新闻中心发布的“正义使命- 2025”演习视频. 视频发出后遭到不少网友群嘲，评论区刷屏“基本收复”“基本回归”。

伊朗的通信信号部分恢复，那些打给亲人报平安的越洋电话里，我们听到这些： “媒体传的死亡10000人、12000人，比起我们亲眼看到的，就是个笑话医院人满为患，只能接收枪伤者医院的护士因为看到太多死人，在卫生间自杀他们嘲弄来给孩子收尸的母亲，除了让交几千几万美元的贿赂外，还要带一盒糖果

9岁女童撕心裂肺追母亲情绪激动晕倒身亡近日，湖南长沙。一名年仅9岁的女童在送别母亲时因情绪激动追赶母亲，突然晕倒并最终抢救无效去世。据多家媒体报道，女孩的死因被初步认定为心源性休克。

习时代为何不见聂卫平？棋圣聂卫平是改开时代的英雄人物，经常参加公共活动，在习近平时代却销声匿迹，据知情人披露两人有如下过节，可见习心胸之狭隘如鸡：

“善意欠薪”“恶意讨薪” 1月14日，一名网友发布段子视频，讽刺部分老板将工人正常讨薪污名化为“恶意维权”。视频以对话形式还原现实处境：要账被说违法，堵门被说违法，抵账被说盗窃，甚至情绪稍有激动就被警告“抓你”。网友借此反讽当下的荒诞逻辑“欠薪仿佛不犯法，讨薪却处处违法”。

一位来自伊朗的17岁女孩的声音

孟加拉留学生一年补贴1.3万 1月5日，安徽。一名电动车店老板在接待一位前来购车的孟加拉留学生时，好奇询问：“中国一年给你们多少钱？” 该留学生随后掏出手机，在计算器上输入 228000 孟加拉塔卡，折合人民币约 1.3万元。

田朴珺：由于工作太努力，过于劳累，大脑已经变成蓝色了。

开始强调忠诚了 1月12日，习近平在二十届中央纪委五次全会上称：今年地方将开始换届，要把真正忠诚可靠、表里如一、担当尽责的好干部用起来。

这位老师的演讲太棒了！内容很稀缺，把社会心理学讲得通俗易懂。

突发新闻：美国正将“亚伯拉罕·林肯”号航空母舰打击群从南中国海调往中东。该打击群预计将在一周左右抵达。

电脑C盘中最恶心的四大毒瘤，随便清一下多十几G空间。这个要试试。

#成龙魔咒再次应验：成龙助力新疆昭苏天马节，贺局长不幸坠马身亡～～😢

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

#分享从 DeepSeek R1 了解推理模型的训练的四种方法
1. Inference-time scaling
在推理过程中增加计算资源以提高输出质量。一个经典的例子，就是 CoT，在 Prompt 中包含类似 `Think step by step` 的短语，它通过输出更多的 token 增加了计算资源。
2. 纯 RL
DeepSeek-R1-Zero
时政
( twitter.com )

11个月前由 nazha 提交

#分享从 DeepSeek R1 了解推理模型的训练的四种方法

1. Inference-time scaling

在推理过程中增加计算资源以提高输出质量。一个经典的例子，就是 CoT，在 Prompt 中包含类似 `Think step by step` 的短语，它通过输出更多的 token 增加了计算资源。

2. 纯 RL

DeepSeek-R1-Zero 仅通过强化学习而没有初始 SFT 阶段进行训练。同时，也没有使用使用接受人类偏好的奖励模型，而是采用了准确性（用 LeetCode 编译器来验证代码结果，以及一个确定性系统来验证数学答案）和格式奖励（将模型的思考过程强制包裹在 `` 之间）。

3. SFT + RL

DeepSeek 使用 DeepSeek-R1-Zero 来生成冷启动（Cold Start）数据。使用此冷启动的数据，DeepSeek 通过 SFT 微调了该模型，然后是另一个 RL 阶段。为了防止 Language Mixing 的问题，在 RL 阶段引入了语言一致性奖励。

4. SFT + 蒸馏

与传统的模型蒸馏不同，DeepSeek 在小模型上（比如 Llama 8B、70B，Qwen 2.5 models）通过 DeepSeek-V3 和 DeepSeek-R1 生成的有监督数据，对小模型进行了微调。
其结果是蒸馏的小模型表现比 DeepSeek-R1 要弱，但和 DeepSeek-R1-Zero 差不多。
进一步，小模型纯 RL 和蒸馏的效果如何？DeepSeek 使用了 Qwen 32B 的模型作为作为对比。
有趣的结果是，对于小模型蒸馏比 RL 要更有效。

点击图片查看原图

点击图片查看原图

点击图片查看原图

点击图片查看原图

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
...
400
下一页

1

2

1

1

AWS也支持DeepSeek R1了
IT技术
( twitter.com)

11个月前 • 宝玉 0 评论

2

2

1

1

今天硅基流动的 API 总算是上线了，这是目前为数不多的稳定、高速、满血版的 DeepSeek R1 API。
但是 R1 很特别，如果不配置好的话，R1 的效果会大打折扣，甚至会直接跳过思考过程。
所以写篇教程跟大家分享心得，避免大家踩坑。
《DeepSeek R1 API 获取和使用指南》
IT技术
( mp.weixin.qq.com)

11个月前 • orange.ai 0 评论

3

3

2

2

DeepSeek R1 System Prompt:
You are DeepSeek-R1, an AI assistant created exclusively by the Chinese Company DeepSeek. You'll provide helpful, harmless, and detailed responses to all user inquiries. For comprehensive details about models and products, please refer to the official
IT技术
( twitter.com)

11个月前 • 宝玉 0 评论

4

2

1

1

Cursor 已经可以将 Deepseek v3 和 R1 加入了官方模型列表。
可以在设置-模型部分选择，R1 是完全体模型。
IT技术
( twitter.com)

11个月前 • 歸藏(guizang.ai) 0 评论

5

2

1

1

所以，o3-mini的综合评分已超过DeepSeek-R1？
持续时间不到一周？
时政
( twitter.com)

11个月前 • 勃勃OC 0 评论

6

2

1

1

打开我的 openrouter 看了一眼，竟然还有免费的 DeepSeek: R1 0528
时政
( twitter.com)

7个月前 • Justin 0 评论

7

2

1

1

来自网友分享：梁文锋创立的DeepSeek公司旗下的最新AI聊天模型R1真是太“惊艳”了。当用户提到中国的天安门事件时，AI开始发疯了🤪
时政
( twitter.com)

11个月前 • Jacobson🌎🌸贴贴BOT 0 评论

8

2

1

1

深度解析ChatGPT与DeepSeek R1：强化学习如何让大模型学会“思考”？
Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“，实在是太长了点，我自己写的翻译软件一运行就崩溃，还要花点时间修复一下（很遗憾 AI 还搞不定），先挑了其中一节讲 DeepSeek R1
IT技术
( twitter.com)

11个月前 • 宝玉 • 下载视频 0 评论

00:14:20

9

2

1

1

这就是为什么 DeepSeek R1-Zero 其实在传统任务（如语言、助人性、无害性等）上表现不佳。
最终，他们需要使用一个基于 V3（甚至是 ChatGPT）生成的监督数据集结合多阶段强化学习（RL）来抵消这种效果。
因此，将 DeepSeek R1 称为完全无监督并不公平。
That's why DeepSeek R1-zero doesn't
时政
( twitter.com)

11个月前 • 勃勃OC 0 评论

10

3

2

2

很早就很坚定看好幻方，但是西方友人能这么深刻分析，实在令人惊叹。不才翻译一下，可以的话还是请阅读堪称优雅的原文。
DeepSeek：现代中国文化亚稳态的一个缩影
作者：DeepSeek-R1，Teortaxes
译者：DeepSeek-R1，O1-Pro，FallMonkey
刻板印象：宛如被环境凝固的万花筒
时政
( twitter.com)

11个月前 • FallMonkey 0 评论

11

2

1

1

Introducing DeepSeek-V3.1: our first step toward the agent era! 🚀
🧠 Hybrid inference: Think & Non-Think — one model, two modes
⚡️ Faster thinking: DeepSeek-V3.1-Think reaches answers in less time vs. DeepSeek-R1-0528
🛠️ Stronger agent skills: Post-training boosts tool use and
时政
( twitter.com)

4个月前 • DeepSeek 0 评论

12

2

1

1

NVIDIA 将拥有 6710 亿参数的 DeepSeek-R1 模型引入了位于上的 NVIDIA NIM 微服务：
- 使用单台 NVIDIA HGX H200 服务器即可实现每秒最多 3,872 个 Token 的推理吞吐量。
- 依托 NVIDIA Hopper 架构，DeepSeek-R1 利用 FP8 Transformer Engine 和 900 GB/s 的 NVLink
IT技术
( build.nvidia.com)

11个月前 • 宝玉 • 下载视频 0 评论

00:01:03

13

2

1

1

硅基流动上线了 DeepSeek R1
终于有个稳定的 R1 API 可以调用了。
- 但是免费用户是用不了的
- 需要完成支付宝刷脸实名认证，付费充值后解锁 R1 和 V3
- 我还发现一个问题，R1 如果不写 System Prompt 的话，它是不会思考的，随便写也不行，效果跟官方差距很大
正确的 Prompt 见第二条
IT技术
( twitter.com)

11个月前 • orange.ai 0 评论

14

2

1

1

下图是一位墙内人士对DeepSeek的评论，其中提到的内控密码值得引起注意，因此我不打算安装使用deepseek r1。
时政
( twitter.com)

11个月前 • 韩连潮 0 评论

15

5

4

4

拾象：DeepSeek r1 闭门学习讨论 | Best Ideas Vol 3
「Best Ideas 闭门讨论会 Vol.3」聚焦在引爆全球 AI 社区的 DeepSeek r1，本篇纪要是我们对闭门会上参与讨论的嘉宾成员的观点的总结，不代表任何具体个人及机构观点立场。
I. DeepSeek
1. DeepSeek 有好口碑的原因在于是第一个把复现 MoE、ol
IT技术
( twitter.com)

11个月前 • 宝玉 0 评论

16

2

1

1

这这这。。。原来还可以把思想钢印抹掉？
PPLX 做了个 DeepSeek R1 的无审查版本 R1 1776，并且开源了
这是 DeepSeek R1 模型的一个版本，经过后期训练，可以提供未经审查、公正和真实的信息。
为了让模型在敏感话题上“不受审查”，创建了一个包含 1000 多个示例的多样化、多语言评估集。
IT技术
( twitter.com)

11个月前 • orange.ai 0 评论

17

2

1

1

深度分析下 DeepSeek-R1 用华为昇腾，推理集群大概多大？
重磅消息，昨天的新闻，DeepSeek-R1 真的能在华为的昇腾AI加速卡上跑了。
根据华为官方，Atlas（昇腾） 300I Pro 推理卡单卡拥有 140 TOPS INT8 和 70 TFLOPS FP16这个性能足够推理用，但关键的内存则使用了LPDDR4X 24 GB，总带宽204.8 GB/s
时政
( twitter.com)

11个月前 • karminski-牙医 0 评论

18

3

2

2

🚀 DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!
🔍 o1-preview-level performance on AIME & MATH benchmarks.
💡 Transparent thought process in real-time.
🛠️ Open-source models & API coming soon!
🌐 Try it now at
#DeepSeek
时政
( chat.deepseek.com)

1年前 • DeepSeek 0 评论

19

2

1

1

有用户反映，询问DeepSeek属于哪个openai模型。开启深度思考R1模式后，DeepSeek回答自己是基于GPT-3.5的增强版模型即GPT3.5turbo
时政
( twitter.com)

11个月前 • 李老师不是你老师 0 评论

20

2

1

1

【教程】用扣子Coze搭一个听故事学英语智能体，用上Deepseek R1满血工具版

IT技术
( mp.weixin.qq.com)

10个月前 • 向阳乔木 0 评论

21

2

1

1

网友分享：DeepSeek锐评主席名言😂
时政
( twitter.com)

11个月前 • Jacobson🌎🌸贴贴BOT 0 评论

22

2

1

1

用17K从DeepSeek R1 蒸馏的SFT数据，微调Qwen2.5-32B，效果非常不错。
与DeepSeek R1自家蒸馏的版本相比略逊一些，但是后者是800k sample，而且这17k数据以及合成脚本完全开源。
方法来自之前蒸馏QwQ的Sky-T1。
P.S. 7B的模型效果提升不佳，看来越小的模型需要越多的数据激活能力。
1/2
时政
( twitter.com)

11个月前 • 九原客 0 评论

23

2

1

1

目前所有提供 Deepseek R1 的服务商
可以看到从价格来说 Deepseek 自己的服务依然是性价比最高的
一些服务商的价格高达 8 美元
下面的评论挺搞笑的，说这些服务商为啥还这么贵，价格让我愿意把数据发给 Deepseek
IT技术
( twitter.com)

11个月前 • 歸藏(guizang.ai) 0 评论

24

2

1

1

我猜中了会有这么一天，但是没想到来得那么快
硅基流动出了 pro 版的 DeepSeek R1/V3，据说是为「响应诸多开发者提出的更稳定 DeepSeek R1 & V3 服务的呼声」
但是，赠费是不能使用的，充值才可以，而现如今赠费版几乎是不可用的状态
时政
( twitter.com)

11个月前 • Justin 0 评论

1
2
3
4
5
6
...
400
下一页

0.07415 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特