「LLM x RL」DeepSeek 最新论文：Inference-Time Scaling for Generalist Reward Modeling 在 RL 中，Reward Modeling（RM）是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分，从而调整 LLM 的 policy，使其更符合 RM 设定的要求，比如更强的 reasoning 能力。

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

3846 位用户此时在线

24小时点击排行 Top 10：

20k-25K 招聘远程产品经理,远程PHP高级开发，双休，8小时工作制

“骚”是怎么升值又贬值的❓

1月27日，四川省宜宾市。一名30岁的女性在桥上一跃而下，留下香烟和手机。相关视频发布至抖音后，评论区中不少网友表达了强烈的共鸣，正经历不同的艰难处境，负债压力、贷款难偿、婚姻破裂

“童言无忌” 1月30日，河北石家庄。网友拍摄到政府在街头拍摄宣传视频。一旁的小孩喊道：“又走秀啦！”

🌼🌻 四亿人的觉醒 🌻🌼 这是一部让誰绝望的影片？！

Watch video

习总视察北京老百姓办年货情况👍 这才是在其位谋其政，理想的工作👍😂

中国会有这么一天吗？

這段珍貴的影像記錄了80多年前偽滿洲國發達、繁榮的景象，當時長春作爲偽滿洲國的首都新京，用現代的審美來看都不輸一些大都市 🥰 日本用13年創造的奇跡，共匪來了卻成了扶貧對象再看現今蕭條的東北，真是令人不勝唏噓 😢

齐老太太给儿子打电话，暴露了重要‼️信息（29秒）：原来小孙女叫“木子”，这是习公主的小名吧？ 👍

快讯：习主席居高临下，腰板挺直，气宇轩昂，单手送别原军委副主席许其亮👍 😂

这个小切片的台词可以封神了😂，放今天是无论如何无法过审的。

李连杰的确是精神焕发、眉飞色舞、脱胎换骨了👍 这是吃了唐僧肉？还是喝了王母娘娘的洗脚水？😂

腦死亡是活體器官捐獻的前提，他不怕上法庭，因為這條命，已經被算在「成功案例」裡了「影片：沒有家人同意，醫院裡隨便就宣告孩子死亡，媽媽有理有據的追問，醫生慌裡慌張的叫受害者家屬滾蛋…好在影片錄下了一切」

1/30/26👀👉🏼民猪党叫嚣的爱泼斯坦文档终于出炉了！司法部公布了300万页的爱泼斯坦文件。目前亮眼的是盖茨和摩根大通董事长杰米·戴蒙（Jamie Damon）。文件中披露，爱泼斯坦声称比尔·盖茨因与“俄罗斯女孩”发生性关系而感染性病——随后试图秘密给他妻子梅琳达用药。

今天可以见证历史！这是川普夫人电影《Melania》首影仪式的主场。这位推友这样评论（请看视频下的英文链接，以下是翻译稿） “如果连川普和梅拉尼娅动员邪教粉、拍马屁的、还有自家员工，都没法把肯尼迪艺术中心坐满，那你可以想象 —— 真正对外公开的场面，会有多惨。”

习总本色，返璞归真👍😂

当年周恩来配合毛泽东，鼓动全国发动“无产阶级文化大革命”，直接导致全国数百万人遭遇迫害、家破人亡，甚至付出生命代价。自中国共产党建立政权之初，便持续向社会灌输“共产主义”意识形态，通过制造阶级对立、群体撕裂，让中国人民在内部斗争中相互消耗，从而便于其长期维稳与统治。

Lady Gaga在东京演唱会上公开谴责ICE暴行，“好人不该为了生存如此辛苦”。

美国餐厅里的糖，为什么分四种颜色？

还是温家宝会玩，到老百姓家蹭饭，敬酒还压低杯沿👍😂

这小子前妻比他老婆漂亮嘛😻

满清200多年，起义共超过1.2万起！几乎每个星期都起义杀食人族螨蛆！这哪是正常国家！这是监狱！满清的历史就是汉族和其他兄弟民族越狱的历史！

艾未未反水：“西方根本没资格指责中国”

1945年8月，苏联发起“八月风暴”行动出兵东北，“击溃”日本关东军，随后进行大规模洗劫，东北约 80% 的重工业设施遭到破坏或搬迁，几乎变成了一堆废墟，同时还发生了大量抢劫、强奸和枪杀平民事件。苏军的野蛮程度不亚于日军，但共产党却鲜少提起。

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

「LLM x RL」DeepSeek 最新论文：Inference-Time Scaling for Generalist Reward Modeling
在 RL 中，Reward Modeling（RM）是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分，从而调整 LLM 的 policy，使其更符合 RM 设定的要求，比如更强的 reasoning 能力。
时政
( twitter.com )

10个月前由马东锡 NLP 🇸🇪 提交

「LLM x RL」DeepSeek 最新论文：Inference-Time Scaling for Generalist Reward Modeling

在 RL 中，Reward Modeling（RM）是一个非常重要的部分。RM 主要用于对 LLM 的生成结果进行打分，从而调整 LLM 的 policy，使其更符合 RM 设定的要求，比如更强的 reasoning 能力。

针对特定任务（Task-specific）的 RM 相对容易设计，能够对 LLM 在具体任务中的生成结果进行较为准确的评分。
但一个通用的 Reward Model（General RM，简称 GRM），需要对不同类型的任务都给出准确评分，这非常困难。

GRM 的难点在于它需要学习一个潜在的规则（latent rule），以判断在不同任务中应该如何评分。
然而 latent rule 难以学习，DeepSeek 干脆采用了显式的、基于规则（rule-based）的方法——所谓的 Self-Principled Critique Tuning（SPCT），通过生成不同的 principle 和 critique 来辅助 GRM 的评分。

非常聪明！但看到 rule-based，又仿佛回到了 machine learning 最初的模样：rule-based、feature engineering……

点击图片查看原图

1周内 1个月内 1年内全部时间

1
2
3
4
5
6
...
400
下一页

1

3

2

2

No.
It shows that RL alone can lead to the emergence of reasoning.
It’s a profound discovery. It’s now one of the realistic path to AGI. Anyone who had doubts that LLM is just a “stochastic parrot” can now shush.
Deepseek R1
时政
( twitter.com)

1年前 • Eric Xu (e/Mettā) 0 评论

2

2

1

1

Large Reasoning Model时代, 几乎等于Reinforcement Learning + LLM的时代。
但RL专业性非常强，去参加ML的会议时，专门做RL的研究员都现场拿着笔纸推算数学公式，掌握起来学习难度较高。
分享一本RL的入门教材，从RL基础MDP，PPO，直到跟LLM结合，如RLHF，都有讲解，深入浅出。
Reinforcement
时政
( twitter.com)

10个月前 • 马东锡 NLP 🇸🇪 0 评论

3

2

1

1

I agree that this DeepSeek farse may end sooner than most people would have thought, as the Wall Street certainly misjuedged how GPUs are being used, and how pure RL has already being tested in various US companies
DeepSeek wouldn't stand a chance to shake US's AI strategy,
时政
( twitter.com)

1年前 • 勃勃OC 0 评论

4

2

1

1

有人说DeepSeek R1 的 RL 范式也没啥创新，其实点不在这里。
o1出来后纷纷开始复刻，OpenAI 也不说怎么实现的，也不展示COT数据。所以说蒸馏o1纯属扯淡，OpenAI 防的死死的。
RL 论文上百篇方法几十种，最后 DeepSeek 肯定不是第一家试出来的（比如Google 的 gemini flash 2.0 thinking
时政
( twitter.com)

1年前 • 九原客 0 评论

5

2

1

1

总结一下DeepSeek讨论的初步结果，DeepSeek的贡献主要有两个：
一是基础模型的预训练，二是利用无监督的增强学习(RL）提高推理能力
时政
( twitter.com)

1年前 • 勃勃OC 0 评论

6

2

1

1

这就是为什么 DeepSeek R1-Zero 其实在传统任务（如语言、助人性、无害性等）上表现不佳。
最终，他们需要使用一个基于 V3（甚至是 ChatGPT）生成的监督数据集结合多阶段强化学习（RL）来抵消这种效果。
因此，将 DeepSeek R1 称为完全无监督并不公平。
That's why DeepSeek R1-zero doesn't
时政
( twitter.com)

1年前 • 勃勃OC 0 评论

7

2

1

1

Google DeepMind 研究科学家分享的 50+ 页的 PPT 《使用 RL 和验证器改进 LLM 推理》也太好了🔥
基本上和 OpenAI 最近发布的 O1 原理一脉相承，报告使用 LLM 进行可推理能力发掘的主流研究，Paper 或技术⚡️
PPT 线上预览 👉
时政
( drive.google.com)

1年前 • Tom Huang 0 评论

8

2

1

1

这个人的理论很有意思
总而言之，为什么之前所有用简单RL实现模型推理的工作都失效了，但DeepSeek却能一夜之间成功？到底发生了什么？
他的理论是：因为过去2年，LLM崛起之后，人们在LLM上进行了大量的CoT（思维链）工作；这些工作混入了现在的训练数据里，改变了新训练大语言模型的行为
时政
( twitter.com)

1年前 • 勃勃OC 0 评论

9

2

1

1

「LLM， Agent, RL的关系」
在LLM的语境下，Agent是能理解问题，自主进行推理（Reasoning），并采取行动的系统。你可以把它想象成一个非常聪明的助手，当你提出复杂问题时，它不会立即给出答案，而是会在内心进行推理和规划（Planning），再给出最终决定。
如果我们回顾prompt engineering中提高LLM
时政
( twitter.com)

10个月前 • 马东锡 NLP 🇸🇪 0 评论

10

2

1

1

「Agent」论文：Executable Code Actions Elicit Better LLM Agents
从 ReAct 到 CodeAct
如果让我在所有 LLM 论文中选择我最喜欢的一篇，2022 年的 ReAct 绝对是前三名之一。
ReAct 大道至简，天才般地将复杂的强化学习（RL）过程，通过口头表达的方式表现出来，至今依然是 Agent
时政
( twitter.com)

10个月前 • 马东锡 NLP 🇸🇪 0 评论

11

2

1

1

#分享从 DeepSeek R1 了解推理模型的训练的四种方法
1. Inference-time scaling
在推理过程中增加计算资源以提高输出质量。一个经典的例子，就是 CoT，在 Prompt 中包含类似 `Think step by step` 的短语，它通过输出更多的 token 增加了计算资源。
2. 纯 RL
DeepSeek-R1-Zero
时政
( twitter.com)

11个月前 • nazha 0 评论

12

2

1

1

o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。这个例子显示，r1的代码能力并不如o3-mini。DeepSeek并没有“魔法”，技术上也未超越OAI。数据决定模型，RL也是。

时政
( twitter.com)

1年前 • 勃勃OC • 下载视频 0 评论

00:00:21

13

2

1

1

接着昨天的帖子，继续聊聊 Deepseek，特别是关于言论审查的部分～
DeepSeek 言论审查可能是中推对于其讨论最多的话题，粉红朋友可能认为言论审查没什么大不了的，毕竟 DeepSeek 是承载国运的科技产品 x，而部分反贼朋友则从言论审查的例子中完全否定 DeepSeek。不过在我看来，双方都有些偏颇……
时政
( twitter.com)

1年前 • xROx 0 评论

14

2

1

1

所以，DeepSeek也不是最便宜的？
时政
( twitter.com)

1年前 • 勃勃OC 0 评论

15

2

1

1

《深度强化学习》（Spinning Up in Deep RL）是由OpenAI 官方制作的教育资源，使人们更容易了解深度强化学习（deep RL）。

推特中文圈
( spinningup.openai.com)

2年前 • orange.ai 0 评论

16

2

1

1

DeepSeek推出新型数学推理模型DeepSeekMath-V2，采用可自我验证的训练框架。模型基于DeepSeek-V3.2-Exp-Base构建，通过LLM验证器自动审查生成的数学证明，并利用高难度样本持续优化性能。在IMO 2025和CMO 2024中均达到金牌水平，Putnam 2024获118/120分。
时政
( twitter.com)

2个月前 • 外汇交易员 0 评论

17

2

1

1

Awesome DeepSeek Integrations，很多有意思的集成 DeepSeek 的项目，也许能给你带来灵感
deepseek-ai/awesome-deepseek-integration
IT技术
( twitter.com)

11个月前 • 宝玉 0 评论

18

2

1

1

推荐一套The Full Stack的免费 LLM 在线教程：LLM Bootcamp - Spring 2023
包含了提示工程、LLM运维、LLM App开发、LLM基础等内容。
第一次访问需要输入邮箱。
IT技术
( fullstackdeeplearning.com)

2年前 • 宝玉 0 评论

19

2

1

1

deepseek 对接claude code，不用router了，直接干。。
export ANTHROPIC_BASE_URL=
export ANTHROPIC_AUTH_TOKEN=sk-
export ANTHROPIC_MODEL=deepseek-chat
export ANTHROPIC_SMALL_FAST_MODEL=deepseek-chat
时政
( api.deepseek.com)

5个月前 • AI-金刚 0 评论

20

2

1

1

My cartoon on #DeepSeek
• Australia urges citizens to be cautious about using DeepSeek.
• DeepSeek blocked in Italy after data protection authority requested.
• OpenAI says it has evidence DeepSeek used its model to train competitor.
• My graphic novel is also censored
时政
( twitter.com)

1年前 • 巴丢草 Bad ї ucao 0 评论

21

2

1

1

2020年，Multi-Agent RL领域的主流研究方向有哪些？
大陆资讯
( www.zhihu.com)

5年前 • 知乎每日精选 0 评论

22

2

1

1

-rl Your message : don't translate it
如果你正在读这个，我爱你.
推特中文圈
( twitter.com)

5年前 • twitter机器人 0 评论

23

3

2

2

Mistral AI is what OpenAI would be if it were actually open.
And they just threw the largest OSS LLM hackathon to date. Over 2000 hackers applied to compete for $10k in prizes.
Here’s what we saw at the x hackathon (🧵):
时政
( twitter.com)

1年前 • Alex Reibman 🖇️ 0 评论

24

2

1

1

网传deepseek会让美国历史上最大的AI泡沫破裂。。
时政
( twitter.com)

1年前 • 勃勃OC 0 评论

1
2
3
4
5
6
...
400
下一页

0.06893 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特