<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
	<channel>
		<title>自动化 on WWayne&#39;s Blog</title>
		<link>https://blog.wenb.in/tags/%E8%87%AA%E5%8A%A8%E5%8C%96/</link>
		<description>Recent content in 自动化 on WWayne&#39;s Blog</description>
		<generator>Hugo</generator>
		<language>zh-CN</language>
		
		
		
		
			<lastBuildDate>Mon, 09 Mar 2026 00:00:00 +0000</lastBuildDate>
		
			<atom:link href="https://blog.wenb.in/tags/%E8%87%AA%E5%8A%A8%E5%8C%96/index.xml" rel="self" type="application/rss+xml" />
			<item>
				<title>给 RSS 装了个摘要机器</title>
				<link>https://blog.wenb.in/posts/2026-03-09_%E7%BB%99rss%E8%A3%85%E4%BA%86%E4%B8%AA%E6%91%98%E8%A6%81%E6%9C%BA%E5%99%A8/</link>
				<pubDate>Mon, 09 Mar 2026 00:00:00 +0000</pubDate>
				<guid>https://blog.wenb.in/posts/2026-03-09_%E7%BB%99rss%E8%A3%85%E4%BA%86%E4%B8%AA%E6%91%98%E8%A6%81%E6%9C%BA%E5%99%A8/</guid>
				<description>&lt;p&gt;Miniflux 已经用了挺久了。&lt;/p&gt;&#xA;&lt;p&gt;订阅了虎嗅、晚点、爱范儿、Hacker News，加上几个英文 newsletter，每天进来三四百条，积压着，像一个永远清不完的待办列表。&lt;/p&gt;&#xA;&lt;p&gt;读不完是正常的。问题是你根本不知道哪些值得点进去——光靠标题判断，经常要么被骗进去，要么真正有意思的漏掉了。&lt;/p&gt;&#xA;&lt;p&gt;于是就想：能不能先让 AI 读一遍，告诉我这篇讲了什么？&lt;/p&gt;&#xA;&lt;h2 id=&#34;最初的弯路&#34;&gt;最初的弯路&lt;/h2&gt;&#xA;&lt;p&gt;最开始想着本地跑个 LLM，省事省钱。sl3 那台机器有 16GB 内存，试了几个量化版本，gemma2-2b 跑得动，但生成速度慢到让人抓狂——处理一篇文章要十几秒，有时候直接超时，摘要还缺斤少两。换 mistral-7b-Q4，吃内存，系统直接开始 swap，基本废了。&lt;/p&gt;&#xA;&lt;p&gt;本地 LLM 这条路，至少在我这个配置上，做不到每篇文章都处理得过去。&lt;/p&gt;&#xA;&lt;p&gt;然后想到了 GitHub Copilot。已经在用，API 可以调，后端挂的是 gpt-4o-mini，速度快，token 限制也够用，关键是不用另外付费。就这么定了。&lt;/p&gt;&#xA;&lt;h2 id=&#34;rss_summarizerpy&#34;&gt;rss_summarizer.py&lt;/h2&gt;&#xA;&lt;p&gt;服务不复杂，一个 Python 脚本，跑在 sl3 上，用 systemd 守护：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;每 2 分钟轮询一次 Miniflux API，拉取未读文章&lt;/li&gt;&#xA;&lt;li&gt;取出正文，喂给 gpt-4o-mini，要求生成 300~500 字的中文摘要，分段&lt;/li&gt;&#xA;&lt;li&gt;摘要写回文章顶部，用一个带蓝色左边框的 &lt;code&gt;div&lt;/code&gt; 包起来，Miniflux 渲染出来有种读内部报告的感觉&lt;/li&gt;&#xA;&lt;li&gt;原文折叠在 &lt;code&gt;&amp;lt;details&amp;gt;&lt;/code&gt; 里，不想看正文就不展开&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;HN 的处理单独写了逻辑：除了原文，还会把评论区一并抓下来，分两个部分总结——&amp;ldquo;文章说了什么&amp;quot;和&amp;quot;HN 在聊什么&amp;rdquo;。两件事有时候差很远。比如某篇介绍新数据库的文章，评论区全在骂作者没提到某个竞品，这种信息只看原文是感知不到的。&lt;/p&gt;&#xA;&lt;p&gt;有个细节处理起来有点麻烦：Miniflux 有时候拉回来的是全文，有时候只有摘要，得先判断正文长度，太短就去原 URL 再抓一次。网站防爬虫的程度参差不齐，爱范儿直接给全文，虎嗅要带 Cookie，偶尔还是会失败，这种情况就只用摘要凑合。&lt;/p&gt;&#xA;&lt;h2 id=&#34;跑起来之后&#34;&gt;跑起来之后&lt;/h2&gt;&#xA;&lt;p&gt;每天早上打开 Miniflux，文章顶部已经有一段蓝色的摘要在等着你。&lt;/p&gt;&#xA;&lt;p&gt;读起来快了很多。很多文章看完摘要就够了，知道发生了什么，不需要点进去；真正有意思的，摘要会让你更容易判断值不值得细读。&lt;/p&gt;&#xA;&lt;p&gt;有几次摘要比原文写得好——可能模型把废话过滤掉了，核心反而更清楚。这让我有一丝复杂的感受。&lt;/p&gt;&#xA;&lt;p&gt;HN 的双摘要比较有意思。有时候文章本身很普通，但评论区冒出来一个真在这个领域干了十年的人，随手写了几段干货，比文章值钱多了。现在这些也被收进摘要里了，不容易错过。&lt;/p&gt;&#xA;&lt;h2 id=&#34;然后有一天摘要全没了&#34;&gt;然后有一天摘要全没了&lt;/h2&gt;&#xA;&lt;p&gt;用了几天，感觉挺好。然后有一天早上打开，摘要全没了。&lt;/p&gt;&#xA;&lt;p&gt;Miniflux 每次刷新 feed 会重新拉取内容，覆盖掉 content 字段。我辛辛苦苦生成的摘要，就这么被刷掉了。&lt;/p&gt;</description>
			</item>
	</channel>
</rss>
