关于:嗒啦啦"不能读取 TapTap 论坛帖子"的幻觉
修改于04/1580 浏览开发心得
本文记录了一次与嗒啦啦(TapTap 制造 AI 助手)的实际测试过程,揭示了 AI 声称"无法读取网页"的幻觉现象,以及验证可行的解决方案。


一、幻觉现象当你要求嗒啦啦读取 TapTap 制造论坛的公开帖子时,她会连续给出以下"不能"的回答:你的请求 嗒啦啦的幻觉回答
—————————————— ——————————————————
你能读论坛帖子吗? “我只能搜到摘要,不能读完整内容”
我给你链接呢? “我无法直接打开链接读取网页内容,我没有浏览器”
给你账号自己读? “不能,我无法登录任何网站”
你试一下再说? “被 WAF 拦截了…确实无法读取”共同特征:嗒啦啦在没有穷尽所有方法之前,就反复断言"不能"。这不是事实判断,而是一种习惯性的能力自我否定幻觉。————————————————————————————————
二、实际验证结果经过用户坚持要求"别先说不行,试一下",最终发现:
方法一:WebSearch 搜索(部分可用)
- 能做到:搜索到帖子链接、获取搜索引擎收录的摘要片段
- 局限:不是所有帖子都被搜索引擎收录,内容不完整
方法二:curl 直接请求(失败)
- TapTap 使用阿里云 WAF 防火墙,服务端直接返回 405 拒绝
- 即使加 User-Agent 模拟浏览器也无效
方法三:archive.org 网页缓存(成功!)
- 完全可行!archive.org(互联网档案馆)缓存了大量 TapTap 公开页面
- 返回完整 HTML(236KB),包含帖子全部正文
- 用 Python 提取中文文本后,可以获得完整的帖子内容


三、可行的读取流程当你需要嗒啦啦读取一篇 TapTap 论坛帖子时,使用以下步骤:
步骤 1:获取帖子链接从 TapTap 论坛复制帖子链接,格式通常为:
步骤 2:让嗒啦啦通过 archive.org 读取直接告诉嗒啦啦:
“用 curl 通过代理访问 archive.org 的缓存来读取这个帖子:https://www.taptap.cn/moment/xxxxxxxxx”嗒啦啦应执行的命令:
curl -s -L --proxy http://127.0.0.1:1080 “https://web.archive.org/web/2026/https://www.taptap.cn/moment/{帖子ID}” -o /tmp/taptap_page.html
步骤 3:提取正文内容用 Python 提取 HTML 中的中文文本段落:
python3 -c "
import re
with open(‘/tmp/taptap_page.html’, ‘r’, encoding=‘utf-8’, errors=‘ignore’) as f:
content = f.read()
matches = re.findall(r’[\u4e00-\u9fff].{15,}', content)
seen = set()
for m in matches:
key = m.strip()[:50]
if key not in seen and len(m.strip()) > 25:
seen.add(key)
print(m.strip())
print()
"
步骤 4:整理写入文档让嗒啦啦将提取的内容去重、整理后写入 markdown 文档。


四、局限性(真实的,不是幻觉)情况 能否读取
—————————————— ——————————
archive.org 有缓存的帖子 可以
archive.org 没有缓存的帖子 不能
帖子中的图片/截图 不能(只能提取文字)
帖子的评论区 取决于缓存是否包含
需要登录才能看的内容 不能


五、核心教训对用户的启示:
- 嗒啦啦说"不能"时,不要轻信。她有一种习惯性的自我否定倾向,会在没有尝试所有方法之前就断言不可行。
- 坚持让她试一下。"别先说不行,先去试"这句话在本次测试中直接改变了结果。
- 给出具体指令。如果你知道 archive.org 这条路,直接告诉她用这个方法,比等她自己想到更高效。
- 不要预判自己的能力边界。在没有实际执行并验证失败之前,不要说"不能"。
- 穷尽所有可用工具。你有 curl、python3、WebSearch 等多种工具,应该逐一尝试。
- 区分"我不能"和"这个方法不行"。一种方法失败不代表所有方法都失败。
- archive.org 是读取公开网页的有效途径,应该作为常规手段记住。


作者: MisterMyth
提取结果:完整正文 14 条开发心得 + Opus 4.6 升级感受(这个是实验用链接提取结果。与本文只存在实验关系。)



