003期--与GPT的信任危机
这是我第一次看海,没想到是因为出差顺便看的,之前一直有计划,但也仅限于在计划当中...
>>想聊的
保持怀疑
这周看到了这样一篇文章:一个简单的GPT错误导致了1万刀的损失,目前网站似乎正在构建中,也许你查看的时候文章暂时无法查看,但查看标题基本上就能知道大致发生了什么。
根据我的记忆,文章中作者使用ChatGPT来做了Prisma/TS -> Python
这个翻译不同类型但相同逻辑结构的工作,结果出现了一句错误,然后没有发现,导致损失了1万刀的故事。
ChatGPT自问世以来,我们基本上都知道它是有幻觉的,从最开始的一些经典问题开始,比如“鲁迅为何暴打周树人”,这个问题在GPT-3.5turbo中得不到很好的回答,但在GPT-4中能很好的理清楚其中的关系。
随着OpenAI不断地发布新的产品, 模型能力不断地增强,ChatGPT帮助我们的次数越来越多,我们就可能逐渐忽略它仍然包含幻觉的缺点。
- 也许之前用GPT-3.5的时候,你还不信任它,用它写出的代码都会写不少测试用例;
- 但现在,GPT-4时代了,它已经帮助我们解决了无数个问题,你特别地信任它,于是你没写测试用例,然后某次就导致了巨大的损失!
想到一些词语、短句,比如“家贼难防”、“淹死的都是会游泳的”应该就是形容这种场景吧。
而且,也没有任何一位开发人员能保证自己写的代码没有BUG,也是靠一些流程化的东西去保证产品的一个下限,所以使用GPT应该也是这样。
最后,我们需要时刻保持怀疑的态度,即使ChatGPT给出的答案总是令人信服,逐渐“权威化”...
首先,大型通用模型在保持事实方面表现不佳。它们擅长概念和解释概念,但询问一个通用模型关于一个人的生日通常是一个禁区。原因是因为在数据集中,即使正确答案最有可能,也会有许多类似的信息片段可以作为模型响应的一部分选择。一个很好的例子是,当我询问一个通用的 Llama2-7B 模型 AMD 首席执行官 Lisa Su 的生日时 - 它得到了正确的年份,但实际日期是与晶体管发现相关的日期。Lisa Su 与芯片和晶体管密切相关,因此在嵌入空间中,它被选为一个可能的候选者来适应答案。模型产生了幻觉。
第二个问题是这些通用模型是如何训练的。数据集可能是公开信息,正确或不正确(cough,reddit,维基百科),甚至是矛盾的信息,但这些模型被设计为给出一个答案,无论对错。除非问题被困在“不回答关于这个主题的问题”的防护栏中,几乎所有语言模型都倾向于给出答案,无论它们是否实际上正确。这不仅适用于事实,还适用于并未直接包含在数据集中但可能源自数据集的概念。对于特定模型,激光雷达和雷达可能相似,或者 1000 万这个数字可能与 300 万具有相同的权重-如果你在使用模型处理雇佣合同,这会有很大的差异。
如何解决呢?
- 微调特定领域的模型,嵌入一些已知的、经过筛选的数据进行微调;
- 使用RAG,让一个经过验证的数据库,来帮助模型生成输出;
总之,就是把一些硬性事实放入模型之中。
>>该看的
WWDC 2024
苹果做了10几年的计算器终于做好了,效果感觉确实不错,就像平常打草稿一样,能很好地进行头脑风暴。同时,这里还有一个开源的类似于苹果的计算器仓库。
域名转让成了赌博网站
最近有一名独立开发人员把自己经营多年的网站比如**du.com
卖了,du
在原来网站的意思是读书的“读”。
这里对域名脱敏,就不引流的,可能这也是买家希望看到的。
本来以为又是一个独立开发成功的经历,但结果是买家看重了这个域名的名称以及其自带的流量,转眼就改造成了**du(赌).com
,这里就是赌博的“赌”了。
前几个月还看到一篇文章--备案过的域名过期后没管,竟被博彩网站接管了,这种危害更大,就是用自己的备案信息给别人违法...
所以,在处理域名时,小心为上吧!
DockerHub镜像国内安装更困难了
近期,不少DockerHub镜像被封禁了,甚至安装docker服务也变得很困难了。
>>好用的
手绘风格的无限画布
一个小众、开源、但也很不错的无限画布“djmjs”(和excalidraw类似的手绘风格)
功能如下:
- 💡 智能形状(脚本、约束、扩展属性)
- 🔧无头组件(React)
- 📑多页支持
- 👥实时协作
- 🎨深色模式(自适应颜色)
- 📸导出图像、JSON
- 🔤富文本
免费可商用的icon与矢量图网站
又一个赛博菩萨级别的网站!40000+优质icon,以及1500+矢量插图,支持SVG、PNG格式的下载。
关键是:免费且可用于商用!!!炸裂了~
一个真实物理交互的进度条
气泡随鼠标拖动进度条时,会出现一个甩动效果,还挺有意思。
开源的截图软件Flameshot
- 可定制外观
- 易于使用
- 应用内截图编辑,编辑套件丰富 - DBus 接口
- 上传到 Imgur
(相对于pixpin的劣势在于没有OCR识别,但毕竟是开源的,开源的咱都支持,还可以魔改一些地方玩玩)
25款免费可商用的书法字体
其他效果演示:
很有意思,只是没有简体的。
几个独立开发者导航站
这是我近期逛社区发现的推友们开发的导航站点,都非常不错,收集了不少好用的工具、网站等!
吴恩达推出的translation-agent
翻译代理人:使用反思工作流的主体性翻译
这是一个 Python 演示,展示了机器翻译的反射代理工作流程。步骤:
- 提示一个LLM将文本从
source_language
翻译到target_language
; - 让LLM反思翻译,提出建设性建议以改进它;
- 使用建议来改进翻译。
>>有趣的
探索世界各地森林的声音
这里还有一份更全的世界各地的声音,感兴趣的也可以瞧瞧。
马斯克调侃苹果发布会
WWDC 2024召开后,由于苹果也是用的openai的服务,所以马斯克发了这样一张图:
>>可读的
好的代码很少被阅读
编写代码时的目标是尽可能少地阅读它。这听起来可能有些反直觉,但如果您的代码非常易于使用,不需要深入理解就能使用,那么它就是好代码。它应该结构良好,命名得当,以至于其目的和功能立即显而易见。这样可以最大程度地减少他人阅读和解释代码的需要,使他们能够更有效地使用它。
Github Copilot的十个功能
速查表:
- 工作空间代理
- 提问代码问题
- 补全剩余代码
- 代码重构与改进
- 修复错误与警告
- 生成单元测试用例
- 生成提交消息
- 语言翻译
- 重命名建议
- VSCode代理
看看有没有你不知道的,有的话就可以点进文章瞧瞧,增加编码效率!
markdown的快速简易指南
一份非常适合新手入门markdown语法的教程。
设计一个乐高天文钟
如何成为更好的软件工程领导者
Prompt 高级技巧:借助伪代码精准的控制 LLM 的输出结果和定义其执行逻辑
Prompt 的本质是一种对 LLM 的控制指令,那么我们可以不必局限于传统自然语言描述的方式写 Prompt,还可以借助伪代码(pseudocode)来精准的控制 LLM 的输出结果和定义其执行逻辑。