001期--AI内容污染搜索
周六/周末一般我会出去打一次羽毛球,打完之后有时会和朋友们一起聚餐,上图就是前面的一次聚餐-巫山纸包鱼😋。可惜这周五打球把脚给弄伤了,周末只能修养了。
>>想聊的
最近有一个话题很火,就是在AI搜索引擎中,发现其引用的内容却是AI站点中生成的AI内容。
这会导致什么问题呢?简单来说就是“以讹传讹,幻觉重叠”
想象一下,AI生成的回答目前仍然是有幻觉的,RAG(Retrieval Augmented Generation)的出现就是为了避免这种幻觉,能让其的回答引用正确的资料。但现在,RAG引用的资料是AI自身生成的,然后再由AI解释梳理一遍,幻觉只会更加严重,最后导致内容根本不可用,难以令人相信。
同时,也有一些网友发现了在google上输入site:doubao.com
,其内容有上千万条!
当然,现在doubao似乎已经整改,相关的过度SEO优化已经下架了。
但是,我始终认为这是Google等搜索引擎工具自己该做的,这是我的一些疑问:
- google没发现吗?不能定制一下策略?
- 还是说区分不了ai内容,不知道怎么做?
- 或者说ai站点的内容还是有价值的?比如用户可以直接搜到对应的ai回答,而不用消耗token以及话术去问。
并且就算豆包整改了,那其他的ai站点呢,特别是那些个人ai内容站点,毕竟为了流量不择手段的例子不在少数。我用搜索引擎工具,自然是想搜到我想要的内容,至于怎么筛选,能不能筛选,搜索引擎该做这些。
就像以前很多站点用贴很多与站点无关的关键词来提高搜索命中率一样,然后被pagerank给干掉了,这也促进了Google的成功。
再进一步,如果现在你做一个搜索引擎,可以用某种策略区分掉ai内容,那是不是能吸引很多对此抱怨不满的人呢,因为始终会有人想要看非ai书写的内容,毕竟现在ai的内容还有幻觉。
>>该看的
Google会议推出自适应音频
很有用的功能!多台电脑在同一个房间同时进入会议时,所有人都可以清晰地被听到,而不会出现尴尬的回声和音频反馈。
GPT-4-turbo还是GPT-4o
如果我仅使用文本,而不关注多模态,那么谁的效果更好呢?在官方论坛中有相关讨论,在前几个高赞回答中说GPT-4-turbo的效果似乎更好
that GPT-4-turbo is a lot better than GPT-4o.
GPT 4 turbo is much better for step by step tasks.
而这里也有一篇博客对其效果进行了较为详细的对比:
- 数据提取:GPT-4o 显示比 GPT-4 Turbo 更好的性能,但在复杂任务的准确性方面仍然不足。
- 分类:GPT-4o 具有最高的精度,使其成为避免误报的最佳选择。GPT-4 Turbo 显示较低的准确性。
- 口语推理:GPT-4o 在某些推理任务中有了显著改进,但仍有需要改进的地方。GPT-4 Turbo 在这些任务中更加困难。
- 延迟:GPT-4o 的延迟较低,响应时间比 GPT-4 Turbo 更快。
- 吞吐量:与 GPT-4 Turbo 的每秒 20 个标记相比,GPT-4o 的吞吐量为每秒 109 个标记。
虽然 GPT-4o 在质量和延迟方面是明显的赢家,但它可能并非适合每项任务的最佳模型。
>>好用的
Git命令速记表
对git命令还不熟?这张git命令速记表快快收藏!
全文搜索引擎库tantivy
一个全文搜索引擎库,ElasticSearch的替代方案,由Rust编写,支持中文,性能炸裂,支持REST API,支持Python调用,以MIT协议开源。
渐变动画生成器
拿来做网站主页的背景是一个不错的选择,效果还不错,并且支持各种参数的配置:
终端文本库引擎
短短几小时就在HN上获得了近千points,这款由python编写的终端文本引擎库太炫酷了!
logo生成器
FAV0周刊使用该工具网站生成的logo,不做花里胡哨的东西,直接和X和DEV社区的logo一样,黑底白字+Text,辨识度高是logo设计的第一要素!
通过npm管理字体
前端开发必备神器!好用的字体网站,上千种开源的字体,还可以通过npm install直接安装使用,并进行版本管理。
手绘风格的UI组件库
草绘风格的UI组件库,支持在不同的框架React、Vue、Svelte或HTML中直接使用。拿来做一些有趣的页面非常合适!
HTTPS相关的学习资料
ChatTTS
- 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
- 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
- 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。
总之,效果很牛,还是开源的!
>>有趣的
什么是AGI
Reddit的网友给出了一堆有趣的回答:
如何学好编程?
一直以来CV(复制粘贴)工程都是程序员的热梗之一,针对这个问题,有位网友给出了这样一张图片:
后裔为什么不能射工作日?
射完他就失业了啊
cloudflare的bug
最近在cf购买域名时,看到了这样的页面,数据没有被渲染出来:
>>可读的
阅读编程语言并不等于阅读语言
这篇文章研究了我们编程时,激活的并不是大脑中关于语言处理的区域,而是与数学相关的多重需求网络,但也不不是精确地复制数学的认知需求。
语言只是工具,学会如何表达后,我们更关注的是这段语言背后的逻辑。
网页设计的16个实践
为什么,6 年后,我对 GraphQL 不感兴趣了
GraphQL很灵活:可以“联表(scheme)查询”,一个接口返回的数据可以包含不同字段,更多或更少。
- 如何对每个字段进行权限控制?
- 如何对每个接口进行速率限制,一个接口返回数据量可能差异很大
- 字段解析器命中外部数据源时:N+1问题
- ...
将API重http重定向到https似乎是一种错误
应该完全禁用、快速失败,返回如403之类的code错误,有趣的是,openai好像根据这篇文章改了他们的接口策略。