2022年12月

The 2022 Pornhub Year in Review | Pornhub Insights
Source: www.pornhub.com

Pornhub一年一度的总结,今年有一个关于世界杯的数据:比赛期间,参赛国用户的流量与日常时段相比的变化率。一般都是跌的,只有澳大利亚在涨,哈哈。

图片中的2022年 - 纽约时报中文网
Source: cn.nytimes.com

纽时一年一度的新闻照片合集,每年都会扫一眼,今年的事很多。

中国的前景已今非昔比 - 纽约时报中文网
Source: cn.nytimes.com

昨天才看了王局分享的日本一份看衰中国的报告,报告称中国GDP将永远无法超过美国。因为疫情、人口结构等原因,确实越来越多的专业机构看衰中国了。

Mozilla to explore healthy social media alternative | Hacker News
Source: news.ycombinator.com

Mozilla官方宣布,明年初将会公开测试Fediverse实例,域名mozilla.social。很期待,希望联邦网络不断壮大。

Principles for Dealing with the Changing World Order by Ray Dalio - YouTube
Source: www.youtube.com

Dalio的经典视频之二:应对世界秩序的变化

How The Economic Machine Works by Ray Dalio - YouTube
Source: www.youtube.com

Dalio经典视频之一:经济机器是如何动作的

Aaron Swartz:如何提高效率
Source: www.zybuluo.com

效率的真正秘密在于“聆听自己”,在你饿的时候吃饭,在你疲惫的时候睡觉,当你厌烦的时候休息一下,做那些有趣好玩的项目。

新冠管控放开之后,应该做什么?
Source: mp.weixin.qq.com

王立铭写的,看过他的《上帝的手术刀》,科普写的不错。

再低的致死率,也架不住人口基数大,以及背后对应的医院挤兑。

风光摄影机位指南 - 少数派
Source: sspai.com

为了拍一张大片,作者把互联网应用发挥到极致了。

评论里有人讲,这是整个少数派中最实在的文章。

互联网上超过40%的流量都是假的
Source: mp.weixin.qq.com

这时讨论的是流量,很多流量是机器人产生的。
其实还有内容,也有大量内容是机器人产生的。

机器人生产、机器人消费,产生GDP,想想都有趣。

作为「它者」的算法 – 一天世界
Source: blog.yitianshijie.net

现代电脑与博弈论的重要创始人冯诺伊曼,曾说过:「到底有什么是电脑做不了的?只要你把被认为是电脑无法解决的问题描述清楚,电脑总能找到一种方法解决它。」也就是说,如果我们能把什么是「创作」和好的「作品」定义清楚,人工智能就可能实现你所想要的。

产品沉思录精选:拒绝信息成瘾,重新思考你和信息的关系。
Source: mp.weixin.qq.com

关注自己,而后信息

复利的骗局
Source: mp.weixin.qq.com

1、确定性,完全随机的游戏没有复利,要在确定的事情上不段积累。
2、基本约束,有些基本规律不可打破,比如跳高,通过训练可以跳的更高,这是确定的。但不可能摆脱引力,这是约束。

炒股有复利么,并没有,因为不可能连续盈利。

饶毅:中国未来最大的挑战
Source: mp.weixin.qq.com

科学技术对于中国来说,可能迄今主要作用还是培养可以山寨国外成果的人员。科学在中国产生的原创性工作不多,能直接支撑产业的不多。但是,如果我们希望有朝一日走在世界的前列,必须有科学技术支撑的原创性工作。如果我们的产出不能超过西方、不能超过美国,难以想象我们能单纯通过商业模式的变更或分配方式的技巧走到前列?

人家做发明、你来分配,天底下恐怕没有这般好事。只有产出强的时候,才有分配的主导权。而商业模式变化包括把一个商业渠道改成另外一个商业渠道,是左口袋与右口袋的关系,有时增加、有时不增加总量。一个大国分配方法、商业模式虽然重要,产出更重要、可能永远是最重要。而产出的领先必需科学和技术支撑的原创性成果。

科学技术在相当长的时间内与中国的未来有密切关系。如果国家没有措施,按目前的趋势我们的科学技术人才是令人担忧的,中国的前途也存在相当大的隐患,至少从与日俱减的自然科学人才来说。

我们中华民族缺乏科学传统,科学在中国的发展历史短暂,加上实用主义的文化,我们如何扭转科技人才质量下滑、人数减少,激励一定数量的高质量的人才加入科学技术,正面影响中国的未来,是很大的挑战。

拥抱无序:在预测处理中寻觅不确定性的价值
Source: mp.weixin.qq.com

区分三种不确定性:

  • 可预期的不确定:经常去的餐厅,好不好吃,大概知道。
  • 不可预期的不确定:经常去的餐厅,换了厨师,现在好不好吃不知道,但如果多去几次,还是能试出好的概率。
  • 不稳定性:没有统计规律

人的体验,是由预期和现实的gap决定的。预期是大脑对环境做的预测、现实是环境实际的反馈。

  • 习得性无助:长期处在不稳定性环境中,会降低我们对「我们能够通过行动得到想要的结果」的信心,预测大脑得出「我们无法控制」的结论。这就是习得性无助。
  • 成瘾:大脑有一套奖赏回路,与环境交互时,奖赏回路起到优化大脑的作用。其实,它的功能就是对概率减少速率的估计(敏感度)。成瘾物质则劫持奖赏回路,使之不敏感。
  • 同温层:与成瘾类似,也是为了避免出现惊讶。实际上,信息成瘾,便是如此。

一、

Elon Musk收购Twitter后有一系列的言论和骚操作,尤其是最近讲不允许用户在Twitter上引导他人去竞争对手平台,如Facebook、Mastodon,以及有些记者和名人的账户被封,最终导致不少用户转向Mastodon。一向默默无闻的Mastodon,引起了主流媒体的广泛关注和报道。

昨天看到一个数据,过去一周mastodon生态增加了~26万用户(总~862万,增长~3%),大部分应该都是Twitter来的,不乏名人。Musk不愧为Mastodon首席增长官。

这次加入Mastodon的名人中,我知道的最著名的是硅谷创业教父Paul Graham,他在Twitter拥有160万粉丝,在科技圈很有影响力。他的账号也一度被封,目前已解封。

二、

Mastodon是一个类似于Twitter的微博客产品,功能与Twitter一样,有关注、被关注、回复、转发等等。Twitter用户迁移到Mastodon,一定是熟悉的味道。

但二者在技术实现上,有根本的区别。Twitter是一个中心化的平台,用户的账号和数据由一家公司掌握,没有其它选择。实际上,手机里的多数App都是中心化的平台,国内的微信、淘宝、百度、微博、知乎、小红书……,国外的Twitter、Facebook、Instagram、Google……,无一例外。

Mastodon则是去中心化平台,准确讲是联邦网络。用户可以自己搭建Mastodon网站,我在20年曾尝试过,需要一些技术知识;也可以在别人搭建的Mastodon网站上注册使用,比如我现在用的账号,就是在草莓县注册的。

接下来先讲几个关键概念:

  • 实例:每个Mastodon网站称为实例,对应唯一的域名,草莓县就是一个实例,域名为m.cmx.im。因为任何人都能自行搭建,所以实例很多,这里有个实例列表
  • Mastodon网络:各实例之间可以通讯,所以在草莓县的我,可以关注在mas.to上的Paul Graham,所有的实例共同组成了Mastodon网络
  • Mastodon ID:用户在实例上注册时,需要设置一个用户名,比如我的skyue,用户名在实例上是唯一的,然后用户名@实例域名则是Mastodon ID,在整个Mastodon网络上唯一,我的Mastodon ID是skyue@m.cmx.im。发贴@用户时,如果是同实例的,@用户名即可,如果是其它实例的,需要@用户名@实例域名

看到这里,即便不懂什么是联邦网络,也一定觉得Mastodon ID特别熟悉,它和Email地址一模一样。

Email就是个古早而庞大的联邦网络。很多公司都有自己的邮箱,个人邮箱也有很多选择,不喜欢QQ邮箱可以用网易,不喜欢Outlook可以用Gmail,反正所有的邮箱之间都能互相通讯。

在概念上,QQ邮箱就是一个实例,所有邮箱产品共同组成的网络类似Mastodon 网络,Email地址类似Mastodon ID

所以,基于联邦网络技术的Mastodon,如同无数个Twitter公司,用户可以根据自己的喜好选择,又能与网络中任意用户保持联系,如果有一天不喜欢所在实例,也能轻松的将数据迁移到另外一个实例,这比Twitter更加灵活、更安全。

三、

既然Mastodon这么好,为什么没有普及呢。我认为它目前也存在几个问题:

1、冷启动困难

社交平台严重依赖网络效应,冷启动非常关键。

从整个Mastodon网络看:目前的实例都不大,且多是用爱发电,没有实例做用户增长,Mastodon网络作为整体,也没有组织能协调所有实例做用户增长。所以,Mastodon网络用户规模仍然不算很大。

从用户个人角度看:没有任何一个实例存储全网的用户和内容,所以无法构建全网热门用户或热门内容,让刚加入的新用户快速发现优质内容,关注喜欢的用户。导致新用户的冷启动很困难,比如像Paul Graham这样的大咖,我也只能通过搜索他的ID找到他再关注,而ID则是从他的Twitter上看到。

2、商业化困难

同样有两个层面。

从实例运营者角度看:没有配套的盈利方式,目前的实例大都是公益性质的。我觉得实体盈利系统不是难点,无论广告或直接收费,都很成熟。

从用户个人角度看:大V往往有聚集效应,粉丝愿意跟随他们迁移。但很多大V也有变现诉求,Mastodon网络现在的用户基数太小,何况去中心化平台天然不利于流量集中分发,这些人目前是没有动力来Mastodon的。

关于去中心化平台不利于流量分发,举个例子:你在自己的实例参与「阿根廷夺冠」的话题讨论,在另一个实体中同一个话题下,你的帖子可能永远都出不来。因为对方实例没有用户关注你,也没有人转发你的实例。

3、实例性能/网络参差不齐

这是纯技术问题,最终在用户侧的体验就是:有些实例刷起来不流畅。

四、

Mastodon有如上不足的同时,Twitter都做的特别好,至于数据安全、账号可控性这些,不到大难临头,用户不会在意,所以Mastodon一直很小众。

可Elon Musk偏偏搞出个大难临头,这样说有些夸张,但用户确实感受到了不安全。所以,大家跑去了Mastodon。

Mastodon目前的问题都是联邦网络机制带来的,冷启动、商业化天然不如中心化的平台。从机制上讲,无解。

但我认为,存在一种可能的状态,使得这些问题不严重、甚至不存在。这个状态便是像邮箱服务一样,出现少数几个巨头。这几个巨头可以索引存储全网的内容,可以做中心化内容分发。用户可以在巨头之间做选择,也可以去中小实例。

这个状态兼具了中心化网络的效率和联邦网络的安全。不确定这种状态有没有可能出现,但我很期待。

Google一直有社交梦,这时候就该下场搞个Mastodon实例。

卡塔尔世界杯结束了,昨晚也熬夜看到3点多,连颁奖礼都没放过。也参与朋友圈的狂欢,恭喜阿根廷、恭喜梅西。

我每四年看一两场球,看了5个一两场,这无疑是最精彩的一场。上半场、下半场、加时赛,都有进球,威胁性射门很多,观赏性极强。(很幸运,今年看的另外0.5场是克罗地亚对战巴西,加时段很精彩)

当然,最关键的还在于,作为梅西最后一届世界杯,他能否圆梦、真正封神的悬念,随着阿根廷领先、被追平,再领先、再被追平,悬而又悬。一个人躺上床上看球我,几次惊叫起来。

其实我连伪球迷都算不上,对梅西的生涯不了解,上图左边是2018年还是2014年拍的都不清楚。但不妨碍这个图本身所折射出来的普世精神。

梅西是一个符号,他不止天赋异禀,年少成名,还很努力;虽然他既有天赋又努力,却并非一帆风顺,而是历经磨难、饱受争议;尽管历经磨难、饱受争议,老天却又让他在职业生涯的最后捧得大力神杯、功德圆满。——和昨晚的决赛何其相似,冥冥之中,是决赛亦是缩影。

在动荡的今天,我们需要一个神,虽不能弥合世界,至少让大家精神相连。

非专业技术出身,涉及技术的描述若有误,欢迎指正。

一、

最近OpenAI旗下的ChatGPT大火出圈,我也第一时间在淘宝买了个账号用起来。

我本职是搜索产品,对技术有些了解,一直觉得通用人工智能(AGI)是非常遥远的事情,目前的AI范式(Transformer大模型)也不太可能实现。实际上,在ChatGPT之前,所有的通用型语音助手或聊天机器人给我的印象是,当玩具都觉得没意思。业内也偶尔自嘲:「有多少人工,就有多少智能」——AI需要大量的标注数据

但ChatGPT非常惊艳,它能进行连续的非常流畅的对话,而且是全知的存在,在每个领域都能做到60分。虽不极致,但可用。很多人已经把它当辅助工具在使用,各种文字类工作都能指点一二,比如写剧本、写检讨书、写代码等等。

二、

当初觉得,目前的AI范式不可能实现AGI,主要是它跟人理解世界的方式差异很大

AI模型的训练都是通过投喂大量的数据实现的,这个信息量远远超过一个人从小到大接受到的信息量,但ChatGPT之前的AI还是显的很笨拙,原因何在呢?

因为人有理解能力,能够从各种现象总结规律,再基于规律去分析、推理、解决问题。当老师通过一个案例介绍SWOT分析框架之后,学生可以很快的将该框架应用到其它案例中去,这便是理解能力。而且,从现象到规律,再利用规律分析解决问题,都具有可解释性。

而现在的AI范式,本质上仍然是在做模拟,通过大规模数据训练之后,模型可以回答问题。但模型并不真的理解问题,对答案和问题之间的逻辑关联性,也无法给出解释。我在工作中就非常头痛算法的黑盒效应,当你发现模型对某个问题的回答是错误的时候,很难确定模型为什么弄错了。

三、

但现在,ChatGPT又表现出了超预期的智能,该如何解释呢?

首先,我想到的是大力出奇迹,ChatGPT在GPT-3的基础上研发,GPT-3的模型参数达到1750亿(常用来类比大脑突触,人脑有100万亿突触),预训练数据45TB,以及超强的算力配合,训练成本达到1200万美元1。量变是否引起了质变?

通过资料了解到另一个关键技术升级,ChatGPT加入了基于人类的反馈系统(RLHF)2。先将大量无标注数据喂给模型,学习语言特征,再使用人类标注数据进行优化。所需的标注数据规模是极小的,便能优化到现在的效果。——少量人工,就实现高级别智能。

继续回来从人脑的角度来理解这些

人的学习过程,或许没有像ChatGPT使用那么多的数据,但其实也不少。除了书面知识外,生活中的所见、所闻、所感,都是信息的输入。当我们还不识字时,就已经在反反复复的听、说、看到一些事物、概念,加强印象。

而RLHF系统,则完美贴合人类的教学活动。小孩子第一次看到猫咪不知道是什么,会问妈妈,妈妈会解释,第二次看到可能还不知道,再问妈妈,妈妈再解释,第三次多半就知道了。这便是将特征形成知识,存于大脑了。ChatGPT也是如此,只不过,他不是碰到问题就问,而是先从看大量的文字资料,再通过与人类对话反馈优化已经学到的知识。

我们来想象两件事情

  1. 如果把ChatGPT实体化,做成机器人,有五感输入,也能自由行动,让它与人和自然每天互动学习,接受反馈(包括被打了一下会痛、攻击人类会被惩罚这样的反馈),会不会成为超级人工智能?
  2. 如果让人按ChatGPT的模式去学习:把人关在一间拥有海量数据资料的房间里,与世隔绝,专注阅读几十年后,再与人交流,接受互动反馈。不考虑心理问题,人脑能比ChatGPT做的更好么?

我没有答案,只是觉得类比有趣。

如果ChatGPT生成的答案非常准确,在不确定的时候也能告诉你他只是猜测,以及从「文本生成」的角度(不是推理的角度)给出逻辑解释,是不是可以认为,ChatGPT实现了理解呢?人类的可解释性,虽然在脑海中有推理过程,但最终呈现出来的仍然是语言。不是么?

四、

ChatGPT的出现,让我觉得AI(或至少AIGC)在可预见的未来,在知识技能层面可以实现高级别的智能。会成为很多脑力工作者强大的辅助工具。

只要AI没有意识,便永远只是人类的工具。但高级别的知识智能,会不会再次量变到质变,突然产生意识呢,像很多电影拍的那样。