12月20日,由中国互联网协会、微博、新浪新闻主办的“数字力量,探索无穹”2023探索大会在北京拉开帷幕。微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍分享了题为《大模型崛起 传媒行业的机遇和挑战》的演讲。
微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍-主题演讲
以下是王巍演讲实录,内容经编辑略有删减:
大家好,作为媒体行业的从业人士,跟大家分享一下、汇报一下,AIGC大语言模型对我们整体的行业,包括对整体的产业界,尤其是媒体方面的一些影响。
刚才我特别同意洪泰基金的盛希泰总说的一句话,每当有一个技术变革,科技革命来临的时候它会对我们整体的产业界都会产生一个非常、非常大的影响。反过来我们说媒体行业。媒体行业其实一直是技术革命的尝鲜者、实践者,不管是信息技术革命的PC互联网,移动互联网还是到现在的AIGC时代,赋予我们媒体人非常大的空间、非常大的内容创作和内容想象的空间。所以对于我们来讲,我们怎么样去接受这个挑战,同时接受这个史无前例的机遇是非常非常重要的。
我们首先可以回顾一下AIGC给我们整体行业带来的趋势,经过一年多的熏陶大家也都耳熟能详了,有文生文,文生图,文生文大家看到非常多以OpenAI、ChatGPT为代表的。文生图看到的主要的两大技术流派,开源的Stable Diffusion,闭源的Midjourney,都是基于Diffusion发散模型做的一些文生图的尝试,也非常的成功。文生视频这个领域,其实最近的一两个月,有了一个很大的发展。大家看到像Runway,发布的一个叫运动笔刷,可能上个月已经刷屏了,在静态屏上涂抹一些部分的部位,马上这个部位就变成一个视频动起来了。涂抹一只静态的鸟,涂抹一些交通的汽车的尾气、烟雾,立马就变成一个视频。今天中午我们吃饭的时候还跟台下坐着的新浪贝博客的前主编聊到,中国的文学对全球的影响,对海外的影响,大家知道是什么?网文,网络小说是影响最大的,出海最多的。
大家结合文生视频的角度看的话,我们会发现不单单是网文,可能在不久的将来,由网文构建的文生视频、短视频可能也会活跃在海外,也会活跃在我们的全世界。从AIGC整体的技术架构上来看的话,我们是认为分成这样几层,最底层的是各种基础设施,包括各种各样的云,各种各样的计算平台,各种各样的GPU的硬件,也包括一些AI的开发工具。中间层是各种模型,模型有两种套路,一种是刚才提到的开源模型,一种是闭源模型,在国内我们有很多大模型的研发厂商,既做开源又做闭源。最上层是百花齐放的应用了,各行业的应用,各个垂直的应用。我们也看到有一些公司是从模型到应用全都是自己做的,这里面典型的代表是Runway。还有一家公司是Character.AI,是做虚拟角色的,在海外非常有名。
这部分我多说两句,一个我们现在讲AIGC,但是大家可能看到的是最早拥抱AIGC的,其实是工程师、是技术人员。我们看到的AIGC前面还有一个叫做AIGD,D就是develop,是以技术奠定基础的一个生态结构,在这个AIGD的过程当中,我们也看到不管是硬件的,还是软件的,其实都是有一个非常、非常大的热度,也有一个非常激烈的竞争环境。
第二点我想表达的是,大家都说千亿模型、百亿模型、十亿模型、百模大战,大家都在做百模大战,我个人的观点,大语言模型相当于是一个百科全书,一个国家不需要100个百科全书。从基础大模型来讲,我们哪一家先接近ChatGPT3.5或者4.0,哪一家就能够活下来,可能在明年半年到一年之内,我们就能看到胜负结果。更多的我们要去思考的是怎么样在基础大模型上面构建更多的垂直应用、垂类大模型,这个其实跟今天早上和下午之前的几个专家的观点都是类似的。
当然话说回来,在整体的生态过程当中,如果我们从一个商业化或者是变现能力的角度去看这个问题的话,从目前来看最接近底层的商业化的能力最强,也就是当金山来的时候,卖铲子的时候是赚到第一笔钱的。
接下来往下说,最新的AIGC,最新的趋势我们可以先看一下ChatGPTOpenAI的趋势,今年9月ChatGPT发布的GPT-4V模型指明了一个方向,文生文、文生图,向多模态发展。在11月初“OpenAI的开发者日”,又发布了GPT4的Turbo模型,Turbo模型能够承载128K的内存。其实这128K它反映的是我们大语言模型,或者说人类思维的长记忆、短记忆的问题,承载更多的记忆,对我们的对话、对大语言模型能力的拓展至关重要。当然在这里我们也需要点名表扬一下,国内的大语言模型,今天应该有百川的专家来,我们百川二代模型在发布的时候已经支持192K的上下文环境,192K什么概念?差不多39万字,基本上能够装进一部古典名著在里面了,这也是很了不起的能力,也体现出我们的工程师、我们的技术人员在追赶。
最右侧GPTS也是在11月发布的,它其实是针对个性化的大语言模型,个性化的AIGC模型的部署,每个人都有一个AIGC的助手。反过来看,我们看到技术发展得非常快,前两天已经开始有人被抽中到灰度测试GPT4.5了。中午跟微软的韦总聊,其实GPT4的3.5和4的试用在去年就开始了,我们先知道像早期OpenAI的投资人在去年就开始试用GPT4。还有一个谷歌,谷歌在12月初发布的Gemini双子座模型,目前来看它的能力基本上GPT4也都有,但是Gemini发表的模型里面有一个叫做(英)版,可以通过安卓的操作系统直接离线安装在我们的手机上面,安装在各位的安卓手机上面,所以将来随着这个模型的普及,我们的每台安卓手机就是一个AIGC的助理。事实上Iphone手机也不落后,Iphone手机上也有这样的离线模型的部署,最火的就是一个APP叫做(英),离线状态下面就能够通过一两分钟把画给画出来,当然还有一些其他的模型。
这个是我们看到的一些最新的趋势,讲了这个行业的趋势,我们再讲讲对媒体的影响。对媒体的影响很明显我一开始也提到过,我们的媒体从信息产业革命,从PC互联网技术发明以来,我们从PGC时代过渡到移动互联网的UGC时代,现在毫无疑问我们面临的其实是一个AIGC的时代。而且AIGC在内容生产、内容制造方面它的效率远远超过人类,所以AIGC已经成为了一个创作的主体。
更细地来看,AIGC它全程参与媒体的采集、内容的生产、内容的分发以及内容的呈现形式全阶段、全领域的覆盖。我们以前讲叫AI赋能,现在我们已经进入了AI原生,AINative的时代。并且我们以前PC时代讲究的是人机交互,人跟机器的交互界面,现在叫做人机共存或者人机共生,以AIGC为代表的机器已经完全成为了一个内容创作的主体、内容分发的主体。
当然了,AIGC给我们媒体带来很多正面的影响,也有负面的影响。正面影响信息的多样性,信息的创造力,信息的定制化、个性化,以及早上倪光南院士讲的增强搜索,信息的搜索能力得到了一个非常好的提升,非常好的状态。当然也带来一些负面,比如说信息的焦虑内容越来越多,会给我们带来焦虑;比如说信息的真伪,虚假信息的识别难度也加大了。
说到挑战,很明显有一个挑战就是我们所说的幻觉,AIGC给我们带来的幻觉,说白了就是一本正经的胡说八道。图上有一个例子,周树人和鲁迅的例子,我们怎么看待这个幻觉的问题,从技术角度来讲,大语言模型它其实是一个概率问题,它是通过大量的数据的训练和人类反馈的增强学习训练出来的模型,它其实是在猜下一个词、下一个句子、下一段话,本质意义上来讲它其实是猜谜,是个猜字游戏。从这个过程中看到,它的回答是有一定的概率性的,所以其实我们幻觉问题,它是一个与生俱来的大模型的问题,并且需要我们怎么去看这个问题。
从一个机器的角度来讲,人类的创新其实是在语言的沟通过程当中不断地去创造一些东西,不断地去碰撞出一些火花,它本身就带来一定的概率性,也就是说概率带来了创造性。但从另外一个角度来看,浪费我们把大模型模型用在类似于上午百度老总讲的医疗健康领域、医疗领域的话,我们可能对这个概率,对这个温度系数的我们要调的高一点,我们对错误的容忍性要低一点。事实上在美国已经有很多医生尤其是美国叫全科医生,我们叫内科医生,已经在用GPT4看病了,它作为一个辅助医疗的看病工具,已经在用了。
除了幻觉问题,我们再看一个问题,也是我们面临的一个非常大的挑战——版权问题。屏幕上面两幅画,左边是人画的,右边是机器画的,几乎是难以识别这是一个非常普遍的问题。但是我们也非常有幸地看到全世界的各个国家立法机构,都在做这方面的努力。今年3月美国的版权局它有一系列的版权针对AIGC的内容,有一系列的版权的识别规定,主要的概念就是说在整个内容的创作过程当中,无论用没用AIGC,如果用了需要披露,在用的过程当中,如果有人类的参与,它就是认可这个版权;如果完全没有人类的参与,它其实不认可这个版权的价值贡献。
中国北京的互联网法院11月份的时候也做了一次全行业的判决,基本上它的理念也是认可人类在艺术创作过程当中的贡献,而且把人类当做整个知识创作的主体。也就是说,从法学意义上来讲,还是把人类当作一个创作的主体,并没有把AIGC、并没有把机器当作一个等同于人类的创作主体,这个很有意思。
我刚才讲了,从媒体行业来讲,机器已经越来越像一个独立的创作主体,但是从一个法治的角度来讲,我们还是偏向于保护人类的,这个也是对的。对于一个新的技术来讲,机遇挑战并存,但从立法的角度来讲它还是需要更保护人类。当然还有更新鲜的事情,今天早上就有一条新闻,不知道大家注意到没有。巴基斯坦今天早上发布了一条视频是前任的总统伊姆兰·汗,他在监狱里面写了一个笔记,结果有人把他的笔记结合AIGC的数字人技术,做了一个视频,做了一个非常逼真的演讲视频发布在网上。这个网上的视频得到了500万次的播放量,这也是一个可以令我们去思考,令我们去讨论的现象。时间关系不多说了。
讲讲我们的微博做了哪些。我们一直在研究AIGC,一直在研究大语言模型,我们自己本身也在做一些大语言模型研发的工作,我们更多地从一个垂类应用的角度,结合微博的一些特点、社交媒体平台的特点来应用大语言模型。几个方面,辅助内容生产,用户的情感陪伴,其实大语言模型里面有很大的方向就是情感陪伴,根据用户的需求生成虚拟角色个性化的内容生产,以及部分的替代专业化的生产。
下面有几个例子,第一个例子是我们的大V的创作助手。大家知道微博上面有很多热点,活跃在各个领域的大V也非常愿意针对一些热点去做一些评价,或者做一些博文。但是大V不是样样精通的,大V不是对所有的热点都精通,我们提供给大V这样一个创作助手,也就是根据微博正在发生的热点我们用大语言模型学习大V他的语言风格,然后根据不同的热点我们用机器自动帮大V生成符合他语言特点的博文。这个产品我们在下半年发布,在各个大V的领域已经用起来,而且获得了正面的评价。
第二个产品是AI明星伴聊。明星拥有众多的粉丝,粉丝非常愿意跟明星互动,通过私信的方式互动。明星太忙了,或者说他的经纪公司也太忙了,没办法回复粉丝的私信。我们就学习明星的语言风格,学习明星在作品里面的故事情节,学习明星在微博上发言的风格,替明星跟他的粉丝互动。这个推出来以后,这个例子应该是刘宇宁本人和他的经纪公司都给到很正面的评价,粉丝也非常喜欢。
第三个虚拟角色账号。微博上存在非常多的电影、电视剧、综艺节目,我们利用大语言模型学习了这些影视中节目的内容。它的交互风格,然后给每一个电影热播剧,给部分的电影热播剧,当然这个要得到版权方的授权。热播剧里面的人物、主角设定一些虚拟角色,这个例子其实是今年夏天的热播剧《长月烬明》,男主角澹台烬、女主角黎苏苏,我们为这两个角色设定了虚拟账号,然后用这个虚拟账号跟我们的网友互动。网友可以发微博可以发评论艾特角色,这个主角就会跟网友、跟他的粉丝互动,也得到了很好的效果。
还有一个星座大模型,这是我们讲的垂类大模型之一。我们学习了全网的星座网红、星座大V陶白白先生,全网大概6000万粉丝,学习了他的一些语言风格、语言模型,当然他也给我们非常大的一些配合,帮助我们去精挑模型。这个模型在前两周推出了,网友可以通过一对一的对话,让陶白白的大语言模型回复星座问题、情感问题、个人的生活发展问题。模型一经推出,陶白白的个人铁粉量立即翻倍,得到了一个非常好的验证和认可。
最后有一个总结。刚才哈工大的秦院长也提到了大语言模型与情感价值观的问题,学界对价值观还是有一些很激烈的讨论的。我们觉得大语言模型基本上现在已经有两个步骤的训练,第一个步骤是基于海量语料的预训练,这个不需要人类干预。第二个过程基于人类反馈的强化学习,ROHF在这个过程当中其实作为我们人类、作为AI的训练师我们需要去指导AI,需要去指导大模型形成一定的正确的价值观,也就是人类社会公认的文明边界,让我们的大语言模型有这样的正确的价值观,这个我觉得我们还是会反复来强调这一点
所以总结来讲,我们的AI创业者、我们的AI从业者站在了最好的时间点,我也特别希望我们一起在这样一个AI科技的基点上面共同努力,拥抱大语言模型,为人类社会的发展、文明的进步贡献我们的力量。
我的汇报就到这里,谢谢大家!