利用AI生成内容获得大规模免费流量【用人工智能低成本获客1】

随着ChatGPT火遍大江南北，所有人都在调戏这个AI机器人，就连在社区街道办工作的大学同学也在问我怎么注册ChatGPT的账号。网上流传着各种chatGPT的对话段子，包括用它写的穿越剧情、宫斗小说和奇葩小黄文。除了用ChatGPT来生成文字内容外，还有许多人借助Stable diffusion和Midjourney等AI图形生成工具来制作惊艳的插画和海报；且越来越多公众号博主（如和菜头）使用AI来生成文章题图。可见AI的内容生成能力之强悍。

上述应用场景属于【人工智能生成内容】AIGC（AI generate content）的范畴。中文互联网上的大部分文章都在讲AI的各种娱乐玩法、发展趋势、办公应用、以及讨论未来人类工作会否被AI替代，但是却鲜有公开的文章讲如何利用AI生成的内容来获取流量。这种新崛起的流量策略在国内并没有集中的公开化讨论，原因是中文流量圈较为闭塞、缺少分享风气，少部分成功者不愿公开分享；其次该策略的技术门槛较高，要求玩家对AI及NLP（自然语言处理）相关技术有一定了解。事实上，利用AIGC获得流量的方法在国外的互联网营销圈中已经有很多成功案例的验证。

【利用人工智能获客】作为流量增长专题下的一个内容系列而存在，其主要目的是为了给国内增长圈增加一些稍微高端点的增长技巧。以我所见，国内大部分拿出台面讲的流量增长案例都太low了，充斥着各类大咖的商业互吹、各种广告公司营销系统的推广植入，而无可复制的具有实操性的操作分享。

本系列文章主要讲述如何利用AI领域的大规模语言模型（LLM）来生成高质量内容，并从搜索引擎中获取流量的实际操作。目前我并没有看到国内有完整讲述这一操作过程的文章。因此，希望本文可以给做增长的你一些可用的借鉴。

利用内容来获取流量，在我此前的《通过内容来获得低成本精准流量【流量增长篇】》一文中已经有具体讲述。其中有一段是这样写的：

通过公式，我们可梳理出流量和内容的关系如下：

流量 = 内容数量 X 曝光次数 X 点击率

从中可见，内容数量、曝光次数、点击率三个自变量决定了流量的多寡。若要获得最大流量，则需用一切手段将这3个自变量的值最大化。

内容数量：取决于创作者的输出能力，由创作者决定。

曝光次数：主要由平台算法及内容排名决定。算法模型包含众多复杂的算法因子（如账号质量、内容质量、用户的互动行为等），很难人为干预。内容质量通常是产品算法中的关键因素之一（如抖快、小红书、知乎等）。理论上，质量高的内容能获得更多正向的用户行为反馈（播放、点赞、收藏、评论、分享等），从而使算法为内容带来更多的曝光推荐。而更多的曝光推荐又带来更多的用户行为投票，流量像滚雪球一般不断膨胀，形成良性循环。

点击率：取决于内容题材、封面、标题等因素对用户的吸引力

这是一个利用内容获取平台流量的基本逻辑，且适用于大部分常见的内容平台。对于通过搜索引擎获取SEO流量来说，该流量公式可以修改为：

网站流量 = 整体内容页面数量 X 收录率 X 整体排名 X 点击率

其中，整体内容页面数量是网站内所有内容页面的总数。

而收录率及整体排名则主要取决于网页的内容质量（若不考虑站外因素、服务器因素、站内页面结构、域名权重等）。

所以，如果我们想要通过AI获得网站流量，就需要确保我们用的AI模型能以较低的成本（时间成本和资金成本）生成大批量的页面内容（此处特指文本），并具备较高的内容质量。

如何判断AI生成的内容质量的高低呢？我个人认为可从以下几点判断（从易到难）：

一、内容不能有过多语病和语法错误。表述流畅。这是最基本的要求。

二、内容段落之间需要有逻辑联系，且保持对主题的聚焦。上下文的意思保持连续及贯通。

三、针对特定主题的输出的内容没有事实谬误，且具有一定深度的见解。

四、行文风格接近或达到人类水平。搜索引擎无法识别出这是AI生成的内容，甚至连人类读者都无法分辨。

在AI领域，使用大规模语言模型生成内容文本这一任务一般称为【Text Generation】，主要利用大规模语言模型（LLM）的文本推理能力来实现。我们有三种方法来获得AI的文本生成能力，按实施难度从难到易如下：

一、使用开源的预训练模型，自己部署到服务器，并进行微调。

二、使用商业模型的付费服务，通过API调用其能力。

三、使用经过高度封装的商业公司出品的AI内容生成软件。

下面逐一分析这三个方案的适用场景、技术实施难度、易用性、价格成本。

方案一：

使用开源的预训练模型，自己部署并根据实际任务对模型进行微调。

大规模语言模型（即LLM）训练需要耗费庞大的人力和财力。训练一个百亿级别参数的大规模语言模型，所需的算力成本、研发人力以百万美元为单位计算。因此，这种需要顶尖AI科学家支持的、耗费天价研发费用的AI游戏注定只有少数科技巨头能够玩转。

研发人员在训练AI模型解决某一特定任务的过程中，通过持续的参数调优使模型在解决该任务时获得最优解（既不欠拟合也不过拟合）。最后把这些经过海量语料训练，获得良好任务结果的模型向公众发布。用户在使用预训练模型来进行相似的任务时，可以基于原模型的训练成果和参数设置来对当前任务进行调优，而无需重新对模型进行从0到1的训练，从而节省了大量的时间、金钱和繁琐的训练过程。这就是使用预训练模型的好处。

在近几年各科技巨头的的AI军备竞赛中，先后出现了许多基于Google Transformer 架构的预训练大规模语言模型（如GPT系列）。但并非所有的模型都是开源的，出于商业利益或伦理风险的考量，模型的作者并没有对公众发布。如果我们要自己部署一个模型到云服务器上，则只能选择开源的模型。

可用于文本生成任务的预训练开源LLM包括：

GPT-2 ：OPEN AI 出品。（1.5B）15亿参数、开源，可自部署及训练。部署成本不高。

GPT-NeoX：（20B） 200亿参数。开源。可自部署及训练。部署成本适中。

GPT-J：（60B）600亿参数。开源。可自部署及训练。部署成本适中。

OPT-175B： Meta（前Facebook）出品，1750亿参数。等效于GPT-3。开源。部署成本极高。

Bloom-176B：法国研究机构出品，1760亿参数。等效于GPT-3。开源。部署成本极高。

对同一厂商不同版本的模型而言，参数越多的模型其推理效果就越好（注：影响效果的因素很多，包括模型训练方法、用于训练的语料质量等），如GPT-3的推理效果就比GPT-2要好。但是参数越多意味着需要越强大的算力支持，需要租用更高级的服务器硬件。我们可以从云服务厂商中租赁专门用于深度学习的云主机。国内厂商有腾讯云、阿里云、华为云、恒源云等；国外有亚马逊AWS、微软Azure、Google Cloud、Google Colab等。

在模型部署上线后，业务侧可以视情况通过前端页面或API进行服务调用。

自部署及自训练模型的适用场景：

需要长期持续性生成大量内容。
现有的模型/AI工具未能满足特定领域需求，需要给模型强化领域知识，以弥补模型在预训练过程中的不足。

自部署及自训练模型的劣势：

对团队成员的专业背景及知识储备要求极高。
精通高等数学、统计学是基本要求。此外还需要掌握许多模型训练方法及各种调参技巧。经常阅读国外LLM相关领域的科学论文（如arxiv）。对于方案一，团队中必须有具备AI学科背景的工程师。前文有提到我做了一款AIGC方向的流量工具，在涉及到模型搭建、训练这些工作环节，均由团队中一位专业的的AI工程师全盘负责。该工程师就职于腾讯某游戏工作室，毕业于某知名985院校，本科为数学专业，研究生为CS专业。这是标配。
高昂的训练成本。
模型参数越多，要求GPU性能越高、显存越大。训练机器的投入可说是一个无底洞。幸好许多开源模型在发布时会提供多个尺寸（如OPT就提供了 125m、350m、1.3b、6.7b、13b、30b等不同尺寸参数）。因此，根据实际任务来选择适合的模型及尺寸十分重要，直接影响本方案的性价比。
极大的耐心。面对训练过程中经常出现的未知错误、异常崩溃、甚至推倒重来时，做好应对的心理准备。

方案二、

使用AI公司对模型封装后的服务接口。

上面有提及，并非所有的LLM模型都是开源的。不开源的原因很多，担心模型成为不法者的帮凶；或担心暴露出AI模型内潜在的人类社会偏见，引发伦理风险；或是出于商业利益的考量。OPENAI只开源了GPT2，没有开源GPT3，而是以付费API接口的方式对外提供服务。对使用者而言，API的最大优势是开箱即用。只要付费即可享受业界领先且不断升级的大规模语言模型，不需要自己介入复杂的模型训练，更无需理会部署、迁移、维护、更新、硬件等等一系列的繁琐工作。一言蔽之，无需折腾。

GPT-3提供了四种参数规格，其中最大的Davinci具有（175B） 1750亿参数，效果。最小的为参数。参数越大，任务效果的表现也就越好。目前最火的ChatGPT基于GPT 3.5 发展而来。而最强大的GPT4目前还只能通过升级Chatgpt Plus来体验，仍未开放API。

收费标准：类似GPT3的商业API通常按照用户消耗的token数量进行计费。我们在进行不同的任务时可以选择不同的参数规格。

以文本生成任务为例，每生成440个中文汉字大约消耗1000 token，每生成750个英文单词大约消耗1000 token。生成一篇1500字的中文文章大概需要xxx元。对应字数的英文文章需要xxx元。具体可以使用OPENAI的token计算器 https://platform.openai.com/tokenizer 来评估。

除了OPENAI外，还有其他一些来自以色列、德国的AI公司也对外提供类似的付费API服务。

使用商业付费AI模型API的适用场景：

若你的团队中缺少专业的AI技术人员，但是对模型的内容输出质量又有较高要求时，那么选择开箱即用的API是最佳选择。GPT3也提供了API接口来微调模型的用法。

使用商业付费AI模型API的劣势：

若你需要生成大量文本，那么token的消耗量无疑是你需要注意的。在巨额的token消耗下，付费API无疑是一头吞金兽。但如果我们的文本生成量不大，或者我们利用其产生的回报足够高，那么付费API也可以作为一种选择。
相比方案一，方案二已极大地降低了技术门槛，但是仍然要求其使用者具备一定的技术开发能力才能接入。虽然OPENAI提供了Playground的操作方式，但是对于大文本量的生成，使用playground的低效率是不可接受的。

方案三、

使用经过高度封装的商业公司出品的AI内容生成工具。

在国外，有许多AI赛道的创业公司基于方案一的方式，把经过自己精心训练的大规模语言模型封装成SaaS软件的形式对外服务，极大地降低了用户的使用门槛。这样一来，即使是小白用户也能在软件的提示下进行文本内容生成。典型的有Jasper.ai、Rytr、Copymatic.ai、Word.AI 等。近两年，这类AI辅助写作工具在国外的IM市场中如雨后春笋般涌现。后面我会单独出一篇文章讲讲各主流AI写作工具的对比。

这类AI写作工具通常的使用方式法是，在工具中给出输入主题大纲和关键词提示，然后工具会自动针对你的主题大纲输出文本内容。用户需要审阅AI写的内容，然后进一步修改或优化，确保AI生成的内容是你想要的。重复该步骤，直至完成一篇文章。

这类AI写作辅助工具其实并没有你想象的那么神。如果你没有输入适当的文本提示，那么缺乏正确引导的它吐出来的经常是一堆语法正确但没有太多意义的文字，类似于头条自媒体那种一本正经地胡说八道的水文。它生成的内容中有较大的概率混杂着似是而非的事实，如果读者对该事实一无所知，那么根本无法分辨出事实真伪。因为AI只是根据当前已给出的上下文，从它过往的所有训练语料中推测下一句文本应该是什么样的。这一切完全是基于统计概率，而非它真正理解了文本的含义。即便是目前大热的ChatGPT亦然。

因为这些SaaS工具都是基于服务商内部模型，如果服务商训练模型时使用的语料并没有涵括太多你想要的知识领域，那么通常生成的文本结果并不理想。

AI内容生成工具的适用场景和优势：

上手门槛低，不需要用户具备任何AI专业背景或开发技能。用户可以直观地看到文本生成的过程，并可修改大纲或提示，直至生成结果满意。
适用于小白用户、作家、写手等需要一切需要文字写作的人。
对于文本内容需求量不大的应用场景。
成本可控。可以自由选择月付、季付、年付等多种付费套餐。

AI内容生成工具的劣势：

因为是基于UI界面的操作方式，因此文本生成效率低于方案一和方案二。
对于相对小众的知识领域，可能无法获得理想的文本结果。
同样因为token成本的缘故，不适宜用于大规模的文本生成。

本文总结

作为【人工智能获客】系列的第一篇，本文讲了使用AI生成内容来获取流量的主要原理，并列举了三种使用AI来创作文本的方案及适用场景。下篇将会讲如何使用小样本学习（Few-shot Learning）技巧，使AI模型生成中等质量的文本内容。后续将讲述如何利用自然语言处理技术（NLP）和AI模型，生成高质量的文本内容。最后分享我目前用Python开发的一款利用AI内容获取流量的工具。我们已使用该工具制作了7个网站的内容，目前网站处于搜索引擎沙盒期。我们会用AB Test的方法来观察实际的流量获取效果。有机会的话，我可能会通过Google Data Studio数据看板来对外公开这些网站的流量数据。当然，关键的网站域名和具体技术细节会有所保留。

最后，码字不易，若你要转载本文，请注明本博客作为出处。若你对本文后续感兴趣，请在文下评论。

谢谢。