AIGC辅助数据分析与挖掘:基于ChatGPT的方法与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 选择适合数据工作的AIGC产品

目前,市场上有很多AIGC的产品或应用,我们将聚焦于与数据工作有关的应用领域,提供AIGC产品的选择指南。

1.2.1 产品选择攻略:应用场景与关键要素

在数据工作中选择AIGC产品时,需要重点关注以下几个要素:

❑ 训练数据:要看语言支持(特别是中文)、场景覆盖(覆盖越多越好)、数据质量(输出结果要准确)和更新频率(数据越新越好)。尤其是更新频率,它会影响AIGC产品是否支持输出最新知识。例如,ChatGPT-3.5的数据仅更新至2021年9月,因此在新的概念、方法、技术和场景出现后,ChatGPT-3.5可能无法识别。

❑ 私有化部署:如果要用企业私有数据与模型交互,必须保证数据安全和不泄露,这对于大型企业、上市公司尤为重要。私有化是唯一保障。

❑ 费用:部分AIGC产品需要付费或者只有付费才能使用高阶版本及功能;同时,除了固定费用外,还可能包括其他按量付费的成本,例如按API用量付费。

❑ 交互方式:大多数AIGC产品主要采用界面化对话作为主要交互方式,但未来要实现数据产品的自动化和系统集成,API支持将是必要的功能。

❑ 行业影响力:AIGC产品的行业影响力,综合反映了其技术实力、数据实力、生态能力、产品能力以及战略布局。

❑ 内容质量:AIGC的内容是其价值的核心要素。不同的AI工具生成的内容质量差异度较大,甚至很多AI工具不支持中文对话和内容输出。

❑ 服务等级协议(Service-Level Agreement,SLA):当AIGC在企业中使用时,SLA必不可少。一般而言,针对企业级客户的服务和产品提供商都会提供SLA条款,涵盖可用性、准确性、系统容量和延迟等方面。

1.2.2 应用集成AIGC:一站式AI助手

集成AIGC产品与应用系统可以实现全流程自动化操作,是最高效的AIGC应用方式。这意味着,使用者只需通过语音或文字下达自然语言指令,就能实现智能工作。以下是可以直接集成AIGC的产品:

❑ Microsoft 365 Copilot,与Word、Excel和PPT等办公工具融合。

❑ GitHub Copilot,GitHub重度用户以及集成到VSCode、JetBrains等IDE开发环境中。

❑ Azure OpenAI,与微软Azure全云生态的无缝结合。

❑ WPS AI,与WPS办公套件无缝结合。

❑ ChatGPT Plus版本,可以通过插件与应用系统打通,实现通过ChatGPT直接订酒店、进行电商购物、完成数学运算、出具思维导图等应用。

❑ 基于ChatGPT API的第三方插件或二次封装应用,例如Office插件、数据库插件、PDF插件、即时通信工具(例如微信、钉钉)插件等,这些工具通过调用ChatGPT API,然后集成到各种应用程序中,可实现从自然语言到任务完成的全过程。

如果涉及Microsoft 365、代码编程、ChatGPT、Azure云生态、WPS办公等应用场景,可以直接使用对应的产品。

1.2.3 SaaS模式AIGC:灵活的AI as a Service

当前,基于OpenAI的ChatGPT和New Bing Chat是SaaS对话式AIGC的事实标杆。由于Claude、Google Bard、文心一言、通义千问等产品较新,应用场景和功能有限,以及用户数量少等,它们难以与ChatGPT和New Bing Chat相比。因此下面只对比ChatGPT(包括Plus付费版本)和New Bing Chat,如表1-1所示。

表1-1 ChatGPT和New Bing Chat对比

总之,如果费用不是问题,我们推荐使用ChatGPT Plus并配合New Bing Chat;如果想节省成本,那么New Bing Chat搭配免费的ChatGPT是最佳选择。不过,仔细比较ChatGPT和New Bing Chat,我们会发现它们的内容风格有明显的差异:

❑ ChatGPT更喜欢表达主观的看法和情感,回答也更全面、细致、完整。

❑ New Bing Chat更注重客观的事实和引用,回答也更简洁、清晰、切题。

提示

AIGC是一种新型的内容生产方式,它不同于聊天机器人、Copilot工具或搜索引擎。目前,ChatGPT等AI辅助产品之所以流行,是因为“聊天”是人类最自然的交互方式。未来,可能会有其他的交互模式,比如脑机接口,但AIGC的本质仍然是一种生产力变革的技术。

1.2.4 私有化部署AIGC:企业定制版AI

大型企业通常需要将AI模型本地化和私有化部署,以满足数据安全、隐私合规、企业经营风险和应用生态集成等方面的要求。目前,常用的开源大语言模型列举如下。

❑ LLaMa(Large Language Model Meta AI,大羊驼):由Meta AI开源的大语言模型。

❑ Alpaca(羊驼):基于LLaMa模型,由斯坦福大学开源的模型。

❑ Vicuna(小羊驼):LMSYS Org开发和分享的开源聊天机器人项目。

❑ Dolly(多利):Databricks开源的模型。

❑ ChatGLM-6B:由清华大学开源的模型。

❑ MPT-Chat:由MosaicML发布的大语言模型。

❑ Koala:由UC伯克利发布的对话模型。

❑ GPT-4All:Nomic AI发布的AI产品。

注意

在企业级应用中,开源项目并不意味着可以随意商用。每个项目都有自己的开源协议,因此读者需要仔细阅读并遵守各个项目的协议规定和注意事项,防止出现侵权问题。