一个人工智能大模型是否完善、是否更接近人类的自然思维逻辑,往往取决于三大要素:数据、算法、算力,其中数据在AI模型进行训练学习的过程中,对训练效率的贡献达到了80%以上,且目前数据标注多为人工标注团队进行,海外ChatGPT的数据标注团队华人占比较少,因此ChatGPT模型对于中文语义的学习和处理不如英语等其他语言。随着国内百度、华为、阿里等多家互联网科技公司相继发布自己的AI大模型,相应模型也需要对使用者常用的语言环境有较为充分的了解,中文语义的训练数据需求将大幅提升。
(数据来源:OpenAI,方正证券研究所整理)
期刊与书籍是文本AI训练集中权威资料的主要来源。根据OpenAI公开论文显示,ChatGPT的训练集使用了总计约320TB的文字信息,涵盖超4000亿词和约31亿个网页,其中包括来自新闻、博客、社交媒体的内容。模型数据集主要来自:普通爬虫、期刊、Reddit链接、书籍、维基百科和其他数据集。而目前国内中文数据中,涉及专业领域的权威数据具有较强的稀缺性,多来自于学术期刊、科学图书等出版物数据,如知乎上高质量的以消费、科学、娱乐为主的高质量文本素材,或万方、维普等权威期刊网站或出版社的数据库资源等,中文训练数据有较高的获取壁垒。
根据各公司财报等公开资料梳理,中文语义数据相关上市公司有:中文在线、中国出版、中文传媒、中国科传、中信出版、掌趣科技等。
(数据来源:各公司官网,各公司财报,方正证券研究所整理)
风险提示:
数据相关政策落实不及预期、AI技术发展不及预期等
参考资料:
①中泰证券-闻学臣(S0740519090007)-数据要素、A IGC 凸显新驱动力,大数据投资利器乘风破浪—— 富国中证大数据产业 ETF 投资价值分析-20230228
②方正证券-杨晓峰(S1220522040001)-大模型“安卓时刻”:高质量数据为“胜负手”-20230331
投顾姓名:陈定柱;执业编号:A1120621060007
风险提示:以上内容仅供参考和学习使用,不作为买卖依据,投资者应当根据自身情况自主做出投资决策并自行承担投资风险。市场有风险,投资需谨慎!
免责声明:以上内容(包括但不限于图片、文章、音视频等)及操作仅供参考,我司为正规投资咨询经营机构,不指导买卖,不保证收益,投资者应独立决策并自担风险。