关于ChatGPT的七个关键问题和技术思考( 三 )


由此 , 机器和未来人类的关系会出现重大转变 , ChatGPT将成为“大众秘书” , 提高人的生产效率 , 替代人的简单重复性劳动 , 实现社会生产效率的提升 。人工智能为广泛社会群体快速实现“草稿准备”、“文字归纳”、“专家型知识获取”等功能 , 并且专属机器秘书像私人管家一样 , 结合相关主体偏好 , 辅助形成个性化复杂决策建议 。同时 , 技术发展将营造新的职业机会 , 人类的数字文明更进一步 。
七、实现国产中文版仍存挑战 , 数据量是关键要素 , 高质量的数据将是最大优势
短期内 , 凭借市场力量即刻推出国产中文版ChatGPT仍存在不小挑战 。单就语种而言 , 中文语料训练难度大 , 在数据质量上 , 中文网页质量比英文网页质量差很多 , 在训练要求上 , 由于中国文化多样性和悠久性 , 语言训练难度较英文高 , 即使在目前在ChatGPT的语料库里中文也仅占5% , ChatGPT在中文环境的交流效果远弱于英文环境 。
并且 , 国内主体短期攻关相关技术也需要一定时间 。在人工智能技术方法论上 , 目前国内研究者多数依循谷歌的研究路径 , 即“模型+算力+优化” , 需要进行研究范式的转变 。在相关AI理论的攻关和参数的实验上 , 也需要进行不断的尝试和经验的积累 , 难以一蹴而就 。
八、马上消费乘ChatGPT之势 , 锻造沉浸式数智体验
马上消费持续研究并拓展人工智能生成内容(AIGC)的创新应用 , 在类ChatGPT技术上 , 取其算法要义精华 , 专注消费金融领域的模型精调 , 实现专业领域的AI内容生成 , 并成功为用户提供丰富多样的数字金融服务 。
在大模型研究方面 , 公司聚焦垂直领域的专业化 。自成立以来 , 马上消费专设人工智能研究院 , 获批建设国家级博士后科研工作站、国家应用数学中心、智慧金融与大数据分析重点实验室等科研平台 。基于消费金融领域的专业知识 , 使用来自人类反馈的强化学习来训练语言模型;在大模型控制方面 , 完善算法框架 , 实现在圈定的“常识+专业知识”上进行对话和推理;在大模型的学习能力方面 , 聚焦自问自答得递归加深理解功能 , 由机器人生成问题 , 并自行回答或搜索答案 , 最后根据这些自问自答生成最终答案 。
同时 , 克服GPU的不足、经验的欠缺 , 探索大小模型的‘精调训练’和‘推理使用’的能力 。大模型的训练和应用离不开数据 , 马上消费拥有超1.6亿注册用户 , 构建完成高度自适的消费金融数据资产管理体系 。在充分释放自身数据要素价值的条件下 , 探索适应消费金融行业实际的大模型训练与应用实际 。设计基于公司数据的训练“问答对” , 既保留原有大语言模型的常识和通用推理能力 , 又独有垂直细分数据上产生类似的能力扩展 。公司在大模型应用主要是数据加工、模型优化、表征生成三个方面 , 结合大模型“超级打标员”技术对数据进行标注 , 并生成“伪数据”以加强下游任务训练;将大模型作为母模型 , 蒸馏训练出效果类似的小模型;利用大模型对内部文本生成更好的表征 , 这些表征可以用来做下游知识抽取 , 知识注入等 。就目前的实践成果来看 , 公司高度拟人的虚拟客服完成重复问题简单快速处理 , 达到95%准确率、85%自助率 , 降低金融服务成本 , 提升了用户体验 。
并且 , 基于“科技让生活更美好”的愿景 , 公司积极推动人工智能生成内容(AIGC)标准的制定 , 从规范约束和风险监控两个方面来保证机器智能生成内容的可信合规 , 助力内容生成产业高质量发展 。
整体而言 , 马上消费坚持在构建高可信数据资产体系的基础上 , 不断研发多模态、多场景、持续学习的类ChatGPT应用 , 为用户锻造沉浸式AI交互服务 。
马上消费金融股份有限公司副总经理兼首席信息官蒋宁


推荐阅读