人工智能概念辨析:介绍大模型相关术语,回顾大模型从运算推理、知识工程到深度学习的发展历程,对比生成模型和推理模型在定位、推理能力、多模态支持、应用场景和用户交互体验的差异。
DeepSeek R1
公司与模型:DeepSeek 成立于 2023 年 7 月,获幻方量化支持,专注大语言模型开发。旗下模型包括生成模型 V3 和推理模型 R1,R1 具有推理能力强、开源、低成本、国产化等特点,在国际竞争中处于第一梯队。
使用与部署:提供官方网页、APP、API,还可通过国家超算平台等第三方渠道使用。个人可通过 Ollama 部署蒸馏模型,企业可利用 vLLM 进行生产级部署。部署 R1 满血版需特定算力支持,不同算力配置价格不同。
模型原理:GPT 采用 Transformer 架构,经预训练、监督微调等阶段,基于上下文预测下一个 token。生成模型有语言理解和生成等能力,但存在幻觉等问题。DeepSeek R1 通过思维链、强化学习和蒸馏技术,提升推理能力,减少模型大小。
落地应用
提示词技巧:包括真诚直接、使用通用公式、说人话、反向 PUA、善于模仿、擅长锐评、激发深度思考等,可提升对话质量。
应用场景:适用于推理密集型任务、教育与知识应用、文档分析、开放领域问答写作等场景。在教育与学术领域,可用于教学设计、作业批改、论文辅助等;在知识付费领域,可进行课程大纲设计、直播脚本撰写等。
附件:DeepSeek原理与落地应用,基于上下文预测下一个 token,激发深度思考等,提升对话质量

本地化部署DeepSeek的基本方法,了解更专业的企业级部署方法,讲解Unsloth R1动态量化部署的三种实 现路径:基于llama.cpp、KTransformers以及Ollama框架动态量化部署
美国在 GenAI领域的领先地位正在被中国迎头赶上,AI 供应链格局将被重塑;开放权重模型正在推动基础模型层商品化,为应用开发者带来新机遇;扩大规模并非通往 AI 进步的唯一途径
突破大模型训练固定思维,敢于尝试在低精度 FP8 的模式下训练大模型,出现了较好的效果,每10年计算成本降低约1000倍,但人们的购买量增加了 10 万倍
DeepSeek大模型的开源,低成本和高性能将大幅降低大模型的获得,部署和应用成本,将加快大模型在 B 端和 C 端应用场景的落地;已应用于端侧、教育、金融、办公、传媒、医疗、智能汽车、企业服务等多个应用场景,应用领域广阔
DeepSeek 降低了单个模型的部署成本,AI 应用有望大规模落地, 推理算力需求将显著增长,相关厂商有望加速进入业绩兑现期,在 AI 应用前沿落地 场景中,全球 AI 应用产业有望迎来共振期
PI 调用层面,DS/OpenAI 的输入费用分别为 0.55/15 美元/百万 token,DS 推理使用成本仅为 OpenAI 的 4%,显著的降低资金门槛,推动了 AI 技术平权
精准数据洞察与自动化效能提升方法论;DeepSeek将在企业服务、科研创新等垂直领域深度渗透;DeepSeek将通过开源战略扩大开发者社区规模,并推出模型微调平台和低代码部署工具
周鸿祎以DeepSeek带来的变革为切入点,深入剖析AI行业发展趋势,并分享了AI技术于创业的应用前景,未来应用将从六大方向实现爆发,企业内部未来一定是多个大模型组合工作
AI生成的回答重复相似,缺乏新意,即使改变提问,无法提供不同的结论;使用更多样的训练数据和算法,提高AI的多样性;优化训练参数, 避免模型陷入局部最优
模型难以处理训练集外的复杂场景,模型过度依赖参数化记忆,普通用户难以辨别AI内容的真实性,可能对医疗建议、法律咨询等专业场景的可 靠性产生长期怀疑
DeepSeek技术突破与应用场景,冷启动数据与多阶段优化,本地部署与端云协同,垂直领域深耕(医疗、金融、教育);智能协作与自动化转型,消费决策与商业研究赋能
你想要生成什么样的文案? 这样的文案具备哪些特征? 你要针对什么生成类似文案? 篇幅、用词、结构优化;批量生成新媒体文案