当前位置：首页 > 新闻资讯 > 人工智能应用 > DeepSeek原理与落地应用,基于上下文预测下一个 token,激发深度思考等,提升对话质量

DeepSeek原理与落地应用,基于上下文预测下一个 token,激发深度思考等,提升对话质量

来源：上海大学编辑：摩登7 时间：2025/3/7 主题：其他 [加盟]

人工智能概念辨析：介绍大模型相关术语，回顾大模型从运算推理、知识工程到深度学习的发展历程，对比生成模型和推理模型在定位、推理能力、多模态支持、应用场景和用户交互体验的差异。

DeepSeek R1

公司与模型：DeepSeek 成立于 2023 年 7 月，获幻方量化支持，专注大语言模型开发。旗下模型包括生成模型 V3 和推理模型 R1，R1 具有推理能力强、开源、低成本、国产化等特点，在国际竞争中处于第一梯队。

使用与部署：提供官方网页、APP、API，还可通过国家超算平台等第三方渠道使用。个人可通过 Ollama 部署蒸馏模型，企业可利用 vLLM 进行生产级部署。部署 R1 满血版需特定算力支持，不同算力配置价格不同。

模型原理：GPT 采用 Transformer 架构，经预训练、监督微调等阶段，基于上下文预测下一个 token。生成模型有语言理解和生成等能力，但存在幻觉等问题。DeepSeek R1 通过思维链、强化学习和蒸馏技术，提升推理能力，减少模型大小。

落地应用

提示词技巧：包括真诚直接、使用通用公式、说人话、反向 PUA、善于模仿、擅长锐评、激发深度思考等，可提升对话质量。

应用场景：适用于推理密集型任务、教育与知识应用、文档分析、开放领域问答写作等场景。在教育与学术领域，可用于教学设计、作业批改、论文辅助等；在知识付费领域，可进行课程大纲设计、直播脚本撰写等。