公交车惊魂一幕:陌生车辆闯入,如何防范此类事故?
0
2025-08-01
deepseek为何突然爆火?开源树树化是关键
最近,国内大模型震荡杀出一匹黑马——DeepSeek。其热度不亚于年初的ChatGPT,甚至在开发者圈内掀起“平替GPT-4”的讨论。其核心吸引力可总结为三点:
1. 成本低到离谱:调用成本架构GPT-4的1,企业级API价格甚至低至0.001元/千Token,中小也团队能轻松上车。
2. 开源可直接部署:模型权重、训练代码开源全部,支持本地离线部署,彻底弥合数据泄露风险。
3. MOE架构补充技术:基于混合专家模型(MOE)和知识补充,兼顾性能与效率,7B小模型也能跑出70B的效果。
立即进入“豆包AI人工智官网入口”;
立即学习“豆包AI人工智能在线问答入口”;
对于DeepSeek的持续火热,大家都在考虑如何接住DeepSeek这个波流量。还有很多自媒体将原来GPT火热的时候涉及到的内容简单修改后又套到了DeepSeek上面。类似如何写文案,如何写提示语等。而这些内容其实原来是用GPT,豆包,百度文心一言,Kimi的时候已经相当成熟了。
而DeepSeek对于企业数字化转型真正的意义义实际体现在上面的开源和试点布局,如何通过极低的成本训练来企业剖析专业领域的试点大模型。我原来谈AIGC为何在企业内部难以实现大面积落地和斗争,中间就谈到了算力投入和隐私安全两个关键问题,而这一点很深Seek的解剖部署都可以很好解决。
MOE混合专家模型分而治之
对于DeepSeek,网上也有文章专门讲了采用阉割版本的H800,花了500多万美元就能够训练出和Claude 3.5,GPT4-o1能力相当的大语言模型。而完成的关键就是MOE混合专家模型和调整技术。
MOE(Mixture of Experts)混合专家模型的本质就是分而治之的思路。简单来说就是将原有的大专家模型分割为多个“专家子网络”,不同的任务激活不同的专家(如文本生成、代码解析由单一模块处理)。然后再通过门控网络(门控)网络)分配任务权重,避免资源浪费。
我们可以举个简单的例子来对比GPT4和DeepSeek。
通俗点说,就像开了一家医院。GPT-4是老专家:啥病都自己看,能力超强但挂号费很贵。而DeepSeek是专科团团队:内科、外科、儿科各司职,效率翻倍还省钱。
采用MOE模型的核心优势就是同等参数量下,MOE模型推理速度因此提升2-3倍,显着存占用降低50。该模型也更适合垂直场景定制(如医疗咨询、代码生成),专家模块可重构优化。
当然模型也存在一定的缺陷,类似训练复杂度高,数据分布不均易导致“专家偏科”(部分模块持续充分训练)。还有模型膨胀问题,MOE需要额外的专家参数,开源版DeepSeek-7B实际上相当于参数量约20B。
更新技术:以小搏大的双刃剑图片
一讲话这个词,很容易联想到三体里面乱纪元讲的三体人的情节。说简单的改进技术就是浓缩后的都是精华。我们把类似老师的大模型抽取精华并压缩形成小模型,然后投喂给学生,从而达到接近大模型的训练或推理效果。
我们可以举个简单的例子来说明下。
比如一个从业20年的老教师,知识相当渊博,有足够的知识深度和广度。但是这些知识里面很多存在重复,还有很多和考试无关而学生的目标可能比较简单,就是考试希望能够考到90分以上。
那么老师的做法就是让自己的知识经验浓缩后的各个知识点,每个知识点可能还包括3到4种常见的考试题型。对于学生来说把这些精华知识全部掌握了以后就能够顺利的考试高分了。这对于语文教学来说,老师也可以根据作文的不同风格类似八股文的作文写作模板,学生考试的时候按模版套就可以了。这种模型压缩最大的问题仍然是算力成本的节省,而且响应速度更快。在企业AI应用中,特别是类似物联网边缘AI网关就是一个典型的时候场景。
当然大模型后期也存在内容问题,类似常识推理、长文本理解等能力较弱于原模型,且须改装性差(二次训练易丢失核心能力)。
还是举了刚才老师教学生的例子,类似今年深圳小学生四年级的数学考试试卷,很多学生直接考糊了,因为题目不是简单的数学计算,而是涉及到语文的阅读理解,历史知识的积累,你需要先有语言历史知识,将问题当做数学题,然后才去学。那么对于这种知识管理和复杂推理,往往就是被压缩后的小模型的缺陷。
DeepSeek的更新技术采用了监督调整的方式,将教师模型的知识迁移到学生模型中,这种方法在行业内已广泛应用。DeepSeek在知识迁移策略上进行了创新,例如针对不同任务进行优化,提升了学生模型在特定领域的性能。例如DeepSeek-R1-Distill-Qwen-7B在AIME 2024基准测试中实现了55.5的通过率,超越了QwQ-32B-Preview。
简单总结就是MOE模型和调整技术在提高模型效率和降低成本方面具有显着优势,但在稳定性训练、实现复杂性、专家效率和推理效率等方面存在一些不足。与GPT-4或GPT-o1相比,DeepSeek在多模态处理、响应速度和复杂推理能力上大幅提升空间。不过DeepSeek通过创新的架构和技术,已经在特定领域表现出色,并且在不断优化和改进中。
提示词到底还重要不重要?
前面看到一些自媒体文章,谈DeepSeek使用中,词提示不重要了,这个观点本身是有问题的。对于提示词仍然很重要,但具体的场景和方案会出现明显变化。图片
在我们使用GPT的时候,当时有一个标准的提示词模块版本,即:角色:让GPT扮演什么角色技能:GPT需要具备哪些关键的技能目标:输出的目标是什么约束:有哪些工具约束,过程约束等
在原有的这个提示词模块中,最难的往往是描述技能。类似我希望GPT帮我出一个战略咨询方案思路,我可以让GPT扮演战略咨询专家,但是技能描述里面需要描述才能BLM, DSTE,全面预算管理,组织行为管理,战略执行和解码,CSF关键成功要素等等我们的技能。这些专业的技能当我们不熟悉战略管理业务领域的时候,实际上是无法写出来的。
而在使用DeepSeek的时候,提示词重心应该放在我是谁?我遇到什么问题?我遇到问题的环境和场景是如何的?我希望达到上面的什么目标。即:
问题-场景-目标。
我并不需要告诉DeepSeek需要具备什么技能,应该是DeepSeek R1深度思考后自己分析应该采用哪些技能才能够帮我解决问题。
我们举了个简单的软件开发中的例子如下:
我需要秒为电商系统设计一个架构应用,MySQL经常崩溃。而我的目标是要求整个系统支持10万个,且成本不能超过5周/月。请帮我进行整个系统设计,包括需要引入哪些新技术来实现这个目标。
简单地说就是DeepSeek优秀从零构建解决方案,但需明确业务边界与技术约束。同时在提示语中要避免禁止指令(如“优化绩效”),改为具体指标(如“API响应
企业自建现有模型:安装,但别踩坑!
DeepSeek开源版大幅提高企业化园区,整体部署方案(以ollama)深度搜索任何LLM为例):
首先分析先吸,如果只是采用7B模型,那么16GB显存,消费级显卡(如RTX) 4090)就可以部署。由于数据完全离线,比RAG(需上传知识库至云端)更安全。
我们可以做一个简单的方案成本对比如下:图片
看到同时DeepSeek的可以初始化部署方案成本足够低。对于企业的充气知识库搭建的场景,AI智能客户端来说7B模型足够使用。
对于初始化知识库模型,大家常用的方法是ollama任何LLM,网上有很多的参考资料大家可以参考。这里不再展开描述。
解锁DeepSeek的技能隐藏——让AI处理复杂任务
对于DeepSeek的使用不仅仅是聊天和问答。由于DeepSeek本身多态模式的能力相当弱,我们完全可以结合工具链来完成复杂的任务处理。
类似一一些本地复杂的自动化任务,我们可以在DS生成python代码后在本地进行自动化执行。包括完全的流程图,Office文档处理,图片PS等,都可以采用通过脚本或代码中转的方式来完成。类似下图:
DeepSeek的出现,无疑给AI领域带来了一股清新的之风。它的开源、稀疏、分散部署等特点,使得在企业中有了广泛的应用前景。通过了解MOE混合专家模型和扩展技术,我们可以更好地利用DeepSeek的增强能力。同时,合理的设计提示,让DeepSeek更好地理解我们的需求。企业搭建外部大模型,不仅能保护数据隐私,还能根据自己的需求进行定制。最后,通过一些简化的方法,DeepSeek能够处理各种复杂的任务。
总之,DeepSeek不仅仅是一个模型,它更是一个强大的工具,可以帮助我们在AI时代更好地解决问题。希望这篇文章能够帮助大家更好地理解和应用DeepSeek,使其在实际工作中发挥更大的价值。
以上就是DeepSeek火热的背后,我们应该如何更好的应用和实践?的详细,更多请关注乐哥内容常识网其他相关文章!
以上就是DeepSeek火热的背后,我们应该如何更好的应用和实践?