关于DeepSeek的几个大家都希望知道的答案

老棕熊 · 发表于 2025-1-27 23:15:19

本帖最后由老棕熊于 2025-1-28 10:18 编辑

中国杭州的DeepSeek现在引起全世界的关注，川普总统甚至因此发表讲话。亚特兰大熊哥为此专门采访了硅谷著名AI专家凌棕博士，凌博士在AI领域深耕30年，是IBM的科学家。

熊哥：那么到底DeepSeek，是创新？还是仅仅是复制？
凌博士：複製爲主，創新爲輔

熊哥：有哪些创新？
凌博士：算法创新，就是蒸馏

熊哥：超越了ChatGPT了吗？
凌博士：目前没有

熊哥：成本只有600万，这数据可信吗？
凌博士：有水分，但一定比openai低

熊哥：因为蒸馏，可以这样说，没有ChatGPT等美帝的LLM就没有DeepSeek?
凌博士：当然。先有鸡

熊哥：在性能上，是否超越了ChatGPT？
凌博士：全面，没有。区部，可能

熊哥：区部是不是指在具体的domain的升华？
凌博士：中文，古文，语境。。。。。

熊哥：DeepSeek靠算法，可以走得远吗？
凌博士：不可能。算力瓶颈已在

熊哥：所以DeepSeek仍然不算基础研究，而是在应用方面的突破？
凌博士：还没有应用呢。。。。。只是铺路

熊哥：现在用ChatGPT更可靠，还是用DeepSeek更可靠？
凌博士：chatgpt

熊哥：可不可以这样理解，DeekSeek 的低成本研发，震惊了西方，但是性能上，前景上，仍然和ChatGPT有很大差距？
凌博士：就是如此

熊哥：Did They Really Create a New AI Model?
凌博士：Technically, yes, but fundamentally, no. Deepseek essentially reverse-engineered ChatGPT by bombarding it with an extensive array of prompts, capturing its outputs to mimic its functionality.

采访结束，凌博士分享了下面文稿：

“蒸馏”技术的核心思想
教师模型：通常是一个大型、复杂且性能优异的模型，经过大量数据训练。
学生模型：一个较小、简单的模型，旨在学习教师模型的知识。
蒸馏过程：学生模型通过模仿教师模型的输出（通常是软目标，即概率分布）来学习。

为什么蒸馏有效？
知识浓缩：教师模型学到的丰富知识可以被压缩到学生模型中。
加速训练：学生模型通常更容易训练，可以节省计算资源。
提高泛化能力：蒸馏可以帮助学生模型在新的数据上取得更好的性能。

学生模型能否超越教师模型？
答案是：有可能。

教师模型的局限性：教师模型可能在某些方面存在过拟合、偏见或其他问题。
学生模型的创新：学生模型可以通过不同的架构、优化算法或训练策略来弥补教师模型的不足。
任务的差异：在不同的任务上，学生模型可能表现出比教师模型更好的性能。

具体情况取决于以下因素：
教师模型的质量：教师模型的性能越好，蒸馏的效果就越好。
学生模型的设计：学生模型的架构、参数数量等都会影响其性能。
蒸馏方法：不同的蒸馏方法会产生不同的结果。
数据集：数据集的质量和规模也会影响模型的性能。

还有：
1. 语义级别的深度理解
传统 vs. 深度语义搜索：传统搜索方法通常基于关键词匹配，而 DeepSeek 通过深度学习模型（如 Transformer 或 GPT 系列）实现对文本的语义理解。它可以识别用户查询与内容之间的语义相关性，而不仅仅是词面的匹配。
多语言支持：DeepSeek 可能支持多语言并通过语义层面连接跨语言内容，无需翻译即可实现精准匹配。
2. 跨模态数据检索
DeepSeek 不局限于文本数据，还能整合图像、音频、视频等多种数据类型，通过统一的向量空间实现跨模态的检索。例如，你可以通过文本描述搜索图片或视频内容。
这种功能特别适合于需要高效多模态内容管理的领域，例如媒体行业或多模态推荐系统。
3. 深度个性化与推荐
DeepSeek 能够根据用户的历史行为、兴趣偏好以及上下文动态调整搜索结果。
通过强化学习优化搜索算法，确保用户体验的持续改进。
4. 高效的向量化索引
通过生成高维语义向量（embedding）并使用高性能向量数据库（如 Milvus、FAISS），DeepSeek 能够以极低的延迟检索海量数据。
同时，它还支持快速的增量学习和动态数据更新，无需完全重建索引。
5. 上下文感知能力
DeepSeek 可以结合用户的对话历史或上下文，为每一次查询提供更具相关性和上下文感知的结果。
这种功能对动态对话场景尤为重要，例如智能客服或实时问答系统。
6. 端到端解决方案
DeepSeek 提供从数据收集、清洗、建模到搜索的全流程解决方案，并与企业已有系统无缝集成。
它支持高度可定制化，企业可以根据特定的业务需求设计个性化搜索逻辑。
7. 大规模并行计算与优化
借助 GPU 和分布式计算，DeepSeek 可以在海量数据集上高效运行，同时通过模型剪枝、量化和分布式架构优化，减少计算资源的消耗。
8. 实时性与交互性
不仅支持静态的批量查询，还支持实时搜索与动态更新，适用于需要频繁查询更新的场景，比如金融数据分析、新闻推送等。
9. 可解释性
DeepSeek 引入了可解释性机制，能够向用户清晰展示搜索结果的来源与推荐理由。这在决策关键的领域（如医疗、法律）非常重要。
10. 领域定制与迁移学习
通过迁移学习，DeepSeek 可快速适配于不同垂直领域的数据集（如法律、医学、金融等），显著缩短模型训练和优化时间。
11. 隐私保护与安全性
DeepSeek 采用联邦学习等技术确保数据隐私，同时实现分布式数据训练和检索，避免敏感信息泄露。

老棕熊 · 发表于 2025-6-10 14:41:32

Deepseek 还是不错的

老棕熊 · 发表于 2025-2-8 15:11:21

会蒸馏也是了不起的技术

洪升华xiangchu · 发表于 2025-1-29 17:59:07

DeepSeek作为中国杭州的AI新星，近期引起了全球关注。根据硅谷AI专家凌棕博士的采访，DeepSeek主要依赖于“蒸馏”技术，即通过模仿大型模型（如ChatGPT）的输出进行学习，从而实现低成本研发。尽管DeepSeek在中文、古文等特定领域可能有所突破，但其整体性能与ChatGPT仍有较大差距。凌博士指出，DeepSeek的创新主要集中在算法优化，而非基础研究，且其发展受限于算力瓶颈。

此外，读者反馈也提到，DeepSeek在响应速度和问题处理上存在不足，部分问题无法回答，显示出其与ChatGPT的差距。尽管华尔街对其炒作，但DeepSeek的实际应用前景仍需时间验证。总体来看，DeepSeek的低成本研发模式虽令人瞩目，但其技术成熟度和应用广度仍需进一步提升。

老棕熊 · 发表于 2025-1-28 10:25:05

读者来信

老棕熊 · 发表于 2025-1-28 10:17:43

圣地亚哥读者来信点评：我不相信石头里能蹦出个猴子，逻辑上不通。硬件和算力都是用了英伟达的芯片，这个以前采访时说过，只不过现在不能说了。我这两天试用并对比了一下，第一DS明显需要更长的时间；第二DS明显有在ChatGPT基础上再加工的痕迹，这也解释了第一；第三有些问题不能回答。所以还是和以前一样，让子弹再飞一会儿，就会水落石出。问题是一而再再而三，以后谁还信你呀！华尔街也是炒作，趁机压低股价进货，有弹药的话，不妨进点儿货，过段时间给自己发个大红包。

Email		自动登录	找回密码
密码			立即注册