查看: 7768|回复: 4

关于DeepSeek的几个大家都希望知道的答案

[复制链接]

109

主题

191

回帖

1859

积分

金牌会员

积分
1859
发表于 2025-1-27 23:15:19 来自手机 | 显示全部楼层 |阅读模式
本帖最后由 老棕熊 于 2025-1-28 10:18 编辑

c57fb12cc996361b2e18ad1d67525641.png
中国杭州的DeepSeek现在引起全世界的关注,川普总统甚至因此发表讲话。亚特兰大熊哥为此专门采访了硅谷著名AI专家凌棕博士,凌博士在AI领域深耕30年,是IBM的科学家。

熊哥:那么到底DeepSeek,是创新?还是仅仅是复制?
凌博士:複製爲主,創新爲輔

熊哥:有哪些创新?
凌博士:算法创新,就是蒸馏

熊哥:超越了ChatGPT了吗?
凌博士:目前没有

熊哥:成本只有600万,这数据可信吗?
凌博士:有水分,但一定比openai低

熊哥:因为蒸馏,可以这样说,没有ChatGPT等美帝的LLM就没有DeepSeek?
凌博士:当然。先有鸡

熊哥:在性能上,是否超越了ChatGPT?
凌博士:全面,没有。区部,可能

熊哥:区部是不是指在具体的domain的升华?
凌博士:中文,古文,语境。。。。。

熊哥:DeepSeek靠算法,可以走得远吗?
凌博士:不可能。算力瓶颈已在

熊哥:所以DeepSeek仍然不算基础研究,而是在应用方面的突破?
凌博士:还没有应用呢。。。。。只是铺路

熊哥:现在用ChatGPT更可靠,还是用DeepSeek更可靠?
凌博士:chatgpt

熊哥:可不可以这样理解,DeekSeek 的低成本研发,震惊了西方,但是性能上,前景上,仍然和ChatGPT有很大差距?
凌博士:就是如此

熊哥:Did They Really Create a New AI Model?
凌博士:Technically, yes, but fundamentally, no. Deepseek essentially reverse-engineered ChatGPT by bombarding it with an extensive array of prompts, capturing its outputs to mimic its functionality.

采访结束,凌博士分享了下面文稿:

“蒸馏”技术的核心思想
教师模型: 通常是一个大型、复杂且性能优异的模型,经过大量数据训练。
学生模型: 一个较小、简单的模型,旨在学习教师模型的知识。
蒸馏过程: 学生模型通过模仿教师模型的输出(通常是软目标,即概率分布)来学习。

为什么蒸馏有效?
知识浓缩: 教师模型学到的丰富知识可以被压缩到学生模型中。
加速训练: 学生模型通常更容易训练,可以节省计算资源。
提高泛化能力: 蒸馏可以帮助学生模型在新的数据上取得更好的性能。

学生模型能否超越教师模型?
答案是:有可能。

教师模型的局限性: 教师模型可能在某些方面存在过拟合、偏见或其他问题。
学生模型的创新: 学生模型可以通过不同的架构、优化算法或训练策略来弥补教师模型的不足。
任务的差异: 在不同的任务上,学生模型可能表现出比教师模型更好的性能。

具体情况取决于以下因素:
教师模型的质量: 教师模型的性能越好,蒸馏的效果就越好。
学生模型的设计: 学生模型的架构、参数数量等都会影响其性能。
蒸馏方法: 不同的蒸馏方法会产生不同的结果。
数据集: 数据集的质量和规模也会影响模型的性能。

还有:
1. 语义级别的深度理解
传统 vs. 深度语义搜索:传统搜索方法通常基于关键词匹配,而 DeepSeek 通过深度学习模型(如 Transformer 或 GPT 系列)实现对文本的语义理解。它可以识别用户查询与内容之间的语义相关性,而不仅仅是词面的匹配。
多语言支持:DeepSeek 可能支持多语言并通过语义层面连接跨语言内容,无需翻译即可实现精准匹配。
2. 跨模态数据检索
DeepSeek 不局限于文本数据,还能整合图像、音频、视频等多种数据类型,通过统一的向量空间实现跨模态的检索。例如,你可以通过文本描述搜索图片或视频内容。
这种功能特别适合于需要高效多模态内容管理的领域,例如媒体行业或多模态推荐系统。
3. 深度个性化与推荐
DeepSeek 能够根据用户的历史行为、兴趣偏好以及上下文动态调整搜索结果。
通过强化学习优化搜索算法,确保用户体验的持续改进。
4. 高效的向量化索引
通过生成高维语义向量(embedding)并使用高性能向量数据库(如 Milvus、FAISS),DeepSeek 能够以极低的延迟检索海量数据。
同时,它还支持快速的增量学习和动态数据更新,无需完全重建索引。
5. 上下文感知能力
DeepSeek 可以结合用户的对话历史或上下文,为每一次查询提供更具相关性和上下文感知的结果。
这种功能对动态对话场景尤为重要,例如智能客服或实时问答系统。
6. 端到端解决方案
DeepSeek 提供从数据收集、清洗、建模到搜索的全流程解决方案,并与企业已有系统无缝集成。
它支持高度可定制化,企业可以根据特定的业务需求设计个性化搜索逻辑。
7. 大规模并行计算与优化
借助 GPU 和分布式计算,DeepSeek 可以在海量数据集上高效运行,同时通过模型剪枝、量化和分布式架构优化,减少计算资源的消耗。
8. 实时性与交互性
不仅支持静态的批量查询,还支持实时搜索与动态更新,适用于需要频繁查询更新的场景,比如金融数据分析、新闻推送等。
9. 可解释性
DeepSeek 引入了可解释性机制,能够向用户清晰展示搜索结果的来源与推荐理由。这在决策关键的领域(如医疗、法律)非常重要。
10. 领域定制与迁移学习
通过迁移学习,DeepSeek 可快速适配于不同垂直领域的数据集(如法律、医学、金融等),显著缩短模型训练和优化时间。
11. 隐私保护与安全性
DeepSeek 采用联邦学习等技术确保数据隐私,同时实现分布式数据训练和检索,避免敏感信息泄露。

109

主题

191

回帖

1859

积分

金牌会员

积分
1859
 楼主| 发表于 2025-2-8 15:11:21 来自手机 | 显示全部楼层
会蒸馏也是了不起的技术

57

主题

71

回帖

623

积分

高级会员

积分
623
发表于 2025-1-29 17:59:07 来自手机 | 显示全部楼层
DeepSeek作为中国杭州的AI新星,近期引起了全球关注。根据硅谷AI专家凌棕博士的采访,DeepSeek主要依赖于“蒸馏”技术,即通过模仿大型模型(如ChatGPT)的输出进行学习,从而实现低成本研发。尽管DeepSeek在中文、古文等特定领域可能有所突破,但其整体性能与ChatGPT仍有较大差距。凌博士指出,DeepSeek的创新主要集中在算法优化,而非基础研究,且其发展受限于算力瓶颈。

此外,读者反馈也提到,DeepSeek在响应速度和问题处理上存在不足,部分问题无法回答,显示出其与ChatGPT的差距。尽管华尔街对其炒作,但DeepSeek的实际应用前景仍需时间验证。总体来看,DeepSeek的低成本研发模式虽令人瞩目,但其技术成熟度和应用广度仍需进一步提升。

109

主题

191

回帖

1859

积分

金牌会员

积分
1859
 楼主| 发表于 2025-1-28 10:25:05 来自手机 | 显示全部楼层
读者来信
IMG_1733.png

109

主题

191

回帖

1859

积分

金牌会员

积分
1859
 楼主| 发表于 2025-1-28 10:17:43 来自手机 | 显示全部楼层
圣地亚哥读者来信点评:我不相信石头里能蹦出个猴子,逻辑上不通。硬件和算力都是用了英伟达的芯片,这个以前采访时说过,只不过现在不能说了。我这两天试用并对比了一下,第一DS明显需要更长的时间;第二DS明显有在ChatGPT基础上再加工的痕迹,这也解释了第一;第三有些问题不能回答。所以还是和以前一样,让子弹再飞一会儿,就会水落石出。问题是一而再再而三,以后谁还信你呀!华尔街也是炒作,趁机压低股价进货,有弹药的话,不妨进点儿货,过段时间给自己发个大红包。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|atlanta711.com

GMT-5, 2025-3-13 12:45 , Processed in 0.067285 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表