|
本帖最后由 老棕熊 于 2025-1-28 10:18 编辑
中国杭州的DeepSeek现在引起全世界的关注,川普总统甚至因此发表讲话。亚特兰大熊哥为此专门采访了硅谷著名AI专家凌棕博士,凌博士在AI领域深耕30年,是IBM的科学家。
熊哥:那么到底DeepSeek,是创新?还是仅仅是复制?
凌博士:複製爲主,創新爲輔
熊哥:有哪些创新?
凌博士:算法创新,就是蒸馏
熊哥:超越了ChatGPT了吗?
凌博士:目前没有
熊哥:成本只有600万,这数据可信吗?
凌博士:有水分,但一定比openai低
熊哥:因为蒸馏,可以这样说,没有ChatGPT等美帝的LLM就没有DeepSeek?
凌博士:当然。先有鸡
熊哥:在性能上,是否超越了ChatGPT?
凌博士:全面,没有。区部,可能
熊哥:区部是不是指在具体的domain的升华?
凌博士:中文,古文,语境。。。。。
熊哥:DeepSeek靠算法,可以走得远吗?
凌博士:不可能。算力瓶颈已在
熊哥:所以DeepSeek仍然不算基础研究,而是在应用方面的突破?
凌博士:还没有应用呢。。。。。只是铺路
熊哥:现在用ChatGPT更可靠,还是用DeepSeek更可靠?
凌博士:chatgpt
熊哥:可不可以这样理解,DeekSeek 的低成本研发,震惊了西方,但是性能上,前景上,仍然和ChatGPT有很大差距?
凌博士:就是如此
熊哥:Did They Really Create a New AI Model?
凌博士:Technically, yes, but fundamentally, no. Deepseek essentially reverse-engineered ChatGPT by bombarding it with an extensive array of prompts, capturing its outputs to mimic its functionality.
采访结束,凌博士分享了下面文稿:
“蒸馏”技术的核心思想
教师模型: 通常是一个大型、复杂且性能优异的模型,经过大量数据训练。
学生模型: 一个较小、简单的模型,旨在学习教师模型的知识。
蒸馏过程: 学生模型通过模仿教师模型的输出(通常是软目标,即概率分布)来学习。
为什么蒸馏有效?
知识浓缩: 教师模型学到的丰富知识可以被压缩到学生模型中。
加速训练: 学生模型通常更容易训练,可以节省计算资源。
提高泛化能力: 蒸馏可以帮助学生模型在新的数据上取得更好的性能。
学生模型能否超越教师模型?
答案是:有可能。
教师模型的局限性: 教师模型可能在某些方面存在过拟合、偏见或其他问题。
学生模型的创新: 学生模型可以通过不同的架构、优化算法或训练策略来弥补教师模型的不足。
任务的差异: 在不同的任务上,学生模型可能表现出比教师模型更好的性能。
具体情况取决于以下因素:
教师模型的质量: 教师模型的性能越好,蒸馏的效果就越好。
学生模型的设计: 学生模型的架构、参数数量等都会影响其性能。
蒸馏方法: 不同的蒸馏方法会产生不同的结果。
数据集: 数据集的质量和规模也会影响模型的性能。
还有:
1. 语义级别的深度理解
传统 vs. 深度语义搜索:传统搜索方法通常基于关键词匹配,而 DeepSeek 通过深度学习模型(如 Transformer 或 GPT 系列)实现对文本的语义理解。它可以识别用户查询与内容之间的语义相关性,而不仅仅是词面的匹配。
多语言支持:DeepSeek 可能支持多语言并通过语义层面连接跨语言内容,无需翻译即可实现精准匹配。
2. 跨模态数据检索
DeepSeek 不局限于文本数据,还能整合图像、音频、视频等多种数据类型,通过统一的向量空间实现跨模态的检索。例如,你可以通过文本描述搜索图片或视频内容。
这种功能特别适合于需要高效多模态内容管理的领域,例如媒体行业或多模态推荐系统。
3. 深度个性化与推荐
DeepSeek 能够根据用户的历史行为、兴趣偏好以及上下文动态调整搜索结果。
通过强化学习优化搜索算法,确保用户体验的持续改进。
4. 高效的向量化索引
通过生成高维语义向量(embedding)并使用高性能向量数据库(如 Milvus、FAISS),DeepSeek 能够以极低的延迟检索海量数据。
同时,它还支持快速的增量学习和动态数据更新,无需完全重建索引。
5. 上下文感知能力
DeepSeek 可以结合用户的对话历史或上下文,为每一次查询提供更具相关性和上下文感知的结果。
这种功能对动态对话场景尤为重要,例如智能客服或实时问答系统。
6. 端到端解决方案
DeepSeek 提供从数据收集、清洗、建模到搜索的全流程解决方案,并与企业已有系统无缝集成。
它支持高度可定制化,企业可以根据特定的业务需求设计个性化搜索逻辑。
7. 大规模并行计算与优化
借助 GPU 和分布式计算,DeepSeek 可以在海量数据集上高效运行,同时通过模型剪枝、量化和分布式架构优化,减少计算资源的消耗。
8. 实时性与交互性
不仅支持静态的批量查询,还支持实时搜索与动态更新,适用于需要频繁查询更新的场景,比如金融数据分析、新闻推送等。
9. 可解释性
DeepSeek 引入了可解释性机制,能够向用户清晰展示搜索结果的来源与推荐理由。这在决策关键的领域(如医疗、法律)非常重要。
10. 领域定制与迁移学习
通过迁移学习,DeepSeek 可快速适配于不同垂直领域的数据集(如法律、医学、金融等),显著缩短模型训练和优化时间。
11. 隐私保护与安全性
DeepSeek 采用联邦学习等技术确保数据隐私,同时实现分布式数据训练和检索,避免敏感信息泄露。 |
|