No menu items!

    FT:DeepSeek新模型延后问世 问题出在华为芯片 还是得靠辉达

    中国媒体报导指出,DeepSeek的R2模型可能最快在未来数周内发布。(路透)

    中国人工智能(AI)公司深度求索(DeepSeek)使用华为芯片训练发生困难,被迫延后发表新模型,可见中国推动自家技术来取代美国面临瓶颈。

    英国金融时报引述知情人士报导,DeepSeek今年1月推出R1模型后,在主管机关鼓励下改用华为升腾处理器(Ascend)来取代Nvidia辉达(另称英伟达)芯片。

    但这家中国新创公司以升腾芯片训练R2模型时持续遭遇技术问题,不得不改用辉达芯片来训练,华为芯片则用于推理(inference)。报导指出,这正是新模型原定5月发表却延后的主因。

    金融时报引述中国业界人士指出,中国芯片在稳定性、芯片间连接速度和软件水准方面都不如辉达的产品。

    据报导,华为曾派出工程团队进驻 DeepSeek办公室,协助该公司使用升腾芯片开发R2模型。但知情人士说,即使华为驻点支持,DeepSeek仍未能在升腾芯片上成功完成一次训练。

    据知情人士透露,DeepSekk创办人梁文峰曾在公司内部对R2进展表达不满,并力促团队投入更多时间打造更先进的模型,以维持该公司在AI领域的优势。

    据报导,R2延后问世,也跟新版模型数据标记(data labeling)作业超过预期有关。中国媒体报导指出,R2模型可能最快在未来数周内发布。

    加州大学柏克莱校区AI研究员 Ritwik Gupta 说:「模型就像商品,很容易被替换。许多开发者现在都在用阿里巴巴的「通义千问3」(Qwen3),功能强大又灵活。」

    古普塔指出,通义千问3采用了DeepSeek的内核理念,例如能让模型具备推理能力的训练算法,但在使用效率上做得更好。

    热点

    发表评论