🎉 亲爱的广场小伙伴们,福利不停,精彩不断!目前广场上这些热门发帖赢奖活动火热进行中,发帖越多,奖励越多,快来 GET 你的专属好礼吧!🚀
1️⃣ #TokenOfLove# |广场音乐节打 CALL
为偶像打 CALL,Gate 广场送你直达 Token of Love!泫雅、SUECO、DJ KAKA、CLICK#15 —— 你最想 pick 谁?现在在广场带上 歌手名字 + TokenOfLove 标签发帖应援,就有机会赢取 20 张音乐节门票。
详情 👉 https://www.gate.com/post/status/13214134
2️⃣ #GateTravel旅行分享官# |晒旅程赢好礼
广场家人们注意啦,Gate Travel 已经上线。带话题发帖,分享你的 Gate Travel 旅行体验、心愿清单、使用攻略或趣味见闻,就有机会获得旅行露营套装、速干套装、国际米兰旅行小夜灯等好礼!
详情 👉 https://www.gate.com/post/status/13172887
3️⃣ #内容挖矿# |发帖还能赚钱
广场长期活动进行中,最高可享 10% 手续费返佣!发布优质内容,如行情解析、交易观点等,吸引更多用户点赞和评论。若用户在互动后 180 分钟内完成现货或合约交易,你将获得最高 10% 的手续费返佣!
详情 👉 https://www.gate.
大模型长文本处理能力百倍增长 挑战与机遇并存
大模型厂商争相突破长文本能力
大模型正以惊人的速度不断提升其处理长文本的能力。目前,国内外已有多家顶级大模型技术公司和研究机构将扩展上下文长度作为升级重点。
从4000 token到40万token,大模型的文本处理长度在短时间内实现了百倍增长。OpenAI经过多次升级,将GPT-4的上下文输入长度提升至3.2万token。Anthropic一举将其模型Claude的上下文长度扩展到10万token。国内的月之暗面发布的Kimi Chat更是支持输入相当于40万token的20万汉字。
长文本处理能力的提升不仅意味着模型可以阅读更长的文本,还将推动大模型在金融、法律、科研等专业领域的应用落地。例如,长文档的摘要总结、阅读理解、问答等能力都将得到显著增强。
然而,文本长度并非越长越好。研究表明,模型支持的上下文长度与其效果并不存在直接的因果关系。更重要的是模型如何有效利用上下文内容。
目前,长文本技术面临着文本长度、注意力和算力的"不可能三角"困境。随着文本长度增加,模型难以聚焦关键信息;而保持充分注意力又需要消耗大量算力。
为突破这一困境,研究人员提出了多种解决方案:
利用外部工具辅助处理长文本,如将长文本切分为多个短文本。
优化自注意力机制的计算方式,如LongLoRA技术。
对模型本身进行优化,如LongLLaMA通过微调实现更长序列的外推。
尽管长文本技术仍面临挑战,但它无疑是推动大模型进一步落地应用的关键。未来,大模型厂商需要在文本长度、注意力和算力之间寻找最佳平衡点,以实现长文本处理能力的突破。