数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

OpenAI数据收集新策略:转录百万小时YouTube视频

2024-04-07来源:数据世界编辑:星辉

【数据世界网】4月7日消息,近日,AI公司在收集高质量训练数据方面遇到的难题引起了广泛关注。本周早些时候,《华尔街日报》曾报道过这一挑战,而今日,《纽约时报》则深入揭示了AI公司如何应对这一挑战,其中涉及的内容引发了关于AI版权法的讨论。

为了解决训练数据的迫切需求,OpenAI开发了一种名为Whisper的音频转录模型。该模型被用于转录超过100万小时的YouTube视频,以训练其最新一代的大型语言模型GPT-4。这一举措显示出OpenAI在寻找新数据源方面的决心和创新。

据数据世界了解,OpenAI在2021年就已经耗尽了其原有的有用数据供应。在探索新的数据源时,公司讨论了转录YouTube视频、播客和有声读物的可能性。除此之外,OpenAI还广泛利用了其他资源,如Github上的计算机代码、国际象棋走棋数据库以及Quizlet的作业内容,以丰富其训练数据。

尽管OpenAI意识到这种做法在法律上可能存在问题,但他们认为这是对数据的合理使用。《泰晤士报》披露,OpenAI的总裁Greg Brockman甚至亲自参与了所使用视频的收集工作,足以显示公司对这一举措的重视程度。

OpenAI的发言人Lindsay Held向The Verge透露,公司为每个模型都策划了“独特”的数据集,旨在“帮助他们了解世界”,并保持其在全球研究领域的竞争力。Held还表示,公司正在考虑生成自己的合成数据,并使用“众多来源,包括公开数据和非公开数据的合作伙伴”来丰富其数据集。

然而,这一做法并非没有争议。谷歌发言人Matt Bryant在回应相关报道时指出,谷歌“看到了有关OpenAI活动的未经证实的报告”,并强调“我们的robots.txt文件(网站与爬虫间的君子协定)和服务条款都禁止未经授权的抓取或下载YouTube内容”。与此同时,YouTube首席执行官Neal Mohan也在近日警告称,尽管没有直接证据表明OpenAI使用YouTube视频来训练其文本生成视频的AI模型Sora,但这种行为违反了YouTube现行的平台服务条款。

在数据使用的问题上,meta也面临着类似的挑战。在《泰晤士报》曝光的一段录音中,meta的AI团队为了迎头赶上OpenAI,讨论了未经许可使用版权作品的情况。该公司在考察了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后,正在考虑采取一系列措施来应对数据使用问题,如支付图书许可费用,甚至直接收购一家大型出版商。

免登录时代来临 ChatGPT降低使用门槛
【数据世界网】4月2日消息,OpenAI开放ChatGPT免登录使用OpenAI于4月2日宣布,其旗下的人工智能聊天机器人ChatGPT将进一步降低使用门槛,允许无账号用户直接访问并与之交互。此项新政策即刻在部分地区生效,并将在未来逐步推广至全球。根据OpenAI的官方声明,此次调整旨

2024-04-02

澜舟科技开源Mengzi3-13B模型 助力学术研究与商业应用
【数据世界网】4月1日消息,澜舟科技近期宣布了重大进展,将Mengzi3-13B模型进行开源,这一举措不仅为学术研究提供了更为广阔的探索空间,同时也为企业免费商用提供了强有力的支持。据了解,相较于今年早些时候发布的孟子大模型GPT V2系列,Mengzi3-13B在数据集质量上实

2024-04-01

阿里云与联发科携手 将通义千问大模型推向全球手机市场
【数据世界网】3月28日消息,全球知名的智能手机芯片制造商MediaTek联发科在其最新旗舰产品——天玑9300系列芯片上取得了重大突破,成功集成了通义千问大模型。这一创新性的举措意味着大模型技术首次在手机芯片领域实现了深度适配,为移动设备的智能化发展揭开了新的篇

2024-03-28

亚马逊加码投资Anthropic 生成式AI竞赛再升温
【数据世界网】3月28日消息,亚马逊正进行其成立30年以来最大的一笔外部投资,旨在人工智能领域抢占先机,再次对位于旧金山的人工智能初创企业Anthropic进行27.5亿美元的投资。据数据世界了解,这是亚马逊在短短几个月内对Anthropic的第二次大额投资,早在去年九月,亚

2024-03-28

Sora模型背后巨大的成本:OpenAI需216亿美元及庞大电力支撑
【数据世界网】3月27日消息,市场调查机构Factorial Funds在最新发布的报告中指出,OpenAI所部署的文本转视频模型Sora在需求高峰时期,竟需要高达72万片的英伟达H100 AI加速卡以满足其运算需求。报告详细分析了这项需求所带来的成本压力。以每片英伟达H100 AI加速卡3万

2024-03-27

百度宣布成为苹果国行iPhone16等AI功能独家供应商 市场看好其AI实力
【数据世界网】3月25日消息,百度今日宣布将为即将发布的国行iPhone16、Mac系统以及iOS18提供AI功能,这一消息迅速在科技界引起热烈讨论,市场反应积极。在消息发布后,百度股价直线上升,显示出投资者对百度此举的高度认可。据悉,由于合规问题,苹果决定在国行iPhone

2024-03-25