科幻其他历史玄幻都市
首页 > 玄幻魔法 > 重回1990:我的科技强国路 > 第249章 国產训练集数据遇法律爭议

第249章 国產训练集数据遇法律爭议

⚡ 自动翻页 开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽 看到章尾自动进入下一章,追书不用一直点。

  长桌上堆满了厚厚的文件夹,每本都贴著不同顏色的標籤,红色代表诉讼文件,黄色代表监管函,蓝色代表內部调查报告。

  周明坐在主位,这位法务风控负责人的脸色从未如此凝重。他面前摊开著一份刚刚送达的法律文书,封面上印著某欧罗巴国家数据保护监管机构的徽章,下方是一行醒目的標题:“关於涉嫌违反通用数据保护条例(gdpr)的调查通知”。

  会议室里坐著七个人:周明和他的三位核心法务,赵静和两位“小芯”数据团队的负责人,还有一位从外部聘请的欧罗巴数据合规专家。

  “情况比预想的严重。”周明开口,声音有些沙哑,“这不仅是欧盟数据保护委员会(edpb)的调查,我们还收到了三家欧罗巴非政府组织的联合起诉,指控我们在训练『小芯』大模型时,非法收集和处理了欧盟公民的个人数据。”

  赵静眉头紧锁:“我们的数据收集流程严格遵守了开源数据的使用规范,所有训练数据都经过了严格的清洗和去標识化处理。怎么还会涉及gdpr违规?”

  周明调出起诉书的关键段落:“问题出在数据来源的合法性上。根据起诉方的指控,我们使用的部分英文数据集,包含了从欧罗巴网站爬取的公开论坛討论、產品评论、社交媒体內容。虽然这些数据是公开的,但根据gdpr,即使是公开数据,只要能够识別到特定自然人,就属於个人数据,处理需要法律依据。”

  他翻到下一页:“更麻烦的是,起诉方声称我们有『隱蔽爬取』行为,使用技术手段绕过网站的robots.txt协议限制,大量抓取数据。这在欧罗巴某些国家的判例中,可能构成『不正当竞爭』或『侵犯网站运营者权益』。”

  会议室里一片沉默。所有人都知道这个问题的严重性。如果指控成立,未来科技可能面临巨额罚款,gdpr规定的罚款上限是公司全球年营业额的4%,对未来科技来说,这可能是数十亿的数额。

  更重要的是,市场声誉的损失將无法估量。一家被认定为“非法收集数据”的ai公司,將很难在国际市场,特別是对数据隱私极度敏感的欧罗巴市场继续发展。

  “我们有什么辩护依据?”赵静问。

  法务团队的一位资深律师回答:“我们主要依据三点。第一,数据用於学术研究和ai模型训练,属於gdpr第89条规定的『科研例外』。第二,所有数据都经过严格的去標识化处理,无法关联到具体个人。第三,我们的数据收集符合国际通行的合理使用原则。”

  “但起诉方反驳说,『小芯』是商业產品,不属於纯粹的学术研究。”周明补充,“而且他们请了技术专家作证,声称当前的去標识化技术並非绝对可靠,结合其他公开数据,仍有重新识別的风险。”

  欧罗巴数据合规专家,一位五十多岁、曾在欧盟委员会工作过的德国律师,这时开口:“在gdpr的实践中,『科研例外』的適用条件非常严格。需要证明数据处理『与公共利益高度相关』,且『没有其他对数据主体权利影响更小的方式』。法院可能会认为,商业公司训练大模型不符合这个標准。”

  他调出欧罗巴近期的几个相关判例:“更重要的是,最近欧罗巴法院对数据爬取的態度越来越严格。上个月一个类似案件,法院判决即使数据是公开的,大规模商业性爬取也需要获得明確授权。这个判例对我们非常不利。”

  赵静感到一阵无力。她回想起“小芯”3.0的数据收集过程,確实包含了从公开网络抓取的大量语料。当时团队的主要精力放在数据质量和多样性上,法律合规虽然考虑了,但更多是基於国內法规和国际通行做法,没有深入分析每个数据源所在司法管辖区的特殊规定。