Facebook 宣布开源了一个名为 Casual Conversations 的集旨视频数据集,旨在帮助研究人员评估其计算机视觉和音频模型在各种年龄、消除性别、开源明显的数据肤色和周围光线条件下的准确性,以消除 AI 偏见。集旨
Casual Conversations 中包含了 3011 名参与者的消除 45000 多个视频,均匀分布了不同的开源性别、年龄段和肤色。数据Facebook 要求其中的集旨付费参与者提交视频并自己提供了年龄和性别标签,以尽可能地消除误差。
此外,Facebook 还为 Casual Conversations 招募了一些训练有素的注释员。这些注释员在每个视频中标注了光照水平,以帮助衡量 AI 模型在低光环境条件下如何对待不同肤色的人。并根据 Fitzpatrick 量表对参与者的肤色进行了标记。Fitzpatrick 量表是美国皮肤科医生 Thomas B. Fitzpatrick 在 1975 年开发的一种肤色分类模式,根据皮肤类型对紫外线的反应进行了概括分类,包括了 I 型(总是灼伤而从不晒黑的苍白皮肤)到 VI 型(从不灼伤的深色素皮肤)。
Facebook 的 AI 团队指出,其新的 Casual Conversations 数据集除了准确性测试外,还应该作为一种辅助工具,用于衡量数据集所代表的社区的计算机视觉和音频模型的公平性。
目前,虽然该数据集已经提供给开源社区使用,但 Facebook 也指出,Casual Conversations 仍有其局限性。例如,其只提供了”男性“、”女性“和”其他“的性别标签选项,而没有包含那些认定为非二元的之类的性别。
该公司表示,在接下里的一年左右的时间里,其将继续探索扩大这一数据集的途径,使其更具包容性,代表的内容包括更广泛的性别认同、年龄、地理位置、活动和其他特征。
详情可查看
本文转自OSCHINA
本文标题:Facebook 开源数据集,旨在消除 AI 偏见
本文地址:https://www.oschina.net/news/136989/facebook-casual-conversations-dataset
责任编辑:未丽燕 来源: 开源中国 Facebook开源AI(责任编辑:百科)
国家统计局:10月份货物进出口总额33357亿元 出口19408亿元
“放水养鱼”式管理激发市场活力 安徽降本减负典型经验做法获点赞
恒指将迎来重大变化:阿里、美团及小米8月可纳入成份股选股范围
金富科技(003018.SZ)2020年度净利润降14.99% 基本每股收益0.44元