那刚才关于生成式对抗网路的思考岂不是等同于白白浪费脑细胞?

当然不是。很多时候思维大概就是在一些漫不经心的思考中获得新的启发的。

关于生成式对抗网路这方面的思考,林灰突然意识到他还有一笔巨额的隐形财富。

那就是前世的人工标注数据。

虽然没太认真翻看前世一同携带来的信息。

但人工标注的数据林灰不可能是没有的。

尤其是前世那些企业级硬盘里面绝对不可能没有人工标注数据。

就算没啥图像的人工标注,涉及到一些文本的人工标注,绝对是不可能少了的。

毕竟这种东西相当实用,而且文本标注其实也不是很占地方。

要知道涉及到神经网路学习训练或者说深度学习训练在模型构建的时候可是需要大量的人工标注数据的。

尤其是监督学习和半监督学习更是需要大量的人工标注数据。

通常一个模型在架构的时候需要很多的人工标注的数据。

在调整的时候也需要很多的人工标注数据。

举这样一个例子:

在图象识别里面,经常我们可能需要上百万的人工标注的数据,

在语音识别里面,我们可能需要成千上万小时的人工标注的数据。

涉及到机器翻译更是需要数千万语句标注数据。

说实话作为一个来自前世往后几年的技术人员。

此前涉及到人工标注数据的价值林灰还真没太当回事。

但现在看来,这玩意的价值此前明显被林灰忽视了。

林灰记得在前世2017年看到的一组数据说得是涉及到人工翻译的话。

一个单词的费用差不多是5—10美分之间,一个句子平均长度差不多是30个单词。

如果需要标注一千万个双语句对,也就是我们需要找专家翻译一千万句话,这个标注的费用差不多是2200万美元。

可以看到数据标注的费用是非常非常高的。

而这仅仅是2017年的数据标注成本。

在现在的话标注成本岂不是意味着更高的数据标注费用?

要知道现在几乎不怎么注重无监督学习。

在无监督学习方面更是几乎没啥可堪一用的模型。

在主流的机器学习依旧是靠监督学习和半监督学习。

而举凡是监督学习和半监督学习基本就离不开人工标注的数据。

以这个角度来衡量的话林灰所拥有的一大批现成的人工标注数据岂不是一笔巨额的隐形财富?

如果说在前世2017年,1000万条双语数据标注就要耗资两千多万美元。

那么在机器学习整体比较滞后的这个时空的2014年。

同样的1000万条双语数据标注需要多少钱呢?

林灰觉得1000万条双语标注数据怎么着也得要个两三亿美元啊。

“两三亿美元”这个数据似乎有点吓人。

但其实也不夸张。

(本章完)

本章未完,点击下一页继续阅读。

都市言情小说相关阅读More+