不过换到现在这个时空节点林灰显然不能跟别人研究人员说他用的是现成的预料库。

毕竟一些现成的语料库基本都是16年左右才问世的。尽管如此,如何解释语料库来源的问题难不倒林灰。

事实上即便没有现成的语料库,想要构建一个可堪一用的能调/教出早期生成式摘要算法的语料库也不是太复杂。

最简单的方式——借助互联网可以自动构建文本语料库。

当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。

而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。

从每个网站中筛选出用户所需要的文本作为候选语料。

这个过程其实不复杂,有点类似于爬虫抓取网页的过程。

比较困难的是这种方法形成的语料库如何去噪。

但这对于林灰也不是问题。

只需要将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库。

而后再对候选语料库中每个类别下的文本进行去噪处理就可以提高语料库的质量。

在完成去噪之后就可以输出语料库。

虽然这个过程实现起来仍旧不容易。

但学术领域上除了个别被孤立的杠精喜欢钻牛角尖之外。

大多数情况下只要逻辑自洽就没人死磕。

除了好奇林灰是如何构建语料库之外。

涉及到“使用相似度模型评估文本和摘要之间的语义相关性”

伊芙·卡莉比较好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的。

额,这个问题就比较涉及到林灰搞定的文本摘要准确度模型最核心的东西了。

关于这个问题的答案就不是三言两语能说得清的了。

(本章完)

本章未完,点击下一页继续阅读。

都市言情小说相关阅读More+