除此之外还有公认专家的观点,某些领域的顶级专家,若其观点被广泛接受并引用,那么他们的发言、书籍、演讲等也常被看作权威语料。例如,诺贝尔奖得主、领域内的领军人物等,他们的公开言论往往能对学术界或公众产生重要影响。」
本小章还未完,请点击下一页继续阅读后面精彩内容!
虽然包含很多类别,但其实真正训练的时候政府机构、国际组织的文件虽然权威性更高,但这类数据的一半不会被允许大范围的用于语料训练,而如果想要在语料训练中使用权威语料,只能在顶尖的学术期刊、顶尖学术机构出版物、专业机构的声明和报告以及公认专家的观点这些上面做文章。
而像顶尖的学术期刊、顶尖学术机构出版物、专业机构的声明和报告以及公认专家的观点这些往往因为利益掺杂在一起,基本就混同成为顶尖学术综合体,这些东西对外就是一个声音,是掺杂在一起的。
想要谋求权威数据基本绕不开这样的顶尖学术综合体。
其实较真的说,如果不用这些权威语料去做语料标注是否就一定会影响语料标注的结果呢?
是否就一定会影响自然语言处理模型的性能、可靠性和泛化性呢?
还真未必,甚至有可能做得更好。
但是呢,你不去用这些顶尖学术综合体搞出来的权威语料,当你用一般来源的语料即便是搞出模型的,这些模型总要去谋求商用吧。
等你追求商用的时候呢,这些顶尖学术综合体利益受损之下,完全是可能跳出来说你语料未使用权威语料的,然后给你扣上各种诸如标注质量差、模型偏差、泛化能力差之类的帽子,对你横加指责。
然后跳出来各种审查安排一波。
很多商业产品时效性都是很关键的,别管没完没了的审查结果如何,基本也就凉凉了。
总之,别管实际模型能力如何,说你行你就行,说你不行你就不行。
这就是学术垄断的威力,躺着赚钱。
而且还是赚非常多的钱。
操作得好搞个十几亿美元几十亿美元不在话下。
像是那种很有名的权威语料库,早期的时候调用费用超级昂贵。
而对于一些顶尖高校来说搞出这种权威语料库还真不是什么难事。
有机会的可以操作一波。
不过只能留待以后了。
以林枫现在的实力还不够平起平坐跟这些顶尖学术体谈什么合作的。
现在林枫如果算一卦的话。
估计也是九二,见龙在田。
此时此刻对于林枫来说蓄势才是最重要的事情。
这之后林枫又开始专注于黑客攻击的学习。
越学林枫越感觉自己刑,太刑了。