等不到结尾?没关系,AI来填坑了

时间:2019-08-12 来源:www.sftailgate.com

澳门bbin网站在线

166a393e923d902104080c139bab4584.jpeg

生成大数据摘要

编译:林淼

追逐小说最害怕的是什么?未完成的!什么比未完成的尾巴更可怕?作者撰写并撰写了关于废弃坑的文章。现在,有一个AI只能为给定的故事创造一个多样化的结局。

OpenAI的GPT-2是一个非常高级的自然语言处理系统。当相同类型的其他AI正在努力研究它们之前和之后是否“连贯”以及“它是否足以成为人类”时,它已经可以被使用了。产生一种高度拟人化的言论。

在一般AI创建的故事结束时,应用了类似的通用模板,并且内容缺乏连贯性。为了克服这个明显的缺点,卡内基梅隆大学计算机科学学院的科学家们设计了一种新的方法。这种方法的关键是将训练模型集中在故事的重要短语上,并促进特定词汇的产生。

相关研究论文链接

“所谓的故事背景实际上是一系列连接特征和事件的句子。这个任务的难点在于模拟上下文的特征,事件和其他对象,然后基于这个模型,产生一个逻辑和一致的结论。整个故事中事件,其他实体及其关系的语义提取是一项非常困难和重要的任务。“合作者指出,“我们的研究表明,两者结合可以产生更多样化和有趣的故事结局。”

5dd3fa127a08a53031e68f5c6abf8f83.jpeg

研究中使用的模型的部分输出

团队使用seq2seq翻译模型(能够学习依赖性的长期记忆深度神经网络)在目标故事的背景下形成词汇的数学表示,然后训练这些词的关系,然后将它们重新翻译成人类。阅读文本。

为了整合和吸收故事中的关键词组,研究人员使用RAKE算法提取,并根据短语中单词的词频和共现率进行评分,然后根据该词进行手动分类。相应的分数。只有达到特定阈值的短语才被认为是重要的。

为了产生结果,研究人员在ROCStories语料库上训练了该模型,该语料库涵盖了超过50,000个五字微词。

5a251fb517af2aeb5c28573c152be16b.jpeg

为了评估训练模型的质量,研究人员首先使用DIST(distinct)命令计算得到的一元语法(unigram,给定样本中n个对象的连续序列),二进制语法的数量(bigram,a一对相邻的书写单位,如字母,音节或单词)和三元语法(三元组,三个相邻的书面单位),然后是总一元语法中的数字,二元语法和三元语法中的比例作为衡量标准。

在另一项独立测试中,研究人员使用开源的Story-Cloze任务(故事常识阅读理解任务)来训练Google的BERT模型并将其与基准水平进行比较。任务要求是,基于给定上下文的四个句子,可以从前四个句子中导出选择两个候选句子中的哪一个。

那么人工智能的表现是什么?不应该获得普利策奖。

a14b8b222aec1676c5d0b860a7c63f3f.jpeg

尽管这个模型在DIST中表现得非常好,并且在Story-Cloze测试中达到了72%的准确率,但它偶尔会产生一些不合理的结局,例如“凯蒂被自己震惊并被遗弃。她的男朋友,或引用一些与之不相符的代词名词(凯蒂是女人的名字,与自己相矛盾)。

研究人员承认,为了确保输出“在故事的背景下保持语义和某个水平”并且在逻辑上是一致的,需要进一步的研究。尽管如此,他们坚持认为他们已经展示了“定量”和“定性”观点,他们的模型能够在基线水平上实现“显着”改进。