想象一下,您正在训练一台具有扎实的词汇量和有关词性基础知识的计算机。它如何理解这句话:“跑到商店的厨师没饭了。”厨师的食物用完了吗?商店了吗?厨师经营着没有食物的商店吗?
大多数说英语的人会立即想到正确的答案,但是即使是先进的人工智能系统也会感到困惑。毕竟,部分句子的字面意思是“商店没有食物了”。
先进的新型机器学习模型已经在这些问题上取得了巨大进展,主要是通过对人类为人工标记的语法,语法和其他语言原理进行人工标注的庞大数据集或“树库”进行训练。
问题在于,树库昂贵且劳动密集型,并且计算机仍然面临许多歧义。取决于句子的结构和上下文,相同的单词集合可能具有截然不同的含义。
但是斯坦福大学的人工智能研究人员进行的一项新研究发现,先进的AI系统可以自己找出语言原理,而无需先练习人类为他们标记的句子。这与人类在成人教语法或语法之前早就学习语言的方式更加接近。
然而,更令人惊讶的是,研究人员发现AI模型似乎可以推断出适用于许多不同语言的“通用”语法关系。
这对自然语言处理产生了重大影响,自然语言处理对于回答问题,翻译语言,帮助客户甚至审查简历的AI系统越来越重要。它还可以促进学习少数人说的语言的系统。
成功的关键?看来,机器通过玩数十亿种让人联想到“疯狂的库巴”的空白游戏,可以学到很多关于语言的知识。为了更好地预测丢失的单词,系统逐渐创建了自己的单词之间如何关联的模型。
“随着这些模型变得越来越大,越来越灵活,事实证明它们实际上是自组织的,可以发现和学习人类语言的结构,” Thomas M. Siebel机器学习教授,语言学和计算机学教授Christopher Manning说。斯坦福大学的科学博士学位,以及斯坦福大学人类中心人工智能研究所(HAI)的副主任。“这类似于人类孩子的行为。”