2020年8月13日

大卫bamman赢得了人文授予国资

多语种booknlp:建立跨语言文学NLP管道

大卫bamman的 booknlp项目,它提供了大规模的文本分析,目前只适用于英文文本,将接收 从全国捐赠为人文资助 (尼)扩大其范围,以包括德语,日语,俄语和西班牙语。

自然语言处理(NLP)使用计算机来分析,理解和实现人类语言的意思。 bamman的booknlp是一个训练有素的系统,该系统计算分析文本的语言结构。因为它是专为文学是独特的,适合于分析人物和他们的行动。最NLP方案为报纸或网上的新闻报道进行了优化,不轻易借给自己小说的分析。 

bamman说,这个想法开发语言booknlp英语以外的对话,通过他与其他语言的德语,俄语,以及一系列的文本工作的研究人员曾就有关;他们使用booknlp英语,想用自己的语言类似的事情来使用。

“人在计算人文想要使用这些工具来了解一些皇冠体育文学史或文学理论,如果他们把那名新闻优化工具,它只是不工作以及相当,” bamman说。 

bamman的booknlp已被证明是一个改变游戏规则在计算人文世界。

booknlp已被证明是一个改变游戏规则在计算人文世界:它被用来衡量 给字符作为他们的性别功能的关注量,分析人物和文学流派之间的关系,并在由美国黑人作家写的小说表征位置 黑书的互动项目。通过扩大语言的范围,bamman希望在文学的计算研究,以促进新的研究。

该项目将被细分为三个长达一年的阶段,由专家(两个在每种语言)用自己的语言和它的文学的深入了解,以及使用计算方法来推动文学查询丰富的经验,面板建议。

在今年1,bamman和研究生研究员将建设一个共同的多语种booknlp架构,可用于为所有语言定制的基础工作。第一阶段将重点建设一个功能booknlp系统为一个共同的基础设施中的每一种语言。在第2年,重点将放在改善多语言系统;而今年3将集中在记录在头两年的项目中使用,以使他人建立和火车booknlp系统附加语言的过程和测量有关使用跨越多种语言booknlp性格的原因。 

“我知道有很多人使用booknlp分析英国文学,很显然,如果我是把它扩大到其他语言,它可以有更大的影响,” bamman说。 “因为有一个需求,那我在跨语言对比分析的我自己的兴趣,这似乎是一个自然的下一步。”

最近更新时间:

2020年8月14日