CNMO > 新闻中心> 互联网新闻> 互联网消息 > 正文

亚马逊将发布海量数据集供Alexa技能挑战参赛队使用

2019-04-03 10:45 陈祥凯抢沙发

　　【CNMO新闻】亚马逊计划开源海量与自然语言处理研究相关的数据样本。这家位于西雅图的科技巨头近日表示将在今年九月份发布Topical Chat数据集，这是一个提供给参加Alexa技能挑战赛的队伍使用的众源人类对话数据库。

亚马逊Alexa

　　亚马逊透露Topical Chat数据集由超过21万个语句和410万个词语组成，这使它成为世界上规模最大的公共社会对话和知识数据集之一。数据集中的每段对话和每个对话活动都同相关的知识点相连，而这些知识点是从一系列“非结构化”和“结构松散”的文本资源中收集而来的。

　　亚马逊高级科学家Dilek Hakkani-Tur在博客中明确指出该数据集中收录的对话里没有Alexa与用户之间的对话。“建立这一数据集的目的是让基于知识的神经反应生成系统下一步的研究工作更加可行，并解决其它开源数据集没有解决的存在于自然对话中的挑战，”Hakkani-Tur说，“这将支持研究者更好地研究人类对话方式以及将事实和意见融入进对话中的能力。”

　　亚马逊表示参加Alexa Prize大赛的队伍将可以使用该数据集的拓展版本“Extended Topical Chat”，其中囊括了正在进行的数据收集和分类结果。

文章标签：亚马逊 Alexa 数据集

参与投票

网友评论

发布

亚马逊将发布海量数据集 供Alexa技能挑战参赛队使用

亚马逊将发布海量数据集供Alexa技能挑战参赛队使用