热门文章
【CNMO新闻】亚马逊计划开源海量与自然语言处理研究相关的数据样本。这家位于西雅图的科技巨头近日表示将在今年九月份发布Topical Chat数据集,这是一个提供给参加Alexa技能挑战赛的队伍使用的众源人类对话数据库。
亚马逊透露Topical Chat数据集由超过21万个语句和410万个词语组成,这使它成为世界上规模最大的公共社会对话和知识数据集之一。数据集中的每段对话和每个对话活动都同相关的知识点相连,而这些知识点是从一系列“非结构化”和“结构松散”的文本资源中收集而来的。
亚马逊高级科学家Dilek Hakkani-Tur在博客中明确指出该数据集中收录的对话里没有Alexa与用户之间的对话。“建立这一数据集的目的是让基于知识的神经反应生成系统下一步的研究工作更加可行,并解决其它开源数据集没有解决的存在于自然对话中的挑战,”Hakkani-Tur说,“这将支持研究者更好地研究人类对话方式以及将事实和意见融入进对话中的能力。”
亚马逊表示参加Alexa Prize大赛的队伍将可以使用该数据集的拓展版本“Extended Topical Chat”,其中囊括了正在进行的数据收集和分类结果。
参与投票
热门文章
努力加载中...
没有更多了
-->
网友评论