8万多部txt小说,可用于小说推荐引擎开发

逐步公开我们开发的小说推荐引擎,先发第一弹:8万多部txt小说,经过人工排重等整理。下载链接:http://pan.baidu.com/s/1pJ7FUP1 解压密码问梁斌,但不会要真的去问他!

Google《纽约时报》标注数据集

Google公布了一个《纽约时报》标注数据集: http://t.cn/RPsjAyl 训练集包括100,834文件,19,261,118标注实体。 测试集合包括9,706文件,187,080标注实体。Google Code项目链接: http://t.cn/RPsjAyl

360万中文词库包含,词性,词频

来源。互联网上以及个人收藏整理的词库合集。共有词条3669276个。统计了每个词条的词频以及词性信息。尽请down。。 下载地址:http://pan.baidu.com/s/1gdBtsTP 提取码:7s4j

1-billion-word-language-modeling-benchmark 1.67G

1-billion-word-language-modeling-benchmark-r13output.tar 语言模型词语搭配语料 链接: http://pan.baidu.com/s/1o6jZOtc 密码: x4sb

500w 的公司名录

500w 的公司名录,只包含公司名称 , 用来做组织机构命名实体识别.链接: http://pan.baidu.com/s/1i3l5XDr 密码: 3a1q

某购物网站6w多的商品数据。

某购物网站6w多的商品数据。链接: http://pan.baidu.com/s/1o6DgcNS 密码: vi4l 包括商品名称价钱。以及图片链接地址分类id

梁斌penny分享的百度百科100g语料

梁斌penny分享的百度百科100g语料 感谢梁斌penny 同学无私的奉献,i希望没有侵权呵呵。goodluck ,链接: http://pan.baidu.com/s/1i3wvfil 密码: neqs

数据堂下载的NLP相关语料

内容不少,nlp业者可以看看 链接: http://pan.baidu.com/s/1kTwYMRt

一些分好类的百度百科词条

一些分好类的百度百科词条/ 链接: http://pan.baidu.com/s/1sjucV17 密码: zldm

Page 1 of 1 1