概率图模型

自译了一半的书,据说有中文的要出版了,分享一下http://pan.baidu.com/s/1o6KFfqM

8万多部txt小说,可用于小说推荐引擎开发

逐步公开我们开发的小说推荐引擎,先发第一弹:8万多部txt小说,经过人工排重等整理。下载链接:http://pan.baidu.com/s/1pJ7FUP1 解压密码问梁斌,但不会要真的去问他!

一个深度学习的视频教程

@郑胤THU :我的导师Hugo Larochelle教授的神经网络教程的视频,已经授权我放到优酷上。欢迎大家分享和学习。这个教程涉及到神经网络的基础知识,以及深度学习目前最新的研究进展,是非常好的资料。我也会尽量9月份开始在清华组织神经网络、深度学习相关的学习讨论会,欢迎大家观看和参加!http://t.cn/RhAzUCm

Google《纽约时报》标注数据集

Google公布了一个《纽约时报》标注数据集: http://t.cn/RPsjAyl 训练集包括100,834文件,19,261,118标注实体。 测试集合包括9,706文件,187,080标注实体。Google Code项目链接: http://t.cn/RPsjAyl

360万中文词库包含,词性,词频

来源。互联网上以及个人收藏整理的词库合集。共有词条3669276个。统计了每个词条的词频以及词性信息。尽请down。。 下载地址:http://pan.baidu.com/s/1gdBtsTP 提取码:7s4j

81万词语的互联网词库

链接: http://pan.baidu.com/s/1c0d9ife 密码: dras 内容81万 样例:聊聊天 来聊天 仍然 哪里 历来 老娘 理论基础 连六 来了 拉人 饿偶 那里 内容 纳凉 连累 理念 热闹 哪里人 两人

1-billion-word-language-modeling-benchmark 1.67G

1-billion-word-language-modeling-benchmark-r13output.tar 语言模型词语搭配语料 链接: http://pan.baidu.com/s/1o6jZOtc 密码: x4sb

500w 的公司名录

500w 的公司名录,只包含公司名称 , 用来做组织机构命名实体识别.链接: http://pan.baidu.com/s/1i3l5XDr 密码: 3a1q

某购物网站6w多的商品数据。

某购物网站6w多的商品数据。链接: http://pan.baidu.com/s/1o6DgcNS 密码: vi4l 包括商品名称价钱。以及图片链接地址分类id

Ansj中文分词

Ansj中文是一个基于google语义模型+条件随机场模型的中文分词的java实现.分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上,目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,可以应用到自然语言处理等方面,适用于对分词效果要求搞的各种项目.项目地址:https://github.com/ansjsun/ansj_seg 文档:http://ansjsun.github.io/ansj_seg/

Page 1 of 2 1 2 »