标签归档:文本分析

中文语料库整理

中文自然语言处理开放平台

由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料。
语料库:  http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15
文本语料库:  http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15

sogou文本分类语料库

文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。
地址:  http://www.sogou.com/labs/dl/c.html

中文Web信息检索论坛

中文Web信息检索论坛(Chinese Web Information Retrieval Forum,简称CWIRF)是由北京大学网络实验室从2004年6月起建立并维护的以大规模中文Web信息为测试集的信息检索研究论坛。

CWT(Chinese Web Test collection, 中文Web测试集):

ComPaper10th
Computer Paper collection with more than 10 thousand papers
CWT70th
     Chinese Web Test collection with 70 thousand pages
     CWT70th顺序读取程序
CWT200g
     Chinese Web Test collection with 200 GB web pages.
     CWT20g_of_200g
     CWT200g样例下载
     CWT200g顺序读取程序

CWT相关工具   

中文网页分类训练集

CCT2006
2006年3月中文网页分类训练集CCT2006, 编号YQ-CCT-2006-03. 根据常见的新闻类别而设定的分类体系,从新闻网站上抓取得到对应 类别的新闻网页作为训练集页面。它包括960个训练网页和240个测试网页, 分布在8个类别中。  下载
CCT2002-v1.1
2002年中文网页分类训练集CCT2002-v1.1, 编号YQ-WEBBENCH-V1.1,  说明 。 是在CCT2002-v1.0 的基础上对类别进行了部分修正. 是2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生, 人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。 它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。  下载

中文网页分类相关工具
1.中科院自动化所的中英文新闻语料库    http://www.datatang.com/data/13484
中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。

2.搜狗的中文新闻语料库    http://www.sogou.com/labs/dl/c.html
包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。

3.李荣陆老师的中文语料库    http://www.datatang.com/data/11968
压缩后有240M大小

4.谭松波老师的中文文本分类语料    http://www.datatang.com/data/11970
不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。

5.网易分类文本数据    http://www.datatang.com/data/11965
包含运动、汽车等六大类的4000条文本数据。

6.中文文本分类语料    http://www.datatang.com/data/11963
包含Arts、Literature等类别的语料文本。

Chinese text processing FAQ 汉语文本处理常见问题及解答

Chinese text processing FAQ 汉语文本处理常见问题及解答

From Corpus4u KnowledgeBase

Jump to: navigationsearch

This FAQ is prepared by Hongying Tao.

  • 分词和汉字之间加空格是一回事吗?
两者不尽相同。分词是以语言的词为单位,汉字之间加空格是以书写符号汉字为单位。
例如:北京是中国的首都。
分词:北京 是 中国 的 首都 。
汉字之间加空格:北 京 是 中 国 的 首 都 。

 

  • 哪些软件可以自动分词?

a) 中科院计算所汉语词法分析系统ICTCLAS
b) Chinese Annotation Tool可在线处理简体汉语文本 Perl 版本
c) 海量智能分词研究版
d) CSW Ver 3.18 中文智能分词, 英文名称:Chinese Split Word 网上演示 软件下载
e) ChineseTA™

 

  • 哪些软件可以自动作编码转换(GB/BIG5/UTF-8/UNICODE=UTF-16)?

a) Multilingual Corpus Tool by Scott Piao, 成批转换
b) WordSmith Tools 4, GB/BIG5 -> UNICODE (UTF-16) 成批转换
c) 南极星 NJ Star 文本转换器, 单个转换
d) Chinese Annotation Tool 可在线处理简体汉语 文本, 单个转换 Perl版本
e) MS Word/Notepad, 单个转换

 

  • 哪些软件可以把汉字文本自动转成汉语拼音文本?

a) 南极星 NJ Star 文本转换器, 单个转换
b) Chinese Annotation Tool 可在线处理简体汉语文本, 单个转换 Perl 版本
c) MS Word (Asian Language Layout), 单个转换

 

  • 哪些软件可以把MS Word文件自动成批转换成ASCII纯文本(.txt)?

a) MS Word“转换向导” 模板 (Batch Conversion Wizard.)
b) WordSmith Tools 4, Text Converter.

 

  • 哪些软件可以把多个纯文本(.txt)文件合并成一个大文件?

a) 文本文件合并器
b) WordSmith Tools 4, File Utilities.

 

  • 哪些软件可以把一个大纯文本(.txt)文件分割成多个文件?

WordSmith Tools 4, File Utilities.

 

  • 哪些软件可以把HTML文件自动成批转换成ASCII纯文本(.txt)?

HTML2TXT

 

  • 如何利用MS Word辅助加码 (mark up, tagging)?

 

  • 如何利用Excel计算各类语词共现数据(T-Score, MI, Z-score)?

 

  • 哪些软件可以进行关键词索引(KWIC concordancing)检索?

经过“分词”处理的汉语纯文本文档可以借助常见的索引工具(concordancer)进行检索。其他的方法有WordConcord. 经过“分字”处理的汉语纯文本文档也可以借助常见的索引工具进行检索,但效果稍差,因为没有词的单位为依据。没有经过“分词”和“分字”处理的汉语文档在进行关键词索引时要么常常出错,要么根本无法进行。

 

  • 有没有不用分词处理便可以进行汉语关键词(KWIC concordancing)检索的软件?

目前见到的不用分词处理便可以进行汉语关键词检索的软件主要是两种:PowerGREP 和 ConcApp北京语言文化大学开发的检索工具。

 

  • 现代汉语通用汉语生语料语言学属性检索统计系统(Chinese Corpus Retriever for Linguistic Attributes)CCRL V1.0

CCRL是国内外第一个可以对汉语生语料进行语言学属性检索的软件,可为语言学研究和语言教学提供有力支持。其特点是: 1、直接检索任何汉语生语料。 2、可进行字串、词串、语言学属性检索,也可以混和检索。 3、检索软件同词库、词的属性体系、词库中词的属性标注皆相互独立。即用户可以创建自己的词库、词的属性体系,自己在词库中进行词的属性标注, 该软件将使用这些数据把用户选定的生语料加工成索引并进行检索。 4、检索方式灵活,检索快速准确,检索结果可按上下文排序。 5、自动进行任何汉语文本的字频、词频统计,词频统计中包括人名、地名、机构明、数字等未登录词的统计。

 

  • What kind of program can we rely on for Chinese ngrams?

AntConc (version 3.1 or above).

 

A Corpus Worker’s Toolkit (ACWT) is a collection of NoteTab clips and Perl scripts for Chinese and English text processing. They can do some quick and dirty corpus/discourse linguistic work for those who can otherwise not afford sophisticated yet expensive commercial software programs. Most of these tools function like macros in word processing programs, but they can do much more and work in a simple text processing environment.