Chinese text processing FAQ 汉语文本处理常见问题及解答

Chinese text processing FAQ 汉语文本处理常见问题及解答

From Corpus4u KnowledgeBase

Jump to: navigationsearch

This FAQ is prepared by Hongying Tao.

  • 分词和汉字之间加空格是一回事吗?
两者不尽相同。分词是以语言的词为单位,汉字之间加空格是以书写符号汉字为单位。
例如:北京是中国的首都。
分词:北京 是 中国 的 首都 。
汉字之间加空格:北 京 是 中 国 的 首 都 。

 

  • 哪些软件可以自动分词?

a) 中科院计算所汉语词法分析系统ICTCLAS
b) Chinese Annotation Tool可在线处理简体汉语文本 Perl 版本
c) 海量智能分词研究版
d) CSW Ver 3.18 中文智能分词, 英文名称:Chinese Split Word 网上演示 软件下载
e) ChineseTA™

 

  • 哪些软件可以自动作编码转换(GB/BIG5/UTF-8/UNICODE=UTF-16)?

a) Multilingual Corpus Tool by Scott Piao, 成批转换
b) WordSmith Tools 4, GB/BIG5 -> UNICODE (UTF-16) 成批转换
c) 南极星 NJ Star 文本转换器, 单个转换
d) Chinese Annotation Tool 可在线处理简体汉语 文本, 单个转换 Perl版本
e) MS Word/Notepad, 单个转换

 

  • 哪些软件可以把汉字文本自动转成汉语拼音文本?

a) 南极星 NJ Star 文本转换器, 单个转换
b) Chinese Annotation Tool 可在线处理简体汉语文本, 单个转换 Perl 版本
c) MS Word (Asian Language Layout), 单个转换

 

  • 哪些软件可以把MS Word文件自动成批转换成ASCII纯文本(.txt)?

a) MS Word“转换向导” 模板 (Batch Conversion Wizard.)
b) WordSmith Tools 4, Text Converter.

 

  • 哪些软件可以把多个纯文本(.txt)文件合并成一个大文件?

a) 文本文件合并器
b) WordSmith Tools 4, File Utilities.

 

  • 哪些软件可以把一个大纯文本(.txt)文件分割成多个文件?

WordSmith Tools 4, File Utilities.

 

  • 哪些软件可以把HTML文件自动成批转换成ASCII纯文本(.txt)?

HTML2TXT

 

  • 如何利用MS Word辅助加码 (mark up, tagging)?

 

  • 如何利用Excel计算各类语词共现数据(T-Score, MI, Z-score)?

 

  • 哪些软件可以进行关键词索引(KWIC concordancing)检索?

经过“分词”处理的汉语纯文本文档可以借助常见的索引工具(concordancer)进行检索。其他的方法有WordConcord. 经过“分字”处理的汉语纯文本文档也可以借助常见的索引工具进行检索,但效果稍差,因为没有词的单位为依据。没有经过“分词”和“分字”处理的汉语文档在进行关键词索引时要么常常出错,要么根本无法进行。

 

  • 有没有不用分词处理便可以进行汉语关键词(KWIC concordancing)检索的软件?

目前见到的不用分词处理便可以进行汉语关键词检索的软件主要是两种:PowerGREP 和 ConcApp北京语言文化大学开发的检索工具。

 

  • 现代汉语通用汉语生语料语言学属性检索统计系统(Chinese Corpus Retriever for Linguistic Attributes)CCRL V1.0

CCRL是国内外第一个可以对汉语生语料进行语言学属性检索的软件,可为语言学研究和语言教学提供有力支持。其特点是: 1、直接检索任何汉语生语料。 2、可进行字串、词串、语言学属性检索,也可以混和检索。 3、检索软件同词库、词的属性体系、词库中词的属性标注皆相互独立。即用户可以创建自己的词库、词的属性体系,自己在词库中进行词的属性标注, 该软件将使用这些数据把用户选定的生语料加工成索引并进行检索。 4、检索方式灵活,检索快速准确,检索结果可按上下文排序。 5、自动进行任何汉语文本的字频、词频统计,词频统计中包括人名、地名、机构明、数字等未登录词的统计。

 

  • What kind of program can we rely on for Chinese ngrams?

AntConc (version 3.1 or above).

 

A Corpus Worker’s Toolkit (ACWT) is a collection of NoteTab clips and Perl scripts for Chinese and English text processing. They can do some quick and dirty corpus/discourse linguistic work for those who can otherwise not afford sophisticated yet expensive commercial software programs. Most of these tools function like macros in word processing programs, but they can do much more and work in a simple text processing environment.

发表评论

电子邮件地址不会被公开。 必填项已用*标注