node-webkit解析excel文档

文章位置：https://github.com/Arnoldnuo/learn-nw/blob/master/node-webkit%E8%A7%A3%E6%9E%90excel%E6%96%87%E6%A1%A3.md

node-webkit可以使用nodejs的那一套的第三方扩展的，所以我们需要先去找一个可以解析excel的第三方扩展去。

由于我的windows系统总是无法编译c++写的第三方扩展，用npm安装c++写的第三方扩展总是报错，所以我找了一个非c++的第三方扩展————excel-parser，安装方法很简单，在cmd下进入你的项目的目录，在项目目录中新建一个node_modules文件夹(和index.html,package.json在同一层次),然后在cmd下输入"npm install excel-parser"安装该扩展。

本来我以为，安装成功以后就可以直接在项目中使用 require("excel-parser")来调用该解析功能了，但是失败了，怎么办，研究一下源码看能不能解决。

首先看excelParser.js中的excelParser.worksheets函数，这个函数是怎么处理excel文件的呢，下面代码是核心：

if(!exists) return cb("File not found");
args = ['-x', path.relative(__dirname, options.inFile), '-W'];
utils.execute(args, function(err, stdout) {
  if(err) return cb(err);
  worksheets = _.compact(stdout.split(/\n/));
  if(worksheets) return cb(null, JSON.parse(worksheets));
  else return cb(new Error("Not found any worksheet in given spreadsheet"));
});

然后我们看一看utils.execute()是干什么用的，我们找到utils.js里面关键代码是：

cmd.join(' '),
{cwd: __dirname},
function(err, stdout, stderr) {
  if(err) return cb(err);
  if(stderr) return cb(stderr);
  cb(null, stdout);
}

主要是执行了一个cmd命令，我们看看这个命令执行的是什么呢？python convert.py原来是执行了一个python脚本，看到这里，我们必须要配置python环境了，这个就不多说了，默认你已经搭建好了，没有搭建的话网上有很多教程的，记得要用python2.7的环境，python2和3不兼容。

搭建好了，如果发现报错信息是这样子的：xlrd is required to run this script，我们就需要查查xlrd是什么了。

xlrd是python实现的一个解析excel的文件，我们的扩展中现在没有，所以需要下载下来，下载地址，在这里下载下来以后，解压，把里面的xlrd文件夹复制到convert.py同一目录中，这时候可以执行了。

在解析某些excel的时候可能会报错unknown encoding: unknown_codepage_21010

google一下这个错误就会找到这个网页https://github.com/okfn/messytables/issues/47还有这个网页http://stackoverflow.com/questions/3511743/using-xlrd-to-read-excel-xls-file-containing-chinese-and-or-hindi-characters原来是编码的问题

看convert.py源码，是调用xlrd.open_workbook()函数来解析excel的，我们看看这个函数的实现在init.py里面有一段代码

open_workbook(filename=None,
    logfile=sys.stdout,
    verbosity=0,
    use_mmap=USE_MMAP,
    file_contents=None,
    encoding_override=None,
    formatting_info=False,
    on_demand=False,
    ragged_rows=False,
)

看到里面的encoding_override=None了么，调用的时候需要指明编码格式

于是我们把convert.py中的workbook = xlrd.open_workbook(filename=inFile)修改成workbook = xlrd.open_workbook(filename=inFile, encoding_override="cp1252")（至于为什么是cp1252，上面的两个网页中如果仔细看，有解释）。

现在就不会出现unknown encoding: unknown_codepage_21010的问题了。

至此，问题解决。

更多相关文章

随机推荐