如何将Python自然语言处理速度提高100倍?

投稿
APP
微信扫一扫获取更多

如何将Python自然语言处理速度提高100倍?

2018-07-30 19:08:40

提升Python自然语言处理速度100倍的实战经验

在关键的技术节点上，我们成功提升了Python自然语言处理的速度。这一成果主要归功于Hugging Face公司的机器学习专家Thomas Wolf及其团队的努力。他们开发了一款名为NeuralCoref的Python共指解析工具包，通过神经网络解析句子中的共指代词。然而，该工具包在处理较长的文本时存在速度问题，经过一系列优化，他们最终将处理速度提高了100倍。

优化过程

Thomas Wolf在处理文本较长的文章时遇到了性能瓶颈，尤其是在循环处理大量Python对象时。为了提升速度，他引入了Cython技术，这是一种结合了Python和C语言优点的语言。Cython允许开发者编写高性能的代码，同时保持Python的简洁性和易用性。

使用Cython加速循环

为了加速循环，Thomas Wolf展示了如何使用Cython将Python对象转换为C类型对象，从而大幅提升处理速度。具体步骤包括：

定义C结构：定义一个C结构体来保存矩形的宽度和高度。
使用Cython C对象：将矩形列表保存为C语言类型的数组，以提升循环速度。
Cython函数：定义一个Cython函数，接收C语言类型的数组作为输入。

下面是经过优化的Cython代码示例：

```python from cymem.cymem cimport Pool from random import random

cdef struct Rectangle: float w float h

cdef int checkrectangles(Rectangle* rectangles, int nrectangles, float threshold): cdef int nout = 0 for rectangle in rectangles[:nrectangles]: if rectangle.w * rectangle.h > threshold: nout += 1 return nout

def main(): cdef int nrectangles = 10000000 cdef float threshold = 0.25 Pool mem = Pool() Rectangle* rectangles = mem.alloc(nrectangles, sizeof(Rectangle))

for i in range(n_rectangles):
    rectangles[i].w = random()
    rectangles[i].h = random()

n_out = check_rectangles(rectangles, n_rectangles, threshold)
print(n_out)

```

使用Cython和spaCy提升NLP任务速度

在自然语言处理任务中，Thomas Wolf还展示了如何结合Cython和spaCy来提升处理速度。spaCy是一个强大的自然语言处理库，提供了高效的字符串处理功能。通过将字符串转换为64位哈希码，以及使用C语言类型的数组，可以显著提升处理速度。

示例代码

假设我们有一个包含10个文档的数据集，每个文档大约有17万个词汇。我们想计算词汇“run”在数据集中用作名词的次数（被spaCy标记为“NN”词性标签）。

以下是优化后的Cython代码示例：

```python %%cython -+ import numpy from cymem.cymem cimport Pool from spacy.tokens.doc cimport Doc from spacy.typedefs cimport hash_t from spacy.structs cimport TokenC

cdef struct DocElement: TokenC* c int length

cdef int fastloop(DocElement* docs, int ndocs, hasht word, hasht tag): cdef int nout = 0 for doc in docs[:ndocs]: for c in doc.c[:doc.length]: if c.lex.lower == word and c.tag == tag: nout += 1 return nout

def mainnlpfast(doclist): cdef int i, nout, ndocs = len(doclist) cdef Pool mem = Pool() cdef DocElement* docs = mem.alloc(n_docs, sizeof(DocElement)) cdef Doc doc

for i, doc in enumerate(doc_list):
    docs[i].c = doc.c
    docs[i].length = doc.length

word_hash = doc.vocab.strings.add('run')
tag_hash = doc.vocab.strings.add('NN')

n_out = fast_loop(docs, n_docs, word_hash, tag_hash)
print(n_out)

```

这段代码在Jupyter notebook中运行速度非常快，处理170万个词汇仅需约20微秒，相比纯Python代码提升了80倍。这使得每秒可以处理高达8000万个词汇。