
注意:此代码是用 python 3.6.1 (+gensim 2.3.0) 编写的
doc2vec与gensim的python实现及应用
import re import numpy as np from gensim.models import doc2vec from gensim.models.doc2vec import taggeddocument from nltk.corpus import gutenberg from multiprocessing import pool from scipy import spatial
sentences = list(gutenberg.sents('shakespeare-hamlet.txt')) # import the corpus and convert into a list
print('type of corpus: ', type(sentences))
print('length of corpus: ', len(sentences))
语料库类型:类“list”
语料库长度:3106
print(sentences[0]) # title, author, and year print(sentences[1]) print(sentences[10])
['[', 'the', '悲剧', 'of', '哈姆雷特', 'by', '威廉', '莎士比亚', '1599', ']']
['actus', 'primus', '.']
['弗兰', '.']
预处理数据
for i in range(len(sentences)):
sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-za-z]+', word)]
print(sentences[0]) # title, author, and year
print(sentences[1])
print(sentences[10])
['the'、'悲剧'、'of'、'哈姆雷特'、'by'、'威廉'、'莎士比亚']
['actus', 'primus']
['弗兰']
for i in range(len(sentences)):
sentences[i] = taggeddocument(words = sentences[i], tags = ['sent{}'.format(i)]) # converting each sentence into a taggeddocument
sentences[0]
taggeddocument(words=['the', 'tragedie', 'of', 'hamlet', 'by', 'william', 'shakespeare'], tags=['sent0'])
Android使用SQLite数据库进行开发的教程,chm格式,SQLite 是一款非常流行的嵌入式数据库,它支持 SQL 查询,并且只用很少的内存。Android 在运行时集成了 SQLite,所以每个 Android 应用程序都可以使用 SQLite 数据库。对数熟悉 SQL 的开发人员来时,使用 SQLite 相当简单。可以,由于 JDBC 不适合手机这种内存受限设备,所以 Android 开发人员需要学习新的 API 来使用 SQLite。本文主要讲解 SQLite 在 Android 环境中的基
0
model = doc2vec(documents = sentences,dm = 1, size = 100, min_count = 1, iter = 10, workers = pool()._processes) model.init_sims(replace = true)
model.save('doc2vec_model')
model = doc2vec.load('doc2vec_model')
model.most_similar('hamlet')
[('horatio', 0.9978846311569214),
('女王', 0.9971947073936462),
('莱尔特斯', 0.9971820116043091),
('国王', 0.9968599081039429),
('妈妈', 0.9966716170310974),
('哪里', 0.9966292381286621),
('迪尔', 0.9965540170669556),
('奥菲莉亚', 0.9964221715927124),
('非常', 0.9963752627372742),
('哦', 0.9963476657867432)]
v1 = model['king']
v2 = model['queen']
# define a function that computes cosine similarity between two words
def cosine_similarity(v1, v2):
return 1 - spatial.distance.cosine(v1, v2)
cosine_similarity(v1, v2)
0.99437165260314941
立即学习“Python免费学习笔记(深入)”;
以上就是使用 Python 进行词嵌入:docc的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号