データサイエンティストハトリのブログ

PythonとインテリジェントクラウドとAIが好きな学生エンジニア。データ分析、スクレイピング、就職活動などについて書いていきます。

Mecabで形態素解析した文章をUnidic辞書で解析するプログラムを作った

f:id:hatorihatorihatorik:20180916030908p:plain

 

www.torikun.com

 

この記事の続きを書いています。

文字単位だけでなく、形態素解析を行なって文章単位で解析を行なって行きます。

 

import sys
import MeCab

import pandas as pd
import numpy as np

df = pd.read_csv("lex_ansi.csv", encoding='cp932', names=('a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u') )

input_word = df['a']
output_word = df['l']
correct_word =
bad_word =

new_word = []

def search_word(a_word):
for word in input_word:
if word == a_word:
return True
break


print("Please input a sentence")


tagger = MeCab.Tagger("-Owakati")
z = input()
result = tagger.parse(z)
result = result.split(" ")

for i in result:
if search_word(i) == True:
correct_word.append(i)
else:
bad_word.append(i)


for b in correct_word:
i = 0
for word in input_word:
if word == b:
b = b + ":" + output_word[i]
new_word.append(b)
break
i += 1
print(new_word)
print(bad_word)