
대명사 처리

pred = make_be_verb(subj)
obj = ' '.join([value for value, _ in brace_tags])
return [subj, pred, obj]
url = 'https://en.wikipedia.org/wiki/Korea'
def get_bodytext_from_url(url):
news = Article(url, language='en')
text = news.text
pattern = r'\[[^]]*\]'
text = re.sub(pattern=pattern, repl='', string=text)
return text
본 프로젝트는 '웹 문서를 자동으로 RDF로 변환하는 방법'이라는 논문을 보고 직접 구현해본 프로젝트임
## Jsoup파싱과 형태소 분석기를 이용한 태깅
stanford pos tagger (형태소 분석기)
여기서 다운로드 받음
인텔리j에서 프로젝트 만들고 File-Project Structure-Modules-Dependencies에서
stanford-postagger-4.2.0.jar 추가
jsoup-1.13.1.jar도 같이 다운 받아서 추가
다운받은 staford폴더에 models에서 english-left3words-distsim.tagger.props파일을 복사해서
프로젝트 폴더에 taggers라는 폴더 만들고 붙여넣기함
package test_package;
import edu.stanford.nlp.tagger.maxent.MaxentTagger;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import java.io.IOException;
public class main {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("https://en.wikipedia.org/wiki/Korea").get();
Elements pTags = doc.getElementsByTag("p");
String bodyText = Jsoup.parse(pTags.toString()).text();
MaxentTagger tagger = new MaxentTagger("taggers/english-left3words-distsim.tagger");
String tagged = tagger.tagString(bodyText);
위키피디아 Korea검색 결과를 파싱해서 p태그만 불러와 text로 바꾼뒤
태거를 통해 바꿔줌
### 결과
## 핵심고유단어 추출작업
tagged를 띄어쓰기로 split하여 배열을 만들고
NNP를 따로 분류한 nnp리스트를 만든뒤
Hashtable로 각 단어의 빈도수를 측정함
String[] taggedArr = tagged.split(" ");
List<String> nnp = Arrays.stream(taggedArr).filter(word -> word.contains("_NNP")).collect(Collectors.toList());
Hashtable<String,Integer> freqOfWordTable = new Hashtable<>();
for (String word : nnp) {
Integer freq = freqOfWordTable.get(word); // 단어를 꺼낸다. word가 key이고 freq가 value
freqOfWordTable.put(word, (freq == null) ? 1: freq +1);
Hashtable을 빈도수로 정렬하고 핵심 고유명사를 뽑아냄
List sortedList = sortByValue(freqOfWordTable);
String coreNoun = sortedList.get(0).toString();
System.out.println(coreNoun); // 결과 : Korea_NNP
// 맵정렬하는 메소드
public static List sortByValue(final Map map) {
List<String> list = new ArrayList();
Collections.sort(list,new Comparator() {
public int compare(Object o1,Object o2) {
Object v1 = map.get(o1);
Object v2 = map.get(o2);
return ((Comparable) v2).compareTo(v1);
//Collections.reverse(list); // 주석시 오름차순
return list;
## 트리플 추출 과정
"._."로 끊어서( .은 태그가 .임 ) sentences로 나눔
나눈 문장에 핵심 고유명사가 포함되있는지 여부를 판단함
있으면 단어별로 나눠서 핵심명사는 subject에
핵심명사 뒤에 나오는 동사는 predicate에
그 뒤에 나오는 고유명사는 object에 넣음(논문의 알고리즘 참고)
세개를 묶어 tripple을 구성하고 tripples라는 리스트에 넣음
String[] sentences = tagged.split("\\._\\.");
List<String[]> tripples = new ArrayList<>();
for (String sentence : sentences){
if (sentence.contains(coreNoun)) { //핵심 고유명사 여부
String[] words = sentence.split(" ");
String subject = "";
String predicate = "";
String object = "";
for (String word:words) {
if(word.equals(coreNoun)) {
String[] removeTag = word.split("_");
subject = removeTag[0];
}else if(word.contains("_VB") && !subject.isEmpty()) {
String[] removeTag = word.split("_");
predicate = removeTag[0];
}else if(word.contains("_NNP") && !predicate.isEmpty()) {
String[] removeTag = word.split("_");
object = removeTag[0];
if(!subject.isEmpty() && !predicate.isEmpty() && !object.isEmpty()){
String[] tripple = {subject,predicate,object};
### 결과
Jena다운 받고 [https://jena.apache.org/](https://jena.apache.org/)
File-Project Structure-Libraries에 lib 랑 lib-src 전부 추가
빈 모델 만들고 Resource, Property, RDFNode에 각각 subject, predicate, object 매핑해줌
자세한건 Jena reference 참고
Model model = ModelFactory.createDefaultModel();
for(String[] statement : tripples){
Resource s = model.createResource("http://subject/"+statement[0]);
Property p = model.createProperty("http://predicate/"+statement[1]);
RDFNode o = model.createLiteral(statement[2]);
}else {
RDFDataMgr.write(System.out, model, Lang.NTRIPLES);
# 더 연구해야될 부분
여기서는 핵심 고유명사를 단순히 빈도수가 가장 높게 나온 고유명사로 정함
kyung hee university를 검색한 결과는 university가 핵심 고유명사로 나옴
→ 이는 띄어쓰기 별로 나누어 형태소 분석을 했기때문
→ 핵심 고유명사를 선정하는 알고리즘 연구 필요
트리플 구성을 보면 이상한게 많이보임
→ 단순히 고유명사를 주어로 했을때 그 뒤에 나오는 동사를 동사로 하고 그 뒤에 나오는 고유명사를 object로 선정하였기 때문
→ 주어 동사 목적어를 매핑하는 더 정확한 알고리즘 연구 필요
